CN114584337A - 一种基于遗传算法的语音攻击伪造方法 - Google Patents

一种基于遗传算法的语音攻击伪造方法 Download PDF

Info

Publication number
CN114584337A
CN114584337A CN202111547400.0A CN202111547400A CN114584337A CN 114584337 A CN114584337 A CN 114584337A CN 202111547400 A CN202111547400 A CN 202111547400A CN 114584337 A CN114584337 A CN 114584337A
Authority
CN
China
Prior art keywords
audio
genetic algorithm
sample
samples
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111547400.0A
Other languages
English (en)
Inventor
李千目
梁洛浦
练智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111547400.0A priority Critical patent/CN114584337A/zh
Publication of CN114584337A publication Critical patent/CN114584337A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/60Jamming involving special techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/0819Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/16Obfuscation or hiding, e.g. involving white box

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开一种基于遗传算法的语音攻击伪造方法,输入一个音频样本集合,通过遗传算法中的选择、交叉、变异三个步骤,对每次迭代过程中生成的音频样本进行改进并添加噪声,当当前解码与目标解码的编辑距离低于某个阈值时,使用梯度估计方法继续计算最优解,并使用心理声学隐藏思想,对梯度估计后得到的音频样本计算需要添加或修改的扰动大小,使生成的语音对抗样本更加不容易被察觉。本发明针对待攻击的语音识别模型,将遗传算法、梯度估计方法与心理声学隐藏思想相结合,计算最优的语音对抗样本,达到攻击语音识别模型的目标;能够有助于算法跳出局部最值,提高收敛速度,同时提高了生成的语音对抗样本的不易察觉性。

Description

一种基于遗传算法的语音攻击伪造方法
技术领域
本发明属于人工智能安全中的语音攻击技术领域,具体涉及一种基于遗传算 法的语音攻击伪造方法。
背景技术
深度神经网络在大多数机器学习任务,例如图像分类、字幕生成、语音识别 等各种应用中都取得了巨大的成功。虽然神经网络的准确性大大提高,能够基本 与人类的认知能力相匹配,但它们容易受到对抗样本的影响。即使是高度准确的 神经网络也具有该问题。一个很小的对抗性扰动可以欺骗深层神经网络,使其错 误地以高置信度预测特定目标。一个对抗样本是一个神经网络的输入,虽然最初 训练好的神经网络能够将原始音频样本正确识别,但向原始音频样本中添加一个 微小的扰动后,扰动后的音频对抗样本便被训练好的神经网络错误分类。通过设 计音频对抗样本可以对训练有素的基于深度神经网络的语音识别模型成功进行 攻击。
目前已经成功开发了一些白盒语音攻击技术,然而在白盒语音攻击技术中, 假设攻击者可以访问模型网络的所有参数在实践中是不现实的。在黑盒攻击方法 的设置中,攻击者只能访问网络的日志或输出,此种生成对抗样本攻击语音识别 模型的方法更加贴近现实情况。而现有的黑盒语音攻击方法计算语音对抗样本过 程中的收敛速度较慢,同时生成的语音对抗样本噪声较为明显。例如文献 1(Alzantot M,Balaji B,Srivastava M.Didyou hear that adversarial examples against automatic speech recognition.arXivpreprint arXiv:1801.00554,2018.)提出了一种使 用标准遗传算法框架生成语音对抗样本的方法,但存在收敛速度较慢,且只能针 对单个英文单词生成对抗性音频样本的问题。
发明内容
本发明解决的技术问题:提供一种将遗传算法、梯度估计方法与心理声学隐 藏思想相结合,计算最优的语音对抗样本,达到攻击语音识别模型的目标的基于 遗传算法的语音攻击伪造方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于遗传算法的语音攻击伪造方法,包括以下步骤:
S1:针对待攻击的语音识别模型,使用遗传算法搜索音频对抗样本最优解;
S2:在使用遗传算法即将寻找出音频对抗样本最优解时,使用梯度估计方法 继续计算最优解;
S3:使用心理声学隐藏思想,对步骤S2得到的音频样本计算需要添加或修改 的扰动大小;
S4:重复步骤S1、S2和S3,直到计算出最优的音频对抗样本。
进一步地,步骤S1中,遗传算法接收一个音频样本输入集合,通过选择、 交叉、变异三个步骤反复迭代,对每次迭代过程中生成的音频样本进行改进并添 加噪声,使受到噪声干扰的对抗性音频样本与原音频样本类似,但被解码为特定 的目标标签。
进一步地,在选择步骤中,对于每次迭代过程,计算音频集合中每个样本的 得分,以确定哪些音频样本是最好的;采用的适应度函数是连接主义时间分类损 失,然后通过从音频集合中选择具有最高评分的音频样本来形成精英群体。
进一步地,在交叉步骤中,从精英群体中选择两个音频样本作为亲代样本并 执行交叉,通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频 样本;选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得 分。
进一步地,在变异步骤中,将以一定的概率对交叉步骤生成的子代音频样本 添加一个变异,采用动量突变方法计算变异概率,最后根据动量突变方法更新变 异概率,使新的突变概率在每次迭代中更新而变化,并进入下一次迭代;通过多 次迭代,音频种群得到持续改善,最终,算法将达到最大迭代次数并返回当前生 成的音频对抗样本,或者得到符合条件的音频对抗样本,该音频对抗样本将解码 为目标。
进一步地,新的突变概率pnew在每次迭代中根据下式(1)的加权更新而变 化,并进入下一次迭代,
Figure BDA0003416119080000021
其中,pold为上一次迭代中计算的突变概率,currScore为当前计算的音频 种群中最高的适应度得分,prevScore为上一次迭代中所计算的音频种群中最高 的适应度得分,α和β为平衡突变概率与适应度得分权重的参数。
进一步地,步骤S2中,使用的梯度估计方法计算最优解的方法如式(2)所 示:
Figure BDA0003416119080000031
其中,x指的是能够表示音频文件的输入向量,δi指的是一个值充分小的扰 动向量,g(·)表示评估函数,具体为CTC Loss函数。
进一步地,步骤S3中,使用心理声学隐藏思想计算音频样本需要添加或修 改的扰动大小的方法,具体包括以下步骤:
S31:对于给定的音频输入,计算其掩蔽阈值;
S32:扰动大小δ仅受掩蔽阈值约束,具体来说,在每次迭代中,对于遗传 算法和梯度估计产生的音频对抗样本,为对其添加的扰动进行优化,使用式(3) 更新扰动δ:
Figure BDA0003416119080000032
其中,lr2为学习速率,
Figure BDA0003416119080000033
为l相对于δ的梯度,l(·)为损失函数,α为损失平 衡参数,初始时α为一个充分小的值,并根据攻击过程的变化自适应更新。 有益效果:与现有技术相比,本发明具有以下优点:
(1)在遗传算法的变异步骤中使用动量突变方法,为突变概率增加了加速 度,当算法陷入局部最值时,相比在变异步骤仅使用常量突变概率,动量突变通 过保持较高的突变概率,允许突变累积并相互叠加。有助于算法跳出局部最大值, 同时收敛得比常量突变概率更快;
(2)使用心理声学隐藏思想,通过优化音频样本所需的扰动,将对抗性扰 动添加到人类听觉频率范围之外,从而提高了生成的语音对抗样本的不易察觉 性。
附图说明
图1是基于遗传算法的语音攻击伪造方法结构示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前 提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范 围。
如图1所示,本发明中的基于遗传算法的黑盒语音攻击方法,将遗传算法、 梯度估计方法与心理声学隐藏思想相结合,计算最优的语音对抗样本,达到攻击 语音识别模型的目标。本发明能够有助于算法跳出局部最值,提高收敛速度,同 时提高了生成的语音对抗样本的不易察觉性。包括以下步骤:
步骤S1:针对待攻击的语音识别模型,使用遗传算法搜索音频对抗样本最 优解。
遗传算法接收一个音频样本输入集合,通过选择、交叉、变异三个步骤反复 迭代,对每次迭代过程中生成的音频样本进行改进并添加噪声,从而使受到噪声 干扰的对抗性音频样本与原音频样本类似,但被解码为特定的目标标签。
选择:在该步骤中,对于每次迭代过程,计算音频集合中每个样本的得分, 以确定哪些音频样本是最好的。采用的适应度函数是连接主义时间分类损失 (CTC Loss),它能够确定输入音频序列和给定目标短语之间的相似性。然后通过 从音频集合中选择具有最高评分的音频样本来形成精英群体。精英群体中含有希 望遗传给后代的具有理想特征的音频样本。
交叉:在该步骤中,从精英群体中选择两个音频样本作为亲代样本并执行交 叉,通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频样本。 选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得分。
变异:在该步骤中,将以一定的概率对交叉步骤生成的子代音频样本添加一 个变异。计算该变异概率使用的是动量突变方法。最后根据动量突变方法更新变 异概率,使新的突变概率pnew在每次迭代中根据式(1)的加权更新而变化,并进入 下一次迭代。
Figure BDA0003416119080000051
其中pold为上一次迭代中计算的突变概率,currScore为当前计算的音频种 群中最高的适应度得分,prevScore为上一次迭代中所计算的音频种群中最高的 适应度得分,α和β为平衡突变概率与适应度得分权重的参数。
通过多次迭代,音频种群将得到持续改善,因为只有前几代的最佳性状以及 最佳突变将保留下来。最终,算法将达到最大迭代次数并返回当前生成的音频对 抗样本,或者得到符合条件的音频对抗样本,该音频对抗样本将解码为目标。
步骤S2:在使用遗传算法即将寻找出音频对抗样本最优解时,使用梯度估 计方法继续计算最优解。具体来说,当当前解码与目标解码的编辑距离低于某个 阈值时,使用梯度估计方法来计算音频对抗样本。
使用的梯度估计方法如式(2)所示:
Figure BDA0003416119080000052
其中,x指的是能够表示音频文件的输入向量,δi指的是一个值充分小的扰 动向量。g(·)表示评估函数,本方法中指的是CTC Loss函数。方法本质上是在 向量的每个索引上添加一个小扰动,该方法中只对每一代的音频样本随机抽取 100个指标来添加扰动。并独立查看CTC Loss的差异,以此计算关于输入向量x 的梯度估计。
步骤S3:使用心理声学隐藏思想,对步骤S2得到的音频样本计算需要添加 或修改的扰动大小,使生成的语音对抗样本更加不容易被察觉。具体方法如下:
步骤S31:对于给定的音频输入,计算其掩蔽阈值。
步骤S32:在此步骤中,扰动大小δ仅受掩蔽阈值约束。具体来说,在每次 迭代中,对于遗传算法和梯度估计产生的音频对抗样本,为对其添加的扰动进行 优化,使用式(3)更新扰动δ:
Figure BDA0003416119080000061
其中lr2为学习速率,
Figure BDA0003416119080000062
为l相对于δ的梯度,l(·)为损失函数,α为损失平衡 参数,初始时α为一个充分小的值,并根据攻击过程的变化自适应更新,具体来 说,在每20次迭代中,如果当前的对抗样本成功地欺骗了受害模型,那么α就 会适当增加,以试图使对抗样本更不易察觉,在每50次迭代中,如果当前的对 抗样本未能得到有目标的预测结果,那么适当减少α的值。
步骤D:重复步骤S1、S2、S3,直到计算出最优的音频对抗样本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些 改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于遗传算法的语音攻击伪造方法,其特征在于,包括以下步骤:
S1:针对待攻击的语音识别模型,使用遗传算法搜索音频对抗样本最优解;
S2:在使用遗传算法即将寻找出音频对抗样本最优解时,使用梯度估计方法继续计算最优解;
S3:使用心理声学隐藏思想,对步骤S2得到的音频样本计算需要添加或修改的扰动大小;
S4:重复步骤S1、S2和S3,直到计算出最优的音频对抗样本。
2.根据权利要求1所述的基于遗传算法的语音攻击伪造方法,其特征在于:步骤S1中,遗传算法接收一个音频样本输入集合,通过选择、交叉、变异三个步骤反复迭代,对每次迭代过程中生成的音频样本进行改进并添加噪声,使受到噪声干扰的对抗性音频样本与原音频样本类似,但被解码为特定的目标标签。
3.根据权利要求2所述的基于遗传算法的语音攻击伪造方法,其特征在于:在选择步骤中,对于每次迭代过程,计算音频集合中每个样本的得分,以确定哪些音频样本是最好的;采用的适应度函数是连接主义时间分类损失,然后通过从音频集合中选择具有最高评分的音频样本来形成精英群体。
4.根据权利要求2所述的基于遗传算法的语音攻击伪造方法,其特征在于:在交叉步骤中,从精英群体中选择两个音频样本作为亲代样本并执行交叉,通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频样本;选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得分。
5.根据权利要求2所述的基于遗传算法的语音攻击伪造方法,其特征在于:在变异步骤中,将以一定的概率对交叉步骤生成的子代音频样本添加一个变异,采用动量突变方法计算变异概率,最后根据动量突变方法更新变异概率,使新的突变概率在每次迭代中更新而变化,并进入下一次迭代;通过多次迭代,音频种群得到持续改善,最终,算法将达到最大迭代次数并返回当前生成的音频对抗样本,或者得到符合条件的音频对抗样本,该音频对抗样本将解码为目标。
6.根据权利要求5所述的基于遗传算法的语音攻击伪造方法,其特征在于:新的突变概率pnew在每次迭代中根据下式(1)的加权更新而变化,并进入下一次迭代,
Figure FDA0003416119070000021
其中,pold为上一次迭代中计算的突变概率,currScore为当前计算的音频种群中最高的适应度得分,prevScore为上一次迭代中所计算的音频种群中最高的适应度得分,α和β为平衡突变概率与适应度得分权重的参数。
7.根据权利要求1所述的基于遗传算法的语音攻击伪造方法,其特征在于:步骤S2中,使用的梯度估计方法计算最优解的方法如式(2)所示:
Figure FDA0003416119070000022
其中,x指的是能够表示音频文件的输入向量,δi指的是一个值充分小的扰动向量,g(·)表示评估函数,具体为CTC Loss函数。
8.根据权利要求1所述的基于遗传算法的语音攻击伪造方法,其特征在于:步骤S3中,使用心理声学隐藏思想计算音频样本需要添加或修改的扰动大小的方法,具体包括以下步骤:
S31:对于给定的音频输入,计算其掩蔽阈值;
S32:扰动大小δ仅受掩蔽阈值约束,具体来说,在每次迭代中,对于遗传算法和梯度估计产生的音频对抗样本,为对其添加的扰动进行优化,使用式(3)更新扰动δ:
Figure FDA0003416119070000023
其中,lr2为学习速率,
Figure FDA0003416119070000024
为l相对于δ的梯度,l(·)为损失函数,α为损失平衡参数,初始时α为一个充分小的值,并根据攻击过程的变化自适应更新。
CN202111547400.0A 2021-12-16 2021-12-16 一种基于遗传算法的语音攻击伪造方法 Pending CN114584337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111547400.0A CN114584337A (zh) 2021-12-16 2021-12-16 一种基于遗传算法的语音攻击伪造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111547400.0A CN114584337A (zh) 2021-12-16 2021-12-16 一种基于遗传算法的语音攻击伪造方法

Publications (1)

Publication Number Publication Date
CN114584337A true CN114584337A (zh) 2022-06-03

Family

ID=81771817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111547400.0A Pending CN114584337A (zh) 2021-12-16 2021-12-16 一种基于遗传算法的语音攻击伪造方法

Country Status (1)

Country Link
CN (1) CN114584337A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204890A (zh) * 2023-04-28 2023-06-02 浙江鹏信信息科技股份有限公司 一种自适应增强人工智能算法安全的算法组件库

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161468A1 (zh) * 2017-03-10 2018-09-13 东莞理工学院 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110992934A (zh) * 2019-10-28 2020-04-10 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161468A1 (zh) * 2017-03-10 2018-09-13 东莞理工学院 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110992934A (zh) * 2019-10-28 2020-04-10 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROHAN TAORI等: "Targeted Adversarial Examples for Black Box Audio Systems", 2019 IEEE SECURITY AND PRIVACY WORKSHOPS (SPW), pages 1 - 6 *
YAO QIN等: "Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition", THE 36 TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, pages 1 - 11 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204890A (zh) * 2023-04-28 2023-06-02 浙江鹏信信息科技股份有限公司 一种自适应增强人工智能算法安全的算法组件库

Similar Documents

Publication Publication Date Title
CN110992934B (zh) 面向语音识别系统黑盒攻击模型的防御方法及防御装置
Thienpondt et al. Integrating frequency translational invariance in tdnns and frequency positional information in 2d resnets to enhance speaker verification
Gelly et al. Optimization of RNN-based speech activity detection
CN108520268B (zh) 基于样本选择和模型进化的黑盒对抗性攻击防御方法
CN110767216A (zh) 一种基于pso算法的语音识别攻击防御方法
CN111627429B (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
CN111477247A (zh) 基于gan的语音对抗样本生成方法
CN108170848A (zh) 一种面向中国移动智能客服的对话场景分类方法
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN111507384A (zh) 一种黑盒深度模型对抗样本生成方法
Zhang et al. Evolving neural network classifiers and feature subset using artificial fish swarm
CN113362822A (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN114584337A (zh) 一种基于遗传算法的语音攻击伪造方法
CN111785274B (zh) 一种针对语音识别系统的黑盒对抗样本生成方法
CN114048290A (zh) 一种文本分类方法及装置
CN114373467A (zh) 一种基于三种群并行遗传算法的对抗性音频样本生成方法
CN113948067B (zh) 一种具有听觉高保真度特点的语音对抗样本修复方法
CN113449865B (zh) 一种增强训练人工智能模型的优化方法
CN115495578A (zh) 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
Kwon et al. Audio adversarial detection through classification score on speech recognition systems
CN113851149A (zh) 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法
CN115409078A (zh) 一种基于集成重建机制的对抗样本攻击的防御方法
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
Huang et al. Generation of black-box audio adversarial examples based on gradient approximation and autoencoders
CN113946688B (zh) 一种寻找自然语言处理模型天然后门的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination