CN114584337A - 一种基于遗传算法的语音攻击伪造方法 - Google Patents
一种基于遗传算法的语音攻击伪造方法 Download PDFInfo
- Publication number
- CN114584337A CN114584337A CN202111547400.0A CN202111547400A CN114584337A CN 114584337 A CN114584337 A CN 114584337A CN 202111547400 A CN202111547400 A CN 202111547400A CN 114584337 A CN114584337 A CN 114584337A
- Authority
- CN
- China
- Prior art keywords
- audio
- genetic algorithm
- sample
- samples
- iteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002068 genetic effect Effects 0.000 title claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000035772 mutation Effects 0.000 claims description 38
- 230000003042 antagnostic effect Effects 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 235000000332 black box Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/60—Jamming involving special techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0816—Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
- H04L9/0819—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/16—Obfuscation or hiding, e.g. involving white box
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种基于遗传算法的语音攻击伪造方法,输入一个音频样本集合,通过遗传算法中的选择、交叉、变异三个步骤,对每次迭代过程中生成的音频样本进行改进并添加噪声,当当前解码与目标解码的编辑距离低于某个阈值时,使用梯度估计方法继续计算最优解,并使用心理声学隐藏思想,对梯度估计后得到的音频样本计算需要添加或修改的扰动大小,使生成的语音对抗样本更加不容易被察觉。本发明针对待攻击的语音识别模型,将遗传算法、梯度估计方法与心理声学隐藏思想相结合,计算最优的语音对抗样本,达到攻击语音识别模型的目标;能够有助于算法跳出局部最值,提高收敛速度,同时提高了生成的语音对抗样本的不易察觉性。
Description
技术领域
本发明属于人工智能安全中的语音攻击技术领域,具体涉及一种基于遗传算 法的语音攻击伪造方法。
背景技术
深度神经网络在大多数机器学习任务,例如图像分类、字幕生成、语音识别 等各种应用中都取得了巨大的成功。虽然神经网络的准确性大大提高,能够基本 与人类的认知能力相匹配,但它们容易受到对抗样本的影响。即使是高度准确的 神经网络也具有该问题。一个很小的对抗性扰动可以欺骗深层神经网络,使其错 误地以高置信度预测特定目标。一个对抗样本是一个神经网络的输入,虽然最初 训练好的神经网络能够将原始音频样本正确识别,但向原始音频样本中添加一个 微小的扰动后,扰动后的音频对抗样本便被训练好的神经网络错误分类。通过设 计音频对抗样本可以对训练有素的基于深度神经网络的语音识别模型成功进行 攻击。
目前已经成功开发了一些白盒语音攻击技术,然而在白盒语音攻击技术中, 假设攻击者可以访问模型网络的所有参数在实践中是不现实的。在黑盒攻击方法 的设置中,攻击者只能访问网络的日志或输出,此种生成对抗样本攻击语音识别 模型的方法更加贴近现实情况。而现有的黑盒语音攻击方法计算语音对抗样本过 程中的收敛速度较慢,同时生成的语音对抗样本噪声较为明显。例如文献 1(Alzantot M,Balaji B,Srivastava M.Didyou hear that adversarial examples against automatic speech recognition.arXivpreprint arXiv:1801.00554,2018.)提出了一种使 用标准遗传算法框架生成语音对抗样本的方法,但存在收敛速度较慢,且只能针 对单个英文单词生成对抗性音频样本的问题。
发明内容
本发明解决的技术问题:提供一种将遗传算法、梯度估计方法与心理声学隐 藏思想相结合,计算最优的语音对抗样本,达到攻击语音识别模型的目标的基于 遗传算法的语音攻击伪造方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于遗传算法的语音攻击伪造方法,包括以下步骤:
S1:针对待攻击的语音识别模型,使用遗传算法搜索音频对抗样本最优解;
S2:在使用遗传算法即将寻找出音频对抗样本最优解时,使用梯度估计方法 继续计算最优解;
S3:使用心理声学隐藏思想,对步骤S2得到的音频样本计算需要添加或修改 的扰动大小;
S4:重复步骤S1、S2和S3,直到计算出最优的音频对抗样本。
进一步地,步骤S1中,遗传算法接收一个音频样本输入集合,通过选择、 交叉、变异三个步骤反复迭代,对每次迭代过程中生成的音频样本进行改进并添 加噪声,使受到噪声干扰的对抗性音频样本与原音频样本类似,但被解码为特定 的目标标签。
进一步地,在选择步骤中,对于每次迭代过程,计算音频集合中每个样本的 得分,以确定哪些音频样本是最好的;采用的适应度函数是连接主义时间分类损 失,然后通过从音频集合中选择具有最高评分的音频样本来形成精英群体。
进一步地,在交叉步骤中,从精英群体中选择两个音频样本作为亲代样本并 执行交叉,通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频 样本;选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得 分。
进一步地,在变异步骤中,将以一定的概率对交叉步骤生成的子代音频样本 添加一个变异,采用动量突变方法计算变异概率,最后根据动量突变方法更新变 异概率,使新的突变概率在每次迭代中更新而变化,并进入下一次迭代;通过多 次迭代,音频种群得到持续改善,最终,算法将达到最大迭代次数并返回当前生 成的音频对抗样本,或者得到符合条件的音频对抗样本,该音频对抗样本将解码 为目标。
进一步地,新的突变概率pnew在每次迭代中根据下式(1)的加权更新而变 化,并进入下一次迭代,
其中,pold为上一次迭代中计算的突变概率,currScore为当前计算的音频 种群中最高的适应度得分,prevScore为上一次迭代中所计算的音频种群中最高 的适应度得分,α和β为平衡突变概率与适应度得分权重的参数。
进一步地,步骤S2中,使用的梯度估计方法计算最优解的方法如式(2)所 示:
其中,x指的是能够表示音频文件的输入向量,δi指的是一个值充分小的扰 动向量,g(·)表示评估函数,具体为CTC Loss函数。
进一步地,步骤S3中,使用心理声学隐藏思想计算音频样本需要添加或修 改的扰动大小的方法,具体包括以下步骤:
S31:对于给定的音频输入,计算其掩蔽阈值;
S32:扰动大小δ仅受掩蔽阈值约束,具体来说,在每次迭代中,对于遗传 算法和梯度估计产生的音频对抗样本,为对其添加的扰动进行优化,使用式(3) 更新扰动δ:
(1)在遗传算法的变异步骤中使用动量突变方法,为突变概率增加了加速 度,当算法陷入局部最值时,相比在变异步骤仅使用常量突变概率,动量突变通 过保持较高的突变概率,允许突变累积并相互叠加。有助于算法跳出局部最大值, 同时收敛得比常量突变概率更快;
(2)使用心理声学隐藏思想,通过优化音频样本所需的扰动,将对抗性扰 动添加到人类听觉频率范围之外,从而提高了生成的语音对抗样本的不易察觉 性。
附图说明
图1是基于遗传算法的语音攻击伪造方法结构示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前 提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范 围。
如图1所示,本发明中的基于遗传算法的黑盒语音攻击方法,将遗传算法、 梯度估计方法与心理声学隐藏思想相结合,计算最优的语音对抗样本,达到攻击 语音识别模型的目标。本发明能够有助于算法跳出局部最值,提高收敛速度,同 时提高了生成的语音对抗样本的不易察觉性。包括以下步骤:
步骤S1:针对待攻击的语音识别模型,使用遗传算法搜索音频对抗样本最 优解。
遗传算法接收一个音频样本输入集合,通过选择、交叉、变异三个步骤反复 迭代,对每次迭代过程中生成的音频样本进行改进并添加噪声,从而使受到噪声 干扰的对抗性音频样本与原音频样本类似,但被解码为特定的目标标签。
选择:在该步骤中,对于每次迭代过程,计算音频集合中每个样本的得分, 以确定哪些音频样本是最好的。采用的适应度函数是连接主义时间分类损失 (CTC Loss),它能够确定输入音频序列和给定目标短语之间的相似性。然后通过 从音频集合中选择具有最高评分的音频样本来形成精英群体。精英群体中含有希 望遗传给后代的具有理想特征的音频样本。
交叉:在该步骤中,从精英群体中选择两个音频样本作为亲代样本并执行交 叉,通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频样本。 选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得分。
变异:在该步骤中,将以一定的概率对交叉步骤生成的子代音频样本添加一 个变异。计算该变异概率使用的是动量突变方法。最后根据动量突变方法更新变 异概率,使新的突变概率pnew在每次迭代中根据式(1)的加权更新而变化,并进入 下一次迭代。
其中pold为上一次迭代中计算的突变概率,currScore为当前计算的音频种 群中最高的适应度得分,prevScore为上一次迭代中所计算的音频种群中最高的 适应度得分,α和β为平衡突变概率与适应度得分权重的参数。
通过多次迭代,音频种群将得到持续改善,因为只有前几代的最佳性状以及 最佳突变将保留下来。最终,算法将达到最大迭代次数并返回当前生成的音频对 抗样本,或者得到符合条件的音频对抗样本,该音频对抗样本将解码为目标。
步骤S2:在使用遗传算法即将寻找出音频对抗样本最优解时,使用梯度估 计方法继续计算最优解。具体来说,当当前解码与目标解码的编辑距离低于某个 阈值时,使用梯度估计方法来计算音频对抗样本。
使用的梯度估计方法如式(2)所示:
其中,x指的是能够表示音频文件的输入向量,δi指的是一个值充分小的扰 动向量。g(·)表示评估函数,本方法中指的是CTC Loss函数。方法本质上是在 向量的每个索引上添加一个小扰动,该方法中只对每一代的音频样本随机抽取 100个指标来添加扰动。并独立查看CTC Loss的差异,以此计算关于输入向量x 的梯度估计。
步骤S3:使用心理声学隐藏思想,对步骤S2得到的音频样本计算需要添加 或修改的扰动大小,使生成的语音对抗样本更加不容易被察觉。具体方法如下:
步骤S31:对于给定的音频输入,计算其掩蔽阈值。
步骤S32:在此步骤中,扰动大小δ仅受掩蔽阈值约束。具体来说,在每次 迭代中,对于遗传算法和梯度估计产生的音频对抗样本,为对其添加的扰动进行 优化,使用式(3)更新扰动δ:
其中lr2为学习速率,为l相对于δ的梯度,l(·)为损失函数,α为损失平衡 参数,初始时α为一个充分小的值,并根据攻击过程的变化自适应更新,具体来 说,在每20次迭代中,如果当前的对抗样本成功地欺骗了受害模型,那么α就 会适当增加,以试图使对抗样本更不易察觉,在每50次迭代中,如果当前的对 抗样本未能得到有目标的预测结果,那么适当减少α的值。
步骤D:重复步骤S1、S2、S3,直到计算出最优的音频对抗样本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些 改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于遗传算法的语音攻击伪造方法,其特征在于,包括以下步骤:
S1:针对待攻击的语音识别模型,使用遗传算法搜索音频对抗样本最优解;
S2:在使用遗传算法即将寻找出音频对抗样本最优解时,使用梯度估计方法继续计算最优解;
S3:使用心理声学隐藏思想,对步骤S2得到的音频样本计算需要添加或修改的扰动大小;
S4:重复步骤S1、S2和S3,直到计算出最优的音频对抗样本。
2.根据权利要求1所述的基于遗传算法的语音攻击伪造方法,其特征在于:步骤S1中,遗传算法接收一个音频样本输入集合,通过选择、交叉、变异三个步骤反复迭代,对每次迭代过程中生成的音频样本进行改进并添加噪声,使受到噪声干扰的对抗性音频样本与原音频样本类似,但被解码为特定的目标标签。
3.根据权利要求2所述的基于遗传算法的语音攻击伪造方法,其特征在于:在选择步骤中,对于每次迭代过程,计算音频集合中每个样本的得分,以确定哪些音频样本是最好的;采用的适应度函数是连接主义时间分类损失,然后通过从音频集合中选择具有最高评分的音频样本来形成精英群体。
4.根据权利要求2所述的基于遗传算法的语音攻击伪造方法,其特征在于:在交叉步骤中,从精英群体中选择两个音频样本作为亲代样本并执行交叉,通过从两个亲代样本中分别提取大约一半的特征来创建一个子代音频样本;选择音频样本作为亲代音频样本的依据是样本采用适应度函数的计算得分。
5.根据权利要求2所述的基于遗传算法的语音攻击伪造方法,其特征在于:在变异步骤中,将以一定的概率对交叉步骤生成的子代音频样本添加一个变异,采用动量突变方法计算变异概率,最后根据动量突变方法更新变异概率,使新的突变概率在每次迭代中更新而变化,并进入下一次迭代;通过多次迭代,音频种群得到持续改善,最终,算法将达到最大迭代次数并返回当前生成的音频对抗样本,或者得到符合条件的音频对抗样本,该音频对抗样本将解码为目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547400.0A CN114584337A (zh) | 2021-12-16 | 2021-12-16 | 一种基于遗传算法的语音攻击伪造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547400.0A CN114584337A (zh) | 2021-12-16 | 2021-12-16 | 一种基于遗传算法的语音攻击伪造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114584337A true CN114584337A (zh) | 2022-06-03 |
Family
ID=81771817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111547400.0A Pending CN114584337A (zh) | 2021-12-16 | 2021-12-16 | 一种基于遗传算法的语音攻击伪造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114584337A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204890A (zh) * | 2023-04-28 | 2023-06-02 | 浙江鹏信信息科技股份有限公司 | 一种自适应增强人工智能算法安全的算法组件库 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161468A1 (zh) * | 2017-03-10 | 2018-09-13 | 东莞理工学院 | 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN110992934A (zh) * | 2019-10-28 | 2020-04-10 | 浙江工业大学 | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 |
-
2021
- 2021-12-16 CN CN202111547400.0A patent/CN114584337A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018161468A1 (zh) * | 2017-03-10 | 2018-09-13 | 东莞理工学院 | 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN110992934A (zh) * | 2019-10-28 | 2020-04-10 | 浙江工业大学 | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 |
Non-Patent Citations (2)
Title |
---|
ROHAN TAORI等: "Targeted Adversarial Examples for Black Box Audio Systems", 2019 IEEE SECURITY AND PRIVACY WORKSHOPS (SPW), pages 1 - 6 * |
YAO QIN等: "Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition", THE 36 TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, pages 1 - 11 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204890A (zh) * | 2023-04-28 | 2023-06-02 | 浙江鹏信信息科技股份有限公司 | 一种自适应增强人工智能算法安全的算法组件库 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992934B (zh) | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 | |
Thienpondt et al. | Integrating frequency translational invariance in tdnns and frequency positional information in 2d resnets to enhance speaker verification | |
Gelly et al. | Optimization of RNN-based speech activity detection | |
CN108520268B (zh) | 基于样本选择和模型进化的黑盒对抗性攻击防御方法 | |
CN110767216A (zh) | 一种基于pso算法的语音识别攻击防御方法 | |
CN111627429B (zh) | 一种基于CycleGAN的语音识别模型的防御方法及装置 | |
CN111477247A (zh) | 基于gan的语音对抗样本生成方法 | |
CN108170848A (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN113033822A (zh) | 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统 | |
CN111507384A (zh) | 一种黑盒深度模型对抗样本生成方法 | |
Zhang et al. | Evolving neural network classifiers and feature subset using artificial fish swarm | |
CN113362822A (zh) | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 | |
CN114584337A (zh) | 一种基于遗传算法的语音攻击伪造方法 | |
CN111785274B (zh) | 一种针对语音识别系统的黑盒对抗样本生成方法 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN114373467A (zh) | 一种基于三种群并行遗传算法的对抗性音频样本生成方法 | |
CN113948067B (zh) | 一种具有听觉高保真度特点的语音对抗样本修复方法 | |
CN113449865B (zh) | 一种增强训练人工智能模型的优化方法 | |
CN115495578A (zh) | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 | |
Kwon et al. | Audio adversarial detection through classification score on speech recognition systems | |
CN113851149A (zh) | 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 | |
CN115409078A (zh) | 一种基于集成重建机制的对抗样本攻击的防御方法 | |
CN112906820A (zh) | 基于遗传算法的对抗卷积神经网络句子相似度计算方法 | |
Huang et al. | Generation of black-box audio adversarial examples based on gradient approximation and autoencoders | |
CN113946688B (zh) | 一种寻找自然语言处理模型天然后门的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |