CN110767216B - 一种基于pso算法的语音识别攻击防御方法 - Google Patents
一种基于pso算法的语音识别攻击防御方法 Download PDFInfo
- Publication number
- CN110767216B CN110767216B CN201910851698.0A CN201910851698A CN110767216B CN 110767216 B CN110767216 B CN 110767216B CN 201910851698 A CN201910851698 A CN 201910851698A CN 110767216 B CN110767216 B CN 110767216B
- Authority
- CN
- China
- Prior art keywords
- data set
- audio
- sample
- recognition model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/002—Countermeasures against attacks on cryptographic mechanisms
Abstract
一种基于PSO算法的语音识别攻击防御方法,包括:(1)准备原始音频数据集,分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集;(2)训练语音识别模型:搭建语音识别模型并初始化模型的相关参数,利用预训练数据集对语音识别模型进行训练,并使用测试数据集测试模型的识别准确率;(3)攻击语音识别模型:搭建基于PSO算法的攻击方法,设置适应度函数及PSO算法的相关参数,利用该攻击方法生成的最优对抗样本能够被错误识别且不被人耳识别;(4)对抗训练语音识别模型:将步骤(3)中生成的对抗样本加入预训练数据集中,重新训练语音识别模型,使得语音识别模型具有防御对抗样本攻击的能力,提高模型的安全性和稳定性。
Description
技术领域
本发明涉及一种基于PSO算法的语音识别攻击防御方法。
背景技术
随着近年来机器学习的快速发展,语音识别技术逐渐成为人们生活中的关键技术之一。智能设备通过对输入的语音音频提取相关信息并加以处理,可以转录处正确的文字内容,甚至实现和人们的交流互动。随着研究者的不懈努力,语音识别技术逐渐走向成熟,识别精度不断提高,应用范围也不断扩大,为人们的生产生活带来了极大的便利。然而最新的科学研究表明,基于深度学习的语音识别模型存在一定的缺陷,容易受到对抗样本的干扰。攻击者通过在原始音频中添加经过精心计算后的微小扰动,使得语音识别模型转录成错误的短语,而这种扰动通常是人耳所不能察觉的。在现实生活场景中,这些扰动可能让语音识别系统转录成与原始音频截然不同的短语,使得被控制的设备做出错误的操作,极有可能造成隐私的泄露或者带来安全威胁。
目前已有的语音识别攻击方法主要分为白盒和黑盒攻击。白盒攻击方法在已知模型内部参数的情况下,在原始音频矩阵上添加扰动使得生成的对抗样本转录为目标短语。已有的黑盒语音识别攻击方法,在未知模型内部参数的情况下也能够获得很好的攻击效果。多目标遗传优化的攻击方法通过设定初始种群并评估种群中每个个体的适应度,选择适应度较高的个体直接遗传到下一代或通过交叉配对产生新的个体再遗传到下一代,淘汰不符合要求的个体并随机产生变异,不断迭代优化并搜索找到满足条件的最优个体。
语音识别防御方法主要有检测对抗样本、对抗训练等。对抗样本检测方法通过找到对抗样本的特征从而实现检测,并拒绝识别检测到的对抗样本,避免识别系统受到对抗样本的攻击。对抗训练方法将生成的对抗样本加入预训练数据集中重新训练语音识别模型,从而提高语音识别模型的安全性。
鉴于语音识别技术存在上述的安全威胁,研究一种基于PSO优化算法的黑盒语音识别模型的攻击方法,通过该方法生成对抗样本,并将生成的对抗样本加入预训练数据集中对抗训练语音识别模型,使得模型能够有效防御对抗样本。
发明内容
针对现有技术的语音识别模型存在的容易受到对抗攻击的安全性问题,本发明提供了一种基于PSO算法的语音识别攻击防御方法,该方法可以高效生成转录错误的对抗音频样本,并通过对抗训练提高模型防御对抗样本的能力。
一种基于PSO算法的语音识别攻击防御方法,包括以下步骤:
(1)准备原始音频数据集:采集多种不同场景下的多种类音频并进行预处理,分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集,其具体过程如下:
Step11:采集多种场景下的多种类音频,包括人说话的声音、音乐声真实生活场景中的声音,其中人说话的内容包括文章朗读片段、各种指示指令等,音频采集环境包含安静环境和嘈杂环境,嘈杂环境中有汽车鸣笛声、音乐声、人说话声音的干扰,干扰的影响有限,能够使人类清晰识别出说话者的说话内容。
Step12:将上述采集的音频进行裁剪并处理成数据流格式的音频文件,对每个音频都添加相应的标签;
Step13:将预处理后的音频分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集;
(2)训练语音识别模型:搭建语音识别模型并初始化模型的相关参数,利用预训练数据集对语音识别模型进行训练,并使用测试数据集测试模型的识别准确率,若模型不能达到预设的准确率,则调整语音识别模型的参数重新训练测试,直到模型达到预设的识别准确率;
(3)攻击语音识别模型:搭建基于PSO算法的攻击方法,设置适应度函数及PSO算法的相关参数,利用该攻击方法生成的最优对抗样本能够被错误识别且不被人耳识别;攻击语音识别模型的具体过程如下:
Step31:初始化PSO算法所需的相关参数并设置适应度函数;PSO算法所需的参数包括最大迭代次数、粒子群个体数量、粒子位置上下接、粒子速度上下界、初始惯性因子等;
Step32:初始化种群;随机初始化与原始音频相同大小的扰动矩阵并叠加到原始音频矩阵上得到初始对抗样本;
Step33:利用PSO算法迭代优化扰动矩阵,使得对抗样本的转录结果发生改变且不被人耳发觉;
Step34:当添加扰动后的对抗音频样本转录结果与原始音频标签之间的差距达到设定的值,或者达到最大迭代次数时,将添加扰动的音频矩阵转换成音频文件。
(4)对抗训练语音识别模型:将步骤(3)中生成的对抗样本加入预训练数据集中,重新训练语音识别模型,使得语音识别模型具有防御对抗样本攻击的能力,提高模型的安全性和稳定性。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过PSO算法,在未知模型内部参数的情况下能够生成转录错误的对抗音频,并将对抗音频加入预训练数据集用于对抗训练,使得语音识别模型具备防御对抗样本的能力,具有更高的安全性和稳定性。
2、本发明生成的对抗样本与原始样本之间的差异较小,能够在不被人耳发觉的情况下实现攻击,具有较高的隐秘性,符合真实攻击场景中的要求。
3、本发明通过限制粒子位置和速度的范围,使得生成的对抗音频矩阵的幅值在一定范围之内,与原始音频的差距维持在一定范围之内,避免出现生成的对抗音频失真的情况。
附图说明
图1为本发明方法的流程示意图;
图2为本发明的迭代优化算法的算法流程图;
图3(1)和图3(2)为本发明实施例中原始样本和对抗样本的效果示意图,其中图3(1)为原始音频波形,图3(2)为对抗样本音频波形。
具体实施方式
下面结合说明书附图和实例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
参照图1-图3(2),一种基于PSO算法的语音识别攻击防御方法包括以下步骤:
(1)准备原始音频数据集:采集多种不同场景下的多种类音频并进行预处理,按照一定的比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集,其具体过程如下:
Step11:采集多种场景下的多种类音频,包括人说话的声音、音乐声真实生活场景中的声音,其中人说话的内容包括文章朗读片段、各种指示指令等,音频采集环境包含安静环境和嘈杂环境,嘈杂环境中有汽车鸣笛声、音乐声、人说话声音的干扰,干扰的影响有限,能够使人类清晰识别出说话者的说话内容;
Step12:将上述采集的音频进行裁剪并处理成数据流格式的音频文件,对每个音频都添加相应的标签;
Step13:将预处理后的音频分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集;
(2)训练语音识别模型:搭建语音识别模型并初始化模型的相关参数,利用预训练数据集对语音识别模型进行训练,并使用测试数据集测试模型的识别准确率,若模型不能达到预设的准确率,则调整语音识别模型的参数重新训练测试,直到模型达到预设的识别准确率;
(3)攻击语音识别模型:搭建基于PSO算法的攻击方法,设置适应度函数及PSO算法的相关参数,利用该攻击方法生成的最优对抗样本能够被错误识别且不被人耳识别;攻击语音识别模型的具体过程如下:
Step31:初始化适应度函数,定义适应度函数如下;
其中,第一项CTC-Loss利用CTC算法来衡量对抗样本与原始音频标签之间的距离,第二项中x表示生成的对抗样本,x0表示原始音频,该项通过L2范数来衡量对抗样本与原始音频样本之间的差异,c为一个常数,使得生成的对抗样本与原始音频之间的差异尽可能小,而对抗样本转录结果与原始音频标签之间的差距尽可能大,在人耳不能发觉的情况下实现无目标攻击;
Step32:初始化PSO算法的相关参数;设置最大迭代次数Gk,初始惯性因子ωini,最大迭代次数时的惯性因子ωend,粒子群中的个体数量m。为了防止对抗样本失真,限制粒子位置范围[xl,xh],即对抗样本每个采样点的值在[xl,xh]范围内;。
Step33:初始化种群;随机初始化扰动矩阵,扰动矩阵与原始音频矩阵的形状相同,将扰动矩阵与原始音频矩阵叠加得到初始对抗样本,设为X={x1,x2,...,xm};
Step34:更新惯性权重因子;对于第g次更新,惯性权重因子应满足:
ω(g)=(ωini-ωend)(Gk-g)/Gk+ωend (2)
Step35:更新粒子的速度和位置;计算当前每个粒子的适应度,得到每个粒子历史最优位置pbesti(1≤i≤m),种群全局最优位置gbest,则每个粒子速度的更新满足:
其中,表示第i个粒子在第g次更新后的速度,表示第i个粒子在第g次更新后的位置,c1和c2为学习因子,通常设置为2,rand1和rand2为介于(0,1)之间的随机数,限制粒子的速度范围[vl,vh];
粒子位置的更新过程如下所示:
当微粒的位置、速度超出设定的范围时,即音频矩阵中的幅值和变化速度超出范围时,则用边界值取代;
Step36:若迭代次数达到设定的最大迭代次数或者全局最优个体与原始音频标签的CTC-Loss达到设定值时,则停止迭代,并将最优对抗样本转换为音频。若不满足上述条件,则重复Step33-Step35的步骤,继续迭代寻优;
(4)对抗训练语音识别模型:将步骤(3)中生成的对抗样本加入预训练数据集中,重新训练语音识别模型,使得语音识别模型具有防御对抗样本攻击的能力,提高模型的安全性和稳定性。
本发明采用PSO优化算法,在不了解语音识别模型内部参数的情况下,通过不断优化扰动的位置和大小,能够高效生成转录为错误短语的对抗样本,且生成的对抗音频能够不被人耳所识别,具有较高的隐秘性。同时将生成的对抗样本用于对抗训练,使得语音识别模型具有更高的安全性和稳定性。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于PSO算法的语音识别攻击防御方法,包括以下步骤:
(1)准备原始音频数据集:采集多种不同场景下的多种类音频并进行预处理,分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集,其具体过程如下:
Step11:采集多种场景下的多种类音频,包括人说话的声音、音乐声真实生活场景中的声音,其中人说话的内容包括文章朗读片段、各种指示指令,音频采集环境包含安静环境和嘈杂环境,嘈杂环境中有汽车鸣笛声、音乐声、人说话声音的干扰,干扰的影响有限,能够使人类清晰识别出说话者的说话内容;
Step12:将上述采集的音频进行裁剪并处理成数据流格式的音频文件,对每个音频都添加相应的标签;
Step13:将预处理后的音频分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集;
(2)训练语音识别模型:搭建语音识别模型并初始化模型的相关参数,利用预训练数据集对语音识别模型进行训练,并使用测试数据集测试模型的识别准确率,若模型不能达到预设的准确率,则调整语音识别模型的参数重新训练测试,直到模型达到预设的识别准确率;
(3)攻击语音识别模型:搭建基于PSO算法的攻击方法,设置适应度函数及PSO算法的相关参数,利用该攻击方法生成的最优对抗样本能够被错误识别且不被人耳识别;攻击语音识别模型的具体过程如下:
Step31:初始化适应度函数,定义适应度函数如下;
其中,第一项CTC-Loss利用CTC算法来衡量对抗样本与原始音频标签之间的距离,第二项中x表示生成的对抗样本,x0表示原始音频,该项通过L2范数来衡量对抗样本与原始音频样本之间的差异,c为一个常数,使得生成的对抗样本与原始音频之间的差异尽可能小,而对抗样本转录结果与原始音频标签之间的差距尽可能大,在人耳不能发觉的情况下实现无目标攻击;
Step32:初始化PSO算法的相关参数;设置最大迭代次数Gk,初始惯性因子ωini,最大迭代次数时的惯性因子ωend,粒子群中的个体数量m;为了防止对抗样本失真,限制粒子位置范围[xl,xh],即对抗样本每个采样点的值在[xl,xh]范围内;
Step33:初始化种群;随机初始化扰动矩阵,扰动矩阵与原始音频矩阵的形状相同,将扰动矩阵与原始音频矩阵叠加得到初始对抗样本,设为X={x1,x2,...,xm};
Step34:更新惯性权重因子;对于第g次更新,惯性权重因子应满足:
ω(g)=(ωini-ωend)(Gk-g)/Gk+ωend (2)
Step35:更新粒子的速度和位置;计算当前每个粒子的适应度,得到每个粒子历史最优位置pbesti(1≤i≤m),种群全局最优位置gbest,则每个粒子速度的更新满足:
其中,表示第i个粒子在第g次更新后的速度,表示第i个粒子在第g次更新后的位置,c1和c2为学习因子,通常设置为2,rand1和rand2为介于(0,1)之间的随机数,限制粒子的速度范围[vl,vh];
粒子位置的更新过程如下所示:
当微粒的位置、速度超出设定的范围时,即音频矩阵中的幅值和变化速度超出范围时,则用边界值取代;
Step36:若迭代次数达到设定的最大迭代次数或者全局最优个体与原始音频标签的CTC-Loss达到设定值时,则停止迭代,并将最优对抗样本转换为音频;若不满足上述条件,则重复Step33-Step35的步骤,继续迭代寻优;
(4)对抗训练语音识别模型:将步骤(3)中生成的对抗样本加入预训练数据集中,重新训练语音识别模型,使得语音识别模型具有防御对抗样本攻击的能力,提高模型的安全性和稳定性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910851698.0A CN110767216B (zh) | 2019-09-10 | 2019-09-10 | 一种基于pso算法的语音识别攻击防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910851698.0A CN110767216B (zh) | 2019-09-10 | 2019-09-10 | 一种基于pso算法的语音识别攻击防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110767216A CN110767216A (zh) | 2020-02-07 |
CN110767216B true CN110767216B (zh) | 2021-12-07 |
Family
ID=69329793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910851698.0A Active CN110767216B (zh) | 2019-09-10 | 2019-09-10 | 一种基于pso算法的语音识别攻击防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110767216B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310836B (zh) * | 2020-02-20 | 2023-08-18 | 浙江工业大学 | 一种基于声谱图的声纹识别集成模型的防御方法及防御装置 |
CN111402921B (zh) * | 2020-03-13 | 2023-01-24 | 合肥工业大学 | 语音复制粘贴篡改检测方法和系统 |
CN113506564B (zh) * | 2020-03-24 | 2024-04-12 | 百度在线网络技术(北京)有限公司 | 用于生成对抗声音信号的方法、装置、设备和介质 |
CN111461239B (zh) * | 2020-04-03 | 2023-05-09 | 成都考拉悠然科技有限公司 | 基于白盒攻击的ctc场景文字识别模型优化方法 |
CN111476228A (zh) * | 2020-04-07 | 2020-07-31 | 海南阿凡题科技有限公司 | 针对场景文字识别模型的白盒对抗样本生成方法 |
CN111652267B (zh) * | 2020-04-21 | 2023-01-31 | 清华大学 | 对抗样本的生成方法、装置、电子设备及存储介质 |
CN111785274B (zh) * | 2020-06-28 | 2023-12-05 | 宁波大学 | 一种针对语音识别系统的黑盒对抗样本生成方法 |
CN111783998B (zh) * | 2020-06-30 | 2023-08-11 | 百度在线网络技术(北京)有限公司 | 一种违规账号识别模型训练方法、装置及电子设备 |
CN111930634B (zh) * | 2020-09-09 | 2021-01-15 | 北京瑞莱智慧科技有限公司 | 模型处理方法、装置、介质和计算设备 |
CN112333402B (zh) * | 2020-10-20 | 2021-10-22 | 浙江大学 | 一种基于声波的图像对抗样本生成方法及系统 |
CN113611329B (zh) * | 2021-07-02 | 2023-10-24 | 北京三快在线科技有限公司 | 一种语音异常检测的方法及装置 |
CN113948067B (zh) * | 2021-10-08 | 2022-05-27 | 北京计算机技术及应用研究所 | 一种具有听觉高保真度特点的语音对抗样本修复方法 |
CN114627858A (zh) * | 2022-05-09 | 2022-06-14 | 杭州海康威视数字技术股份有限公司 | 基于粒子群算法的智能语音识别安全防御方法和装置 |
CN114627876B (zh) * | 2022-05-09 | 2022-08-26 | 杭州海康威视数字技术股份有限公司 | 基于音频动态调节的智能语音识别安全防御方法及装置 |
CN117012204B (zh) * | 2023-07-25 | 2024-04-09 | 贵州师范大学 | 一种针对说话人识别系统对抗样本的防御方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3520361B1 (en) * | 2016-10-03 | 2022-04-06 | Telepathy Labs, Inc. | System and method for social engineering identification and alerting |
CN109599109B (zh) * | 2018-12-26 | 2022-03-25 | 浙江大学 | 针对白盒场景的对抗音频生成方法及系统 |
CN109887496A (zh) * | 2019-01-22 | 2019-06-14 | 浙江大学 | 一种黑盒场景下的定向对抗音频生成方法及系统 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN110610708B (zh) * | 2019-08-31 | 2021-10-15 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN110992934B (zh) * | 2019-10-28 | 2022-04-26 | 浙江工业大学 | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 |
CN112349281B (zh) * | 2020-10-28 | 2022-03-08 | 浙江工业大学 | 基于StarGAN的语音识别模型的防御方法 |
-
2019
- 2019-09-10 CN CN201910851698.0A patent/CN110767216B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110767216A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110767216B (zh) | 一种基于pso算法的语音识别攻击防御方法 | |
CN111261147B (zh) | 一种面向语音识别系统的音乐嵌入攻击防御方法 | |
CN110992934B (zh) | 面向语音识别系统黑盒攻击模型的防御方法及防御装置 | |
KR102605736B1 (ko) | 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치 | |
CN110610708B (zh) | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN102779510B (zh) | 基于特征空间自适应投影的语音情感识别方法 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN109887496A (zh) | 一种黑盒场景下的定向对抗音频生成方法及系统 | |
CN109767776B (zh) | 一种基于密集神经网络的欺骗语音检测方法 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN110879881B (zh) | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 | |
CN103077720A (zh) | 一种说话人识别方法及系统 | |
CN111081223B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN103578481A (zh) | 一种跨语言的语音情感识别方法 | |
CN113362822B (zh) | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 | |
CN106971180A (zh) | 一种基于语音字典稀疏迁移学习的微表情识别方法 | |
Tamura et al. | Novel defense method against audio adversarial example for speech-to-text transcription neural networks | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN111325143A (zh) | 一种数据集不均衡条件下的水下目标识别方法 | |
CN113111786B (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN107103913A (zh) | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 | |
CN114093371A (zh) | 基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |