CN111261147A - 一种面向语音识别系统的音乐嵌入攻击防御方法 - Google Patents

一种面向语音识别系统的音乐嵌入攻击防御方法 Download PDF

Info

Publication number
CN111261147A
CN111261147A CN202010062197.7A CN202010062197A CN111261147A CN 111261147 A CN111261147 A CN 111261147A CN 202010062197 A CN202010062197 A CN 202010062197A CN 111261147 A CN111261147 A CN 111261147A
Authority
CN
China
Prior art keywords
audio
network
music
training
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010062197.7A
Other languages
English (en)
Other versions
CN111261147B (zh
Inventor
陈晋音
郑喆
叶林辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010062197.7A priority Critical patent/CN111261147B/zh
Publication of CN111261147A publication Critical patent/CN111261147A/zh
Application granted granted Critical
Publication of CN111261147B publication Critical patent/CN111261147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

面向语音识别系统的音乐嵌入攻击防御方法,包括:(1)数据集准备及预处理;(2)训练语音识别模型;(3)预训练生成对抗网络;(4)重训练生成对抗网络;(5)生成对抗样本;(6)对抗训练。本发明通过生成对抗网络生成音乐音频,并且使用语音识别模型得到对抗音频的转录结果,利用转录结果与目标短语之间的损失以及判别器的判别结果设置目标函数来优化生成器,使得生成的对抗音频能够不被人耳所识别且转录为目标短语;通过对抗训练提高语音识别系统防御对抗样本攻击的能力。

Description

一种面向语音识别系统的音乐嵌入攻击防御方法
技术领域
本发明涉及一种基于GAN的音乐嵌入语音识别系统攻击防御方法。
背景技术
目前,深度学习已经被广泛应用于图像识别、语音识别、数据生成等领域。生成式对抗网络是深度学习领域常用的模型之一,通过生成模型和判别模型的相互博弈学习可以输出较好的结果。
基于深度学习的语音识别系统为人们的日常生产生活带来了极大的便利,但同时也容易受到隐藏的攻击,通过在原有音频中添加人耳不能发觉的扰动,可以使得音频的转录结果发生改变,若攻击者精心设计扰动使得生成的对抗样本转录为目标短语,将极有可能损害使用者的个人隐私甚至人身安全。
目前已有的语音识别攻击方法主要分为白盒攻击和黑盒攻击。黑盒攻击方法在未知模型内部参数的情况下,利用启发式算法计算得到最优扰动,使添加对抗扰动后的音频与原始音频的差异尽可能小且能够转录成目标短语。白盒攻击方法需要在了解模型内部参数的情况下通过反向传播算法计算梯度并更新模型参数。另外,攻击者还通过添加不在人耳识别频率范围内的噪声实现攻击。由于麦克风等设备的非线性,这些噪声在经过麦克风后能够被语音识别系统识别,并转录成相应的短语。常用的语音识别防御方法有对抗训练,通过将对抗样本加入训练数据集重训练模型使得模型具备防御对抗样本的能力,由于上述攻击方法是对特定的音频添加干扰,需要对大量的音频处理生成相应对抗样本,所需的计算量较大。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于生成式对抗网络(GenerativeAdversarial Network:GAN)的音乐嵌入语音识别攻击防御方法。
本发明通过音频生成网络生成音乐音频,并且使用语音识别模型得到生成音频的转录结果,利用转录结果与目标短语之间的损失以及判别器的输出结果建立目标函数来优化生成网络,使得生成的对抗音频能够不被人耳所识别且转录为目标短语。
为实现上述发明目的,本发明提供以下技术方案:
利用生成模型生成音乐音频;
利用语音识别模型得到生成音乐音频的转录结果;
利用判别器判别样本为生成的对抗样本或真实音乐样本,使得生成的对抗样本不失真;
所述音频生成模型、判别模型和语音识别模型通过以下模型训练体系训练得到,所述模型训练体系包括:
音频生成网络(Generator:G),用于生成音乐音频,其输入为一定长度的噪声矩阵;
音频判别网络(Discriminator 1:D1),其输入为正常音乐音频和生成音乐音频,输出为对正常音乐音频和生成音乐音频的判定结果,用于判别音频的真实性,使得生成的音乐音频能够保持音乐的基本特征,不被人耳发觉;
语音识别模型(Discriminator 2:D2),其输入为音频生成模型生成的音乐音频,输出为音频转录结果和当前转录结果与目标短语的损失值;
本发明的一种面向语音识别系统的音乐嵌入攻击防御方法,具体过程为:
(1)数据集准备及预处理:采集实验需要的语音音频,分为预训练数据集和用于生成对抗样本的扰动数据集,并对数据集进行裁剪等预处理;
(2)训练语音识别模型:利用语音数据集对语音识别模型进行训练,并用测试数据集进行测试,使其能够达到预设的识别准确率;
(3)预训练生成对抗网络:预训练音频生成网络G、音频判别网络D1,得到生成网络和判别网络的初始参数;
(4)重训练:固定音频生成网络G的参数,训练更新音频判别网络D1的参数;固定音频判别网络D1的参数,训练更新音频生成网络G的参数,按照上述过程交替迭代训练音频生成网络G和判别网络D1,直到达到设定的迭代次数。训练好的音频生成网络G即为音频生成模型,训练好的音频判别网络D1即为音频判别模型;
(5)生成对抗样本;
(6)对抗训练:将生成的对抗样本加入训练数据集中,再次训练语音识别模型,使其具有防御对抗样本的能力。
该基于GAN的音乐嵌入语音识别攻击防御方法具有的效果为:可以生成隐藏有语音指令的音乐音频,该音频通过语音识别系统可以转录成目标短语。同时,通过对抗训练后的语音识别系统能够防御隐藏有语音指令音乐音频的攻击。通过这种方法可以提高信息的安全性,保护用户的个人隐私和人身安全。
与现有技术相比,本发明具有以下有益效果:
1、本发明生成的对抗样本可以实现对语音识别系统的攻击,且能够不被人耳所辨识;
2、本发明生成的对抗样本将扰动添加到音乐中,在每次播放音乐的过程中都可能实现攻击,具有较好的传播性和较大的安全隐患,通过对抗训练提高语音识别系统的防御能力具有较高的实际意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术中所需要使用的附图做简单的介绍。
图1为本发明中模型训练体系的结构示意图;
图2为本发明实施例的方法流程示意图;
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参照图1-图2,一种面向语音识别系统的音乐嵌入攻击防御方法包括以下步骤:
(1)数据集准备及预处理:采集实验所需的音乐音频,分为预训练数据集和用于生成对抗样本的扰动数据集,对采集所得的音乐音频进行裁剪并处理成数据流格式;
(2)训练语音识别模型:利用处理得到的音乐音频数据集对语音识别模型进行训练,使得模型能够具有识别歌词的能力,并利用测试数据集对语音识别模型测试,若未达到预设的识别准确率则重新训练语音识别模型;
(3)预训练生成对抗网络:预训练音频生成网络G、音频判别网络D1,得到生成网络和判别网络的初始参数;
该音乐音频生成模型和音乐音频判别模型是利用如图1所示的模型训练体系获得的,具体的模型训练体系包括三个模块:分别为音频生成网络G、音频判别网络D1、语音识别模型D2。
音频生成网络G生成音乐音频,即通过输入一个噪声矩阵可以获得一个音频矩阵;音频生成网络G是由LSTM单元和全连接层构成的神经网络,原始的输入矩阵为[1,N],N表示采样时间点个数,矩阵中的每个值表示每个采样点的采样值;
音频判别网络D1判别正常的音乐音频和生成的音乐音频,定义正常音乐音频的类标为1,生成音乐音频的类标为0,通过判别网络的损失反馈更新音频生成网络G的参数,使该生成网络生成的音频更接近真实音乐音频;音频判别网络D1主要由全连接层构成,输出为0-1之间的一个数表示判别结果,判别结果越接近1表示生成的音频更接近正常音乐音频,判别结果越接近0则表示生成的音频虚假性较高,容易被人耳识别;
语音识别模型D2识别音乐音频中的歌词,即将音乐音频转录成对应的文字。语音识别模型首先通过特征提取获得音频的MFCC特征向量,特征提取的具体过程如下:
Step1:对音频矩阵进行预加重,并以40ms为一帧进行分割,相邻帧之间重叠160个采样点,使得相邻帧之间保持内容上的关联性。
Step2:将分割后的每帧音频通过傅里叶变换得到对应的频谱,并在频谱上进行倒谱分析,即通过对频谱进行离散余弦变换获取第2-13个系数作为梅尔倒谱系数。
Step3:计算梅尔倒谱系数的一阶差分和能量值,与12维的梅尔倒谱系数构成26维的特征向量,特征向量大小[batch_size,n_frames,26],其中batch_size表示每一批次中的样本数量,n_frames表示音频的帧数;
其中,语音识别模型D2主要由DNN和双向RNN网络构成,识别模型的输出为每帧被识别为不同字符的概率。
语音识别模型的输出作为语言模型的输入,通过贪心算法搜索得到最可能被识别的字符序列,并得到最终转录结果;
(4)重训练生成对抗网络:重训练包括固定音频生成网络G的参数,更新音频判别网络D1的参数以及固定音频判别网络D1的参数,更新音频生成网络G的参数两个过程,重训练的具体过程如下;
Step1:固定音频生成网络G和语音识别模型D2的参数,将真实音乐音频、生成的音乐音频作为音频判别网络D1的输入训练音频判别网络D1,提高判别网络判别虚假生成音频和真实音乐音频的能力;
Step2:固定音频判别网络D1和语音识别模型D2的参数,将噪声矩阵作为音频生成网络G的输入,根据音频判别模型和语音识别模型的损失更新音频生成模型G的参数,使其生成的音乐音频更加接近正常音乐音频,能够不被人耳辨别其虚假性;
Step3:重复Step1、Step2交替迭代训练音频生成网络G和判别网络D1,直到达到设定的迭代次数训练停止,训练好的音频生成网络G为音频生成模型,音频判别网络D1为音频判别模型;
训练过程中音频生成网络和判别网络的目标函数分别如式(1)、(2)所示:
Figure BDA0002374844820000071
Figure BDA0002374844820000072
其中,xG表示音频生成网络G生成的音乐音频,xmusic表示真实音乐音频;pdata表示真实音频的分布,pG表示音频生成网络G的输出分布,D1(xmusic)和D1(xG)分别表示音频判别网络D1对真实音乐音频xmusic和生成音乐音频xG的判别结果;
音频生成网络目标函数的第一项衡量了生成音频与真实音频之间的差距,第二项利用CTC-loss来衡量当前生成音频与目标短语之间的距离,目标函数的值越小,表示生成的音频越接近真实音频,且转录结果与目标短语越相近;
(5)生成对抗样本:利用训练好的生成对抗网络生成能够转录为目标短语的对抗样本,同时确保对抗样本能够保持音乐的基本特性,不被人耳辨识;
(6)对抗训练:将步骤(5)中得到的对抗样本加入到预训练数据集中,重新训练语音识别模型,得到能够防御对抗样本攻击的语音识别模型.
本发明采用生成对抗网络,在不了解语音识别模型内部参数的情况下,能够生成使语音识别模型转录为目标短语的对抗样本,并将对抗样本用于对抗训练,提高语音识别模型防御对抗样本的能力。本发明生成的对抗样本转录为目标短语的前提下,不被人耳辨识,具有较高的隐秘性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种面向语音识别系统的音乐嵌入攻击防御方法,包括以下步骤:
(1)数据集准备及预处理:采集实验所需的音乐音频,分为预训练数据集和用于生成对抗样本的扰动数据集,对采集所得的音乐音频进行裁剪并处理成数据流格式;
(2)训练语音识别模型:利用处理得到的音乐音频数据集对语音识别模型进行训练,使得模型能够具有识别歌词的能力,并利用测试数据集对语音识别模型测试,若未达到预设的识别准确率则重新训练语音识别模型;
(3)预训练生成对抗网络:预训练音频生成网络G、音频判别网络D1,得到生成网络和判别网络的初始参数;
该音频生成模型和音频判别模型是利用如图1所示的模型训练体系获得的,具体的模型训练体系包括三个模块:分别为音频生成网络G、音频判别网络D1、语音识别模型D2.
音频生成网络G生成音乐音频,即通过输入一个噪声矩阵可以获得一个音频矩阵;音频生成网络G是由LSTM单元和全连接层构成的神经网络,原始的输入矩阵为[1,N],N表示采样时间点个数,矩阵中的每个值表示每个采样点的采样值;
音频判别网络D1判别正常的音乐音频和生成的音乐音频,定义正常音乐音频的类标为1,生成音乐音频的类标为0,通过判别网络的损失反馈更新音频生成网络G的参数,使该生成网络生成的音频更接近真实音乐音频;音频判别网络D1主要由全连接层构成,输出为0-1之间的一个数表示判别结果,判别结果越接近1表示生成的音频更接近正常音乐音频,判别结果越接近0则表示生成的音频虚假性较高,容易被人耳识别;
语音识别模型D2识别音乐音频中的歌词,即将音乐音频转录成对应的文字;语音识别模型首先通过特征提取获得音频的MFCC特征向量,特征提取的具体过程如下:
Step31:对音频矩阵进行预加重,并以40ms为一帧进行分割,相邻帧之间重叠160个采样点,使得帧与帧之间保持内容上的关联性;
Step32:将分割后的每帧音频通过傅里叶变换得到对应的频谱,并在频谱上进行倒谱分析,即通过对频谱进行离散余弦变换获取第2-13个系数作为梅尔倒谱系数;
Step33:计算梅尔倒谱系数的一阶差分和能量值,与12维的梅尔倒谱系数构成26维的特征向量,特征向量大小[batch_size,n_frames,26],其中batch_size表示每一批次中的样本数量,n_frames表示音频的帧数;
其中,语音识别模型D2主要由DNN和双向RNN网络构成;识别模型的输出为每帧被识别为不同字符的概率。语音识别模型的输出作为语言模型的输入,通过贪心算法搜索得到最可能被识别的字符序列,并得到最终转录结果;
(4)重训练生成对抗网络:重训练包括固定音频生成网络G的参数,更新音频判别网络D1的参数以及固定音频判别网络D1的参数,更新音频生成网络G的参数两个过程,重训练的具体过程如下;
Step41:固定音频生成网络G和语音识别模型D2的参数,将真实音乐音频、生成的音乐音频作为音频判别网络D1的输入训练音频判别网络D1,提高判别网络判别虚假生成音频和真实音乐音频的能力;
Step42:固定音频判别网络D1和语音识别模型D2的参数,将噪声矩阵作为音频生成网络G的输入,根据判别网络的损失更新音频生成模型G的参数,使其生成的音乐音频更加接近正常音乐音频,能够不被人耳辨别其虚假性;
Step43:重复Step41、Step42交替迭代训练音频生成网络G和判别网络D1,直到达到设定的迭代次数训练停止,训练好的音频生成网络G为音频生成模型,音频判别网络D1为音频判别模型;
训练过程中音频生成网络和判别网络的目标函数分别如式(1)、(2)所示:
Figure FDA0002374844810000031
Figure FDA0002374844810000032
其中,xG表示音频生成网络G生成的音乐音频,xmusic表示真实音乐音频;pdata表示真实音频的分布,pG表示音频生成网络G的输出分布,D1(xmusic)和D1(xG)分别表示音频判别网络D1对真实音乐音频xmusic和生成音乐音频xG的判别结果;
音频生成网络目标函数的第一项衡量了生成音频与真实音频之间的差距,第二项利用CTC-loss来衡量当前生成音频与目标短语之间的距离,目标函数的值越小,表示生成的音频越接近真实音频,且转录结果与目标短语越相近。
(5)生成对抗样本:利用训练好的生成对抗网络生成能够转录为目标短语的对抗样本,同时确保对抗样本能够保持音乐的基本特性,不能被人耳辨识;
(6)对抗训练:将步骤(5)中得到的对抗样本加入到预训练数据集中,重新训练语音识别模型,得到能够防御对抗样本攻击的语音识别模型。
CN202010062197.7A 2020-01-20 2020-01-20 一种面向语音识别系统的音乐嵌入攻击防御方法 Active CN111261147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010062197.7A CN111261147B (zh) 2020-01-20 2020-01-20 一种面向语音识别系统的音乐嵌入攻击防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010062197.7A CN111261147B (zh) 2020-01-20 2020-01-20 一种面向语音识别系统的音乐嵌入攻击防御方法

Publications (2)

Publication Number Publication Date
CN111261147A true CN111261147A (zh) 2020-06-09
CN111261147B CN111261147B (zh) 2022-10-11

Family

ID=70945667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010062197.7A Active CN111261147B (zh) 2020-01-20 2020-01-20 一种面向语音识别系统的音乐嵌入攻击防御方法

Country Status (1)

Country Link
CN (1) CN111261147B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863025A (zh) * 2020-07-13 2020-10-30 宁波大学 一种音频来源反取证方法
CN111898753A (zh) * 2020-08-05 2020-11-06 字节跳动有限公司 音乐转录模型的训练方法、音乐转录方法以及对应的装置
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN112287323A (zh) * 2020-10-27 2021-01-29 西安电子科技大学 基于生成对抗网络的语音验证码生成方法
CN112581929A (zh) * 2020-12-11 2021-03-30 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音私密度掩蔽信号生成方法及系统
CN112951214A (zh) * 2021-04-01 2021-06-11 山东大学 一种抗对抗样本攻击的语音识别模型训练方法
CN113537291A (zh) * 2021-06-16 2021-10-22 中国人民解放军战略支援部队信息工程大学 频域对抗样本生成方法及系统
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN115225309A (zh) * 2022-05-19 2022-10-21 宁波大学 一种基于变速变调的语音对抗样本防御方法
CN116758899A (zh) * 2023-08-11 2023-09-15 浙江大学 一种基于语义空间扰动的语音识别模型安全性测评方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110610708A (zh) * 2019-08-31 2019-12-24 浙江工业大学 一种基于布谷鸟搜索算法的声纹识别攻击防御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110610708A (zh) * 2019-08-31 2019-12-24 浙江工业大学 一种基于布谷鸟搜索算法的声纹识别攻击防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ELOI ALONSO: "Adversarial Generation of Handwritten Text Images Conditioned on Sequences", 《ARXIV:1903.00277V1 [CS.CV]》 *
翟中华: "基于生成对抗网络的自监督表示学习研究及应用", 《博士学位论文》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863025A (zh) * 2020-07-13 2020-10-30 宁波大学 一种音频来源反取证方法
CN111898753A (zh) * 2020-08-05 2020-11-06 字节跳动有限公司 音乐转录模型的训练方法、音乐转录方法以及对应的装置
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN112287323B (zh) * 2020-10-27 2022-10-21 西安电子科技大学 基于生成对抗网络的语音验证码生成方法
CN112287323A (zh) * 2020-10-27 2021-01-29 西安电子科技大学 基于生成对抗网络的语音验证码生成方法
CN112581929A (zh) * 2020-12-11 2021-03-30 山东省计算中心(国家超级计算济南中心) 基于生成对抗网络的语音私密度掩蔽信号生成方法及系统
CN112951214A (zh) * 2021-04-01 2021-06-11 山东大学 一种抗对抗样本攻击的语音识别模型训练方法
CN113537291A (zh) * 2021-06-16 2021-10-22 中国人民解放军战略支援部队信息工程大学 频域对抗样本生成方法及系统
CN113537291B (zh) * 2021-06-16 2023-06-16 中国人民解放军战略支援部队信息工程大学 图像频域对抗样本生成方法及系统
CN113946688B (zh) * 2021-10-20 2022-09-23 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN115225309A (zh) * 2022-05-19 2022-10-21 宁波大学 一种基于变速变调的语音对抗样本防御方法
CN115225309B (zh) * 2022-05-19 2023-06-13 宁波大学 一种基于变速变调的语音对抗样本防御方法
CN116758899A (zh) * 2023-08-11 2023-09-15 浙江大学 一种基于语义空间扰动的语音识别模型安全性测评方法
CN116758899B (zh) * 2023-08-11 2023-10-13 浙江大学 一种基于语义空间扰动的语音识别模型安全性测评方法

Also Published As

Publication number Publication date
CN111261147B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN111261147B (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
CN110767216B (zh) 一种基于pso算法的语音识别攻击防御方法
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN110610708B (zh) 一种基于布谷鸟搜索算法的声纹识别攻击防御方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN110444208A (zh) 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及系统
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
Todkar et al. Speaker recognition techniques: A review
Zheng et al. When automatic voice disguise meets automatic speaker verification
Zhang et al. A highly stealthy adaptive decay attack against speaker recognition
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
CN115293214A (zh) 一种基于样本扩充网络的水声目标识别模型优化方法
Efanov et al. The BiLSTM-based synthesized speech recognition
Wu et al. Audio-based expansion learning for aerial target recognition
Komlen et al. Text independent speaker recognition using LBG vector quantization
CN111816187A (zh) 复杂环境下基于深层神经网络的语音特征映射方法
Dong et al. Adversarial example devastation and detection on speech recognition system by adding random noise
Huang et al. Generation of black-box audio adversarial examples based on gradient approximation and autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant