CN110444208A - 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 - Google Patents
一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 Download PDFInfo
- Publication number
- CN110444208A CN110444208A CN201910739959.XA CN201910739959A CN110444208A CN 110444208 A CN110444208 A CN 110444208A CN 201910739959 A CN201910739959 A CN 201910739959A CN 110444208 A CN110444208 A CN 110444208A
- Authority
- CN
- China
- Prior art keywords
- audio
- speech recognition
- matrix
- resisting sample
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 28
- 230000007123 defense Effects 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 23
- 238000013518 transcription Methods 0.000 claims abstract description 11
- 230000035897 transcription Effects 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 4
- 238000003860 storage Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 12
- 239000000243 solution Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于梯度估计和CTC算法的语音识别攻击防御方法,包括:对采集的语音音频进行预处理,形成能够直接输入语音识别模型的音频矩阵,将音频矩阵分成训练集和测试集;利用训练集中的音频矩阵训练语音识别模型,并利用测试集中的音频矩阵验证语音识别模型的识别准确率;初始化对抗样本,根据对抗样本的转录结果与目标短语之间的距离和原始音频矩阵和对抗样本的距离构建对抗样本的优化目标函数,以优化目标函数最小为迭代目标,估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动,以获得最优的对抗样本。该语音识别攻击防御方法能够生成不被人耳识别的对抗样本,并经过对抗训练提高语音识别模型防御对抗样本的能力。
Description
技术领域
本发明属于语音识别领域,具体涉及一种基于梯度估计和CTC算法的语音识别攻击防御方法及装置。
背景技术
随着机器学习的快速发展,基于深度学习的语音识技术广泛应用于智能手机、家用设备、公共设施等。通过对语音识别系统输入一段语音,可以转录成符合语法的一段文字,或者是实现对设备的操作等,语音识别技术为人们生产生活带来了极大的便利,同时交互式的语音识别系统还可以模仿人类进行对话,创建了更好的交互体验。目前较为完善的语音识别模型和接口主要有Deep Speech。Deep Speech模型为端到端的语音识别模型,输入为原始矩阵转换得到的特征向量,输出为转录后的文字,并通过CTC算法计算损失值。网络前三层为DNN层,第四层为双向RNN,将RNN的前向和后向单元输入第五层,最终经过softmax得到每个音素的概率。将神经网络的输出经过字典和语言模型进行解码,即得到最终的转录结果。
尽管先进的语音识别系统极大地丰富了人们的生活,为人们的生活带来了便利,但是研究发现,基于深度学习的语音识别神经网络带有自身的缺陷,容易受到对抗样本的影响。攻击者通过在原始音频中添加一些经过计算的扰动会使得转录发生变化,带来指令篡改等问题,而这种扰动通常不能被人耳所发觉,具有较大的安全隐患。
目前已有的白盒攻击方法在已知模型内部参数的情况下,通过在原始波形、MFCC特征向量中添加扰动,设置合适的目标函数得带优化生成对抗样本。该对抗样本应用于Deep Speech语音识别系统,达到了100%的攻击成功率。
已有的音频攻击方法Dolphin Attack还将攻击运用于物理空间,通过调制超声波载波上的语音指令,使得人耳无法辨别,并且利用麦克风电路的非线性实现解调,恢复调制的低频音频指令,从而能够被语音识别系统识别。该攻击方法通过人耳无法识别的语音指令,实现访问恶意网站、注入虚假信息、偷偷启动受害者设备等可能损害个人信息安全的攻击,同时攻击者还可以注入命令在人未发觉的情况下开启飞行模型,断开所有的无线通信。
发明内容
鉴于语音识别系统具有上述的安全隐患,本发明提供了一种基于梯度估计和CTC算法的语音识别攻击防御方法及装置,该语音识别攻击防御方法和装置通过梯度估计迭代优化生成针对语音识别模型的对抗样本,实现对语音识别系统的攻击,并将生成的对抗样本加入原始训练数据集进行对抗训练,提高语音识别模型防御对抗样本的能力。
本发明的技术方案为:
一种基于梯度估计和CTC算法的语音识别攻击防御方法,包括以下步骤:
采集语音音频并进行预处理,形成能够直接输入语音识别模型的音频矩阵,将音频矩阵分成训练集和测试集;
利用训练集中的音频矩阵训练语音识别模型,并利用测试集中的音频矩阵验证语音识别模型的识别准确率;
初始化对抗样本,根据对抗样本矩阵的转录结果与目标短语之间的距离和原始音频矩阵和对抗样本的距离构建对抗样本的优化目标函数,根据优化目标函数的梯度和CTC算法优化对抗样本,以获得最优的对抗样本;
将最优的对抗样本添加到训练集中,利用训练集中的数据重新训练语音识别模型,获得能够防御对抗样本攻击的新语音识别模型;
利用新语音识别模型实现更加安全稳定的语音识别。
其中,对采集的语音音频进行预处理的过程为:
将语音音频以数据流的形式展开,形成尺寸为1×n的矩阵,其中,n表示音频采样点的个数,矩阵中的元素值表示采样点的幅值;
针对1×n的矩阵,以40ms或50ms为一帧对矩阵进行分割,在分割时且保证每帧之间重叠n/100个采样点,形每帧音频数据;
对每帧音频数据进行傅里叶变换得到对应的频谱,在频谱上进行倒谱分析,即通过离散余弦变换取第2~13个系数作为梅尔倒谱系数,再计算梅尔倒谱系数的差分值和能量值,最终得到26阶的梅尔倒谱系数作为音频矩阵的特征向量。
其中,初始化对抗样本的过程为:
随机生成与音频矩阵尺寸相同的扰动矩阵,扰动值大小呈正态分布,扰动方差大小为2;
将该扰动矩阵叠加到原始音频矩阵中,设置叠加后音频采样点的幅值范围为(-215,215-1),生成对抗样本矩阵。
其中,构建的优化目标函数为:
其中,第一项是来衡量对抗样本矩阵的转录结果与目标短语之间的距离,设输入音频x,转录短语z,其计算方法如下:
CTC-loss=-lnP(z|x)
当P(z|x)=1即CTC-loss=0时,表示对抗样本能够成功转录成目标短语;第二项通过L2范数表示抗样本矩阵与原始音频矩阵之间的距离,c为常数,用于实现对第一项和第二项的归一化。
以优化目标函数最小为迭代目标,估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动,当达到最大迭代次数或者对抗音频转录为目标短语的时候,停止迭代,并将生成的对抗音频矩阵转换为音频数据流文件。
一种基于梯度估计和CTC算法的语音识别攻击防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有上述的语音识别攻击防御方法构建的新语音识别模型,所述计算机处理器执行所述计算机程序时实现以下步骤:
利用所述新语音识别模型对输入语音音频进行语音识别,以实现对语音识别攻击的防御。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过梯度估计方法,在不了解语音识别模型内部参数的情况下生成能够使语音识别模型错误转录的对抗样本,并将对抗样本用于对抗训练,提高语音识别模型的防御能力。
2、本发明生成的对抗样本与原始样本之间的差异较小,能够在不被人耳发觉的情况下转录为目标短语,在真实世界中有较高的隐蔽性和较大的潜在安全隐患。
3、在目标函数的定义上,本发明采用CTC算法衡量输入音频矩阵和转录短语之间的差异,有效解决了输入音频和目标转录短语不等长问题,同时由于对抗样本矩阵和原始音频矩阵形状相同,通过L2范数来衡量两者之间的差异。由于用CTC算法计算所得输入音频和目标短语之间差异和输入音频、对抗样本之间的差异的衡量方式不同,设置常数c实现两个差异计算的归一化,使得能够生成最优对抗样本。
4、由于基于深度神经网络的语音识别模型存在天然缺陷,本发明通过梯度估计迭代优化生成最优扰动,并叠加到原始音频矩阵中最终生成对抗样本,再进行对抗训练,提高语音识别模型防御对抗样本的能力,从而提高语音识别模型的安全性和鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的基于梯度估计的CTC算法的语音识别攻击防御方法的流程示意图;
图2为本发明实施的迭代优化算法的流程图;
图3(a)和图3(b)为分别为原始音频波形和对抗样本音频波形。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参见图1和图2,本实施例提供的基于梯度估计的CTC算法的语音识别攻击防御方法,包括以下步骤:
S101,数据集的准备和预处理。
采集实验需要的语音音频,分为训练数据集和测试数据集,该数据集包含了多种不同场景下采集的音频,其中场景包含安静环境和嘈杂环境;音频种类包括人说话的声音、音乐声、电话声等实际生活场景中的音频。对数据集进行预处理,即将采集的音频进行裁剪以及添加相应的标签并处理成数据流格式,作为训练语音识别模型及生成对抗样本所需要的数据集。
S102,利用预处理的训练数据集训练语音识别模型,并采用试集测试使语音识别模型达到预设的识别准确率。
语音音频输入至语音识别模型前,需要转化为向量形式。具体过程为:
音频以数据流的形式展开,得到每秒16k个音频采样点的矩阵,矩阵中的数据为各个采样点的幅值,按照时间序列排列。对矩阵进行预加重,并以40ms为一帧进行分割,相邻两帧之间重叠160个采样点,使得相邻帧之间保留时间上的关联性。将每帧音频通过傅里叶变换得到对应的频谱,再频谱上进行倒谱分析,即通过离散余弦变换取第2-13个系数作为梅尔倒谱系数,再计算梅尔倒谱系数的差分值和能量值,最终得到26阶的梅尔倒谱系数作为音频矩阵。若输入单个音频,则得到的音频矩阵为(1,帧数,26)。
将该特征向量输入语音识别模型获得每帧转录为不同音素的概率。通过CTC算法和贪心算法找到最可能的转录路径,利用语言模型和字典得到最终的转录结果。
S103,设置目标函数及优化算法的相关参数。
设置的目标函数为:
其中,第一项衡量了原始音频输入与目标短语之间的距离。假设输入音频x,目标短语z,音频以40ms为一帧进行分割成T帧,则声学模型输出每一帧转录为不同音素的概率则某一输出序列的概率为:
将该概率值取对数即可衡量输入音频的可能转录结果与目标短语之间的距离,即
CTC-loss=-lnP(z|x)
当P(z|x)=1,满足输入音频转录为目标短语时,-∑lnP(z|x)=0,优化使得在转录为目标短语的同时最小化扰动。
目标函数第二项通过L2范数衡量了扰动的大小,由于用CTC算法计算所得输入音频和目标短语之间差异和输入音频、对抗样本之间的差异的衡量方式不同,设置常数c实现两个差异计算的归一化,使得能够生成最优对抗样本。
S104,随机初始化扰动叠加到原始音频,迭代优化生成最佳扰动,使得对应样本转录成目标短语且叠加扰动最小。
具体地,随机生成与音频矩阵相同形状的扰动矩阵,扰动值大小成正态分布,扰动方差大小为2。将扰动矩阵叠加到原始音频矩阵中,设置叠加后音频采样点的幅值范围为(-215,215-1),生成对抗样本矩阵。
以优化目标函数最小为迭代目标,估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动,当达到最大迭代次数或者对抗音频转录为目标短语的时候,停止迭代,并将生成的对抗音频矩阵转换为音频数据流文件。
S105,对抗样本加入到训练数据集中,利用训练数据集重新训练语音识别模型。
利用对抗样本对重新训练语音识别模型,获得能够防御对抗样本攻击的新语音识别模型;利用新语音识别模型实现更加安全稳定的语音识别。
实施例还提供了一种基于梯度估计和CTC算法的语音识别攻击防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有上述的语音识别攻击防御方法构建的新语音识别模型,所述计算机处理器执行所述计算机程序时实现以下步骤:
利用所述新语音识别模型对输入语音音频进行语音识别,以实现对语音识别攻击的防御。
本发明采用梯度估计和CTC算法,在不了解语音识别模型内部参数的情况下,能够生成使语音识别模型转录为目标短语的对抗样本,并将对抗样本用于对抗训练,提高语音识别模型防御对抗样本的能力。同时采用多目标优化,使得在对抗样本转录为目标短语的前提下,尽可能优化不同位置添加的扰动大小,使其不被人耳识别,提高对抗样本的鲁棒性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于梯度估计和CTC算法的语音识别攻击防御方法,包括以下步骤:
采集语音音频并进行预处理,形成能够直接输入语音识别模型的音频矩阵,将音频矩阵分成训练集和测试集;
利用训练集中的音频矩阵训练语音识别模型,并利用测试集中的音频矩阵验证语音识别模型的识别准确率;
初始化对抗样本,根据对抗样本矩阵的转录结果与目标短语之间的距离和原始音频矩阵和对抗样本的距离构建对抗样本的优化目标函数,根据优化目标函数的梯度和CTC算法优化对抗样本,以获得最优的对抗样本;
将最优的对抗样本添加到训练集中,利用训练集中的数据重新训练语音识别模型,获得能够防御对抗样本攻击的新语音识别模型;
利用新语音识别模型实现更加安全稳定的语音识别。
2.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法,其特征在于,对采集的语音音频进行预处理的过程为:
将语音音频以数据流的形式展开,形成尺寸为1×n的矩阵,其中,n表示音频采样点的个数,矩阵中的元素值表示采样点的幅值;
针对1×n的矩阵,以40ms或50ms为一帧对矩阵进行分割,在分割时且保证每帧之间重叠n/100个采样点,形每帧音频数据;
对每帧音频数据进行傅里叶变换得到对应的频谱,在频谱上进行倒谱分析,即通过离散余弦变换取第2~13个系数作为梅尔倒谱系数,再计算梅尔倒谱系数的差分值和能量值,最终得到26阶的梅尔倒谱系数作为音频矩阵的特征向量。
3.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法,其特征在于,初始化对抗样本的过程为:
随机生成与音频矩阵尺寸相同的扰动矩阵,扰动值大小呈正态分布,扰动方差大小为2;
将该扰动矩阵叠加到原始音频矩阵中,设置叠加后音频采样点的幅值范围为(-215,215-1),生成对抗样本矩阵。
4.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法,其特征在于,构建的优化目标函数为:
其中,第一项是来衡量对抗样本矩阵的转录结果与目标短语之间的距离,设输入音频x,转录短语z,其计算方法如下:
CTC-loss=-lnP(z|x)
当P(z|x)=1即CTC-loss=0时,表示对抗样本能够成功转录成目标短语;第二项通过L2范数表示抗样本矩阵与原始音频矩阵之间的距离,c为常数,用于实现对第一项和第二项的归一化。
5.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法,其特征在于,根据优化目标函数的梯度和CTC算法优化对抗样本的过程为:
以优化目标函数最小为迭代目标,估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动直到对抗音频转录成目标短语。
6.一种基于梯度估计和CTC算法的语音识别攻击防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中存有权利要求1~5任一项所述的语音识别攻击防御方法构建的新语音识别模型,所述计算机处理器执行所述计算机程序时实现以下步骤:
利用所述新语音识别模型对输入语音音频进行语音识别,以实现对语音识别攻击的防御。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739959.XA CN110444208A (zh) | 2019-08-12 | 2019-08-12 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739959.XA CN110444208A (zh) | 2019-08-12 | 2019-08-12 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110444208A true CN110444208A (zh) | 2019-11-12 |
Family
ID=68434613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910739959.XA Pending CN110444208A (zh) | 2019-08-12 | 2019-08-12 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444208A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610708A (zh) * | 2019-08-31 | 2019-12-24 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN110767216A (zh) * | 2019-09-10 | 2020-02-07 | 浙江工业大学 | 一种基于pso算法的语音识别攻击防御方法 |
CN110941794A (zh) * | 2019-11-27 | 2020-03-31 | 浙江工业大学 | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 |
CN111143873A (zh) * | 2019-12-13 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 隐私数据处理方法、装置和终端设备 |
CN111261147A (zh) * | 2020-01-20 | 2020-06-09 | 浙江工业大学 | 一种面向语音识别系统的音乐嵌入攻击防御方法 |
CN111461239A (zh) * | 2020-04-03 | 2020-07-28 | 成都考拉悠然科技有限公司 | Ctc场景文字识别模型的白盒攻击方法 |
CN111476228A (zh) * | 2020-04-07 | 2020-07-31 | 海南阿凡题科技有限公司 | 针对场景文字识别模型的白盒对抗样本生成方法 |
CN111756705A (zh) * | 2020-06-05 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 活体检测算法的攻击测试方法、装置、设备及存储介质 |
CN112216296A (zh) * | 2020-09-25 | 2021-01-12 | 脸萌有限公司 | 音频对抗扰动的测试方法、设备及存储介质 |
CN112581975A (zh) * | 2020-12-11 | 2021-03-30 | 中国科学技术大学 | 基于信号混叠和双声道相关性的超声波语音指令防御方法 |
CN112836764A (zh) * | 2021-03-02 | 2021-05-25 | 中山大学 | 一种面向目标分类系统的通用目标攻击方法及装置 |
CN112908300A (zh) * | 2021-01-16 | 2021-06-04 | 西安电子科技大学 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
CN113297579A (zh) * | 2021-06-11 | 2021-08-24 | 浙江工业大学 | 基于时序神经通路的语音识别模型中毒检测方法及装置 |
CN113409407A (zh) * | 2021-05-17 | 2021-09-17 | 海南师范大学 | 一种基于平均压缩获取低频信息的对抗样本防御方法 |
CN113488073A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
CN113506564A (zh) * | 2020-03-24 | 2021-10-15 | 百度在线网络技术(北京)有限公司 | 用于生成对抗声音信号的方法、装置、设备和介质 |
CN113537291A (zh) * | 2021-06-16 | 2021-10-22 | 中国人民解放军战略支援部队信息工程大学 | 频域对抗样本生成方法及系统 |
CN114584337A (zh) * | 2021-12-16 | 2022-06-03 | 南京理工大学 | 一种基于遗传算法的语音攻击伪造方法 |
CN114661940A (zh) * | 2022-01-28 | 2022-06-24 | 宁波大学 | 一种适用于黑盒攻击下快速获取语音对抗样本的方法 |
CN115081510A (zh) * | 2022-05-10 | 2022-09-20 | 哈尔滨工程大学 | 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及系统 |
US11462211B2 (en) * | 2020-04-09 | 2022-10-04 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting adversarial attacks |
WO2023283823A1 (zh) * | 2021-07-14 | 2023-01-19 | 东莞理工学院 | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 |
CN116758899A (zh) * | 2023-08-11 | 2023-09-15 | 浙江大学 | 一种基于语义空间扰动的语音识别模型安全性测评方法 |
CN118212914A (zh) * | 2024-05-20 | 2024-06-18 | 山东云海国创云计算装备产业创新中心有限公司 | 语音识别方法、联邦学习方法、装置、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108322349A (zh) * | 2018-02-11 | 2018-07-24 | 浙江工业大学 | 基于对抗式生成网络的深度学习对抗性攻击防御方法 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN109599109A (zh) * | 2018-12-26 | 2019-04-09 | 浙江大学 | 针对白盒场景的对抗音频生成方法及系统 |
CN109887496A (zh) * | 2019-01-22 | 2019-06-14 | 浙江大学 | 一种黑盒场景下的定向对抗音频生成方法及系统 |
CN109948658A (zh) * | 2019-02-25 | 2019-06-28 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
-
2019
- 2019-08-12 CN CN201910739959.XA patent/CN110444208A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108322349A (zh) * | 2018-02-11 | 2018-07-24 | 浙江工业大学 | 基于对抗式生成网络的深度学习对抗性攻击防御方法 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN109599109A (zh) * | 2018-12-26 | 2019-04-09 | 浙江大学 | 针对白盒场景的对抗音频生成方法及系统 |
CN109887496A (zh) * | 2019-01-22 | 2019-06-14 | 浙江大学 | 一种黑盒场景下的定向对抗音频生成方法及系统 |
CN109948658A (zh) * | 2019-02-25 | 2019-06-28 | 浙江工业大学 | 面向特征图注意力机制的对抗攻击防御方法及应用 |
Non-Patent Citations (2)
Title |
---|
CARLINI N: ""Audio Adversarial Examples: Targeted Attacks on Speech-to-Text"", 《2018 IEEE SECURITY AND PRIVACY WORKSHOPS (SPW)》 * |
JIAJIE ZHANG: ""Defending Adversarial Atacks on Cloud-aided Automatic Speech Recognition Systems"", 《SCC’19》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610708A (zh) * | 2019-08-31 | 2019-12-24 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN110610708B (zh) * | 2019-08-31 | 2021-10-15 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN110767216A (zh) * | 2019-09-10 | 2020-02-07 | 浙江工业大学 | 一种基于pso算法的语音识别攻击防御方法 |
CN110941794A (zh) * | 2019-11-27 | 2020-03-31 | 浙江工业大学 | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 |
CN110941794B (zh) * | 2019-11-27 | 2023-08-22 | 浙江工业大学 | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 |
CN111143873A (zh) * | 2019-12-13 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 隐私数据处理方法、装置和终端设备 |
CN111261147A (zh) * | 2020-01-20 | 2020-06-09 | 浙江工业大学 | 一种面向语音识别系统的音乐嵌入攻击防御方法 |
CN113506564B (zh) * | 2020-03-24 | 2024-04-12 | 百度在线网络技术(北京)有限公司 | 用于生成对抗声音信号的方法、装置、设备和介质 |
CN113506564A (zh) * | 2020-03-24 | 2021-10-15 | 百度在线网络技术(北京)有限公司 | 用于生成对抗声音信号的方法、装置、设备和介质 |
CN111461239A (zh) * | 2020-04-03 | 2020-07-28 | 成都考拉悠然科技有限公司 | Ctc场景文字识别模型的白盒攻击方法 |
CN111461239B (zh) * | 2020-04-03 | 2023-05-09 | 成都考拉悠然科技有限公司 | 基于白盒攻击的ctc场景文字识别模型优化方法 |
CN111476228A (zh) * | 2020-04-07 | 2020-07-31 | 海南阿凡题科技有限公司 | 针对场景文字识别模型的白盒对抗样本生成方法 |
US11462211B2 (en) * | 2020-04-09 | 2022-10-04 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting adversarial attacks |
CN111756705A (zh) * | 2020-06-05 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 活体检测算法的攻击测试方法、装置、设备及存储介质 |
CN111756705B (zh) * | 2020-06-05 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 活体检测算法的攻击测试方法、装置、设备及存储介质 |
CN112216296A (zh) * | 2020-09-25 | 2021-01-12 | 脸萌有限公司 | 音频对抗扰动的测试方法、设备及存储介质 |
CN112216296B (zh) * | 2020-09-25 | 2023-09-22 | 脸萌有限公司 | 音频对抗扰动的测试方法、设备及存储介质 |
CN112581975A (zh) * | 2020-12-11 | 2021-03-30 | 中国科学技术大学 | 基于信号混叠和双声道相关性的超声波语音指令防御方法 |
CN112581975B (zh) * | 2020-12-11 | 2024-05-17 | 中国科学技术大学 | 基于信号混叠和双声道相关性的超声波语音指令防御方法 |
CN112908300A (zh) * | 2021-01-16 | 2021-06-04 | 西安电子科技大学 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
CN112908300B (zh) * | 2021-01-16 | 2024-05-17 | 西安电子科技大学 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
CN112836764A (zh) * | 2021-03-02 | 2021-05-25 | 中山大学 | 一种面向目标分类系统的通用目标攻击方法及装置 |
CN112836764B (zh) * | 2021-03-02 | 2023-07-28 | 中山大学 | 一种面向目标分类系统的通用目标攻击方法及装置 |
CN113409407B (zh) * | 2021-05-17 | 2022-05-17 | 海南师范大学 | 一种基于平均压缩获取低频信息的对抗样本防御方法 |
CN113409407A (zh) * | 2021-05-17 | 2021-09-17 | 海南师范大学 | 一种基于平均压缩获取低频信息的对抗样本防御方法 |
CN113297579A (zh) * | 2021-06-11 | 2021-08-24 | 浙江工业大学 | 基于时序神经通路的语音识别模型中毒检测方法及装置 |
CN113297579B (zh) * | 2021-06-11 | 2022-08-09 | 浙江工业大学 | 基于时序神经通路的语音识别模型中毒检测方法及装置 |
CN113537291A (zh) * | 2021-06-16 | 2021-10-22 | 中国人民解放军战略支援部队信息工程大学 | 频域对抗样本生成方法及系统 |
CN113537291B (zh) * | 2021-06-16 | 2023-06-16 | 中国人民解放军战略支援部队信息工程大学 | 图像频域对抗样本生成方法及系统 |
CN113488073B (zh) * | 2021-07-06 | 2023-11-24 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
CN113488073A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 一种基于多特征融合的伪造语音检测方法及装置 |
WO2023283823A1 (zh) * | 2021-07-14 | 2023-01-19 | 东莞理工学院 | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 |
CN114584337A (zh) * | 2021-12-16 | 2022-06-03 | 南京理工大学 | 一种基于遗传算法的语音攻击伪造方法 |
CN114661940B (zh) * | 2022-01-28 | 2023-08-08 | 宁波大学 | 一种适用于黑盒攻击下快速获取语音对抗样本的方法 |
CN114661940A (zh) * | 2022-01-28 | 2022-06-24 | 宁波大学 | 一种适用于黑盒攻击下快速获取语音对抗样本的方法 |
CN115081510B (zh) * | 2022-05-10 | 2024-05-10 | 哈尔滨工程大学 | 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及系统 |
CN115081510A (zh) * | 2022-05-10 | 2022-09-20 | 哈尔滨工程大学 | 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及系统 |
CN116758899A (zh) * | 2023-08-11 | 2023-09-15 | 浙江大学 | 一种基于语义空间扰动的语音识别模型安全性测评方法 |
CN116758899B (zh) * | 2023-08-11 | 2023-10-13 | 浙江大学 | 一种基于语义空间扰动的语音识别模型安全性测评方法 |
CN118212914A (zh) * | 2024-05-20 | 2024-06-18 | 山东云海国创云计算装备产业创新中心有限公司 | 语音识别方法、联邦学习方法、装置、系统、设备及介质 |
CN118212914B (zh) * | 2024-05-20 | 2024-08-09 | 山东云海国创云计算装备产业创新中心有限公司 | 语音识别方法、联邦学习方法、装置、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444208A (zh) | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 | |
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
CN109272990B (zh) | 基于卷积神经网络的语音识别方法 | |
Di Gangi et al. | Adapting transformer to end-to-end spoken language translation | |
CN112509564B (zh) | 基于连接时序分类和自注意力机制的端到端语音识别方法 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN111261147B (zh) | 一种面向语音识别系统的音乐嵌入攻击防御方法 | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
Zhang et al. | Seq2seq attentional siamese neural networks for text-dependent speaker verification | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
Xie et al. | Sequence error (SE) minimization training of neural network for voice conversion. | |
CN105023570B (zh) | 一种实现声音转换的方法及系统 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN108364662A (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN107093422A (zh) | 一种语音识别方法和语音识别系统 | |
Wang et al. | Adversarial examples attack and countermeasure for speech recognition system: A survey | |
Wang et al. | Query-efficient adversarial attack with low perturbation against end-to-end speech recognition systems | |
CN116246639A (zh) | 自监督说话人验证模型训练方法、电子设备和存储介质 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Hu et al. | Speaker recognition based on short utterance compensation method of generative adversarial networks | |
CN116564330A (zh) | 弱监督语音预训练方法、电子设备和存储介质 | |
Qian et al. | On Mispronunciation Lexicon Generation Using Joint-Sequence Multigrams in Computer-Aided Pronunciation Training (CAPT). |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |
|
RJ01 | Rejection of invention patent application after publication |