CN112349281A - 基于StarGAN的语音识别模型的防御方法 - Google Patents
基于StarGAN的语音识别模型的防御方法 Download PDFInfo
- Publication number
- CN112349281A CN112349281A CN202011172485.4A CN202011172485A CN112349281A CN 112349281 A CN112349281 A CN 112349281A CN 202011172485 A CN202011172485 A CN 202011172485A CN 112349281 A CN112349281 A CN 112349281A
- Authority
- CN
- China
- Prior art keywords
- audio
- voice recognition
- generator
- loss function
- stargan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007123 defense Effects 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims 1
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 230000003042 antagnostic effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000544061 Cuculus canorus Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于StarGAN的语音识别模型的防御方法,包括:构建包含生成器、判别器以及分类器的StarGAN模型;构建包括对抗损失函数、分类损失函数,循环一致损失函数的损失函数;以训损失函数最小为目标对StarGAN模型进行训练;语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。以解决语音识别模型容易受到对抗攻击的问题,进而提高识别精度和鲁棒性。
Description
技术领域
本发明属于深度学习算法及信息安全研究领域。具体设计一种基于StarGAN的语音识别模型的防御方法。
背景技术
随着技术的发展,语音识别已在手机移动端,自动驾驶,智能家居等领域有了各种应用。如在移动端,随着语音识别算法、模型、自适应性等的加强,语音识别系统已经在移动端得到了广泛的应用,如苹果的Siri,微软的小娜,小米的小爱等产品已经实现了商品化。在自动驾驶领域,语音识别系统使驾驶者将注意力集中于汽车的驾驶中,驾驶者通过语音命令就可以控制汽车内的各种功能。如蔚来车载语音识别系统,可以通过语音命令控制座椅的加热、座椅的通风,空调的温度,遮阳帘的开启与关闭等;在智能家居领域,海尔,长虹,TCL等企业已经推出了自己的智能电视,海尔空调更是推出了语音遥控器,用户只需要对语音遥控器说话,遥控器就可以进行识别,实现空调的自动开关机,调温等操作。
近些年来,深度学习的发展给语音识别模型的训练带来了便捷,同时也提高了语音识别模型的识别精度。虽然深度学习简化了模型的训练,也提高了语音识别模型的识别精度,但是深度学习也给语音识别模型带来了潜在的安全风险。最近有研究表明,深度学习模型容易受到对输入数据进行添加精心设计过的扰动的对抗攻击,在这种攻击下,模型无法输出正确的预测结果。在一些语音识别的场景下,会早成巨大的危险。如在自动驾驶领域,若车载语音识别系统收到对抗攻击,车载语音识别系统将会错误的识别乘客的指令,若将乘客的“stop”指令识别为“go”时就有可能给汽车带来危险。
目前已经有一些对于语音识别系统的对抗攻击方法,主要分为白盒攻击和黑盒攻击。白盒攻击是在已知模型参数的前提下进行的,可以利用快速梯度符号法(FGSM),DeepFool,PGD(Project Gradient Descent)等方法对语音识别模型进行攻击。黑盒攻击是在未知模型参数的前提下进行的,可以利用一些启发式算法对语音识别模型进行攻击,如遗传算法(GA),粒子群算法(PSO),布谷鸟搜索算法(CS)等。
针对以上这些白盒攻击和黑盒攻击,现有的语音识别模型并不能对其进行很好的防御,会造成极大的安全隐患,因此,迫切地需要一种能够防御对抗攻击的语音识别方法。
发明内容
本发明的目的是提供一种基于StarGAN的语音识别模型的防御方法,以解决现有语音识别模型容易受到对抗攻击的问题,进而提高语音识别系统的识别精度和鲁棒性。
为实现上述发明目的,本发明提供以下技术方案:
一种基于StarGAN的语音识别模型的防御方法,包括以下步骤:
构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的真伪,所述分类器用于分类输入音频的分类置信度;
构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;
利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;
语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
与现有技术相比,本发明具有的有益效果至少包括:
通过构建并训练StarGAN模型,使得StarGAN模型中的分类器能够识别被攻击的对抗音频,并利用训练好的生成器对对抗音频进行去干扰处理,生成满足真实属性的正常音频,然后再利用语音识别模型对正常音频进行语音识别,使得语音识别模型的鲁棒性得到提升,并使语音识别模型能够抵御对抗音频的攻击。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于StarGAN的语音识别模型的防御方法的流程图;
图2是实施例提供的StarGAN模型的结构示意图;
图3是实施例提供的生成器的结构示意图;
图4是实施例提供判别器的结构示意图;
图5是实施例提供的分类器的结构示意图;
图6是实施例提供的残差卷积块的结构示意图;
图7是实施例提供的利用分类器、生成器以及语音识别模型进行防御语音识别的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了防止音频数据因为被对抗攻击导致语音识别结果不准确的问题,实施例提供了一种基于StarGAN的语音识别模型的防御方法,将StarGAN集成到语音识别模型中,对输入语音识别系统的音频进行检测和处理,将检测到的对抗样本进行去噪,保留正常的音频,从而提高语音识别系统的识别精度和鲁棒性。
如图1所示,实施例提供的语音识别模型的防御方法包括以下步骤:
步骤1,构建用于StarGAN模型训练的数据集。
本实施例中,StarGAN模型的训练可以使用非并行数据集进行训练。由于本实施例中,StarGAN用于检测和处理对抗音频,因此用于StarGAN模型训练的数据集应由正常音频和对抗音频组成。分别使用白盒和黑盒攻击方法生成对抗音频,可获得不同攻击方法下生成的足量对抗音频,组成对抗音频数据集,将其与正常音频数据集组成数据集,并按照一定的比例划分为训练集和测试集。
对抗音频数据集的具体构建过程为:在白盒场景下,采用使用FGSM,DeepFool,PGD等方法攻击语音识别模型,获得白盒对抗音频。在黑盒场景下,可以使用GA,PSO,CS等方法攻击语音识别模型,获得黑盒对抗音频。将白盒对抗音频和黑盒对抗音频组合,构成对抗音频数据集。
步骤2,构建StarGAN模型。
图2是实施例提供的StarGAN模型的结构示意图。如图2所示,StarGAN模型包括生成器G、判别器D以及分类器C。其中,生成器G的网络结构包括二维卷积层,二维实例正则化以及残差卷积块。如图3所示,具体地,生成器G按照数据流方向依次包括3组特征提取单元、8个残差卷积块、2组特征提取单元、二维卷积层,其中,特征提取单元包括依次连接的二维卷积层、二维实例正则化、Relu激活函数。该生成器G用于基于输入音频生成符合给定属性c的生成音频并输出,其中给定属性c是训练时赋予输入音频的属性,表示音频属于正常样本或对抗样本。若输入生成器G的输入音频为对抗音频,属性c表示正常样本,则生成器执行对对抗音频进行去噪的作用,使转换得到的生成音频为符合表示正常样本属性的正常音频。因此,生成器的输入为音频和给定属性c,输出为具有给定属性c特征的生成音频。
判别器D的网络结构包括二维卷积层和残差卷积块。如图4所示,判别器D按照数据流的方向依次包括1个特征提取组、4个残差卷积块、5个特征提取组以及1个二维卷积层,其中,特征提取组包括依次连接的二维卷积层和LeakyRelu激活函数。该判别器D的输入为输入音频和给定属性c,输出为该输入音频的特征分布符合给定属性c对应的音频分布的预测置信度,此处的给定属性c用作监督数据,表示判别器D需要判别输入音频是否属于给定属性c下的音频特征的数据分布。
所述分类器C的网络结构包括二维卷积层和残差卷积块。如图5所示,分类器C的网络结构与判别器D的网络结构相同。本实施例中,生成器G、判别器D以及分类器C中的残差卷积块的结构相同,如图6所示,包括依次连接的二维卷积层Conv2d_1、二维实例正则化Instancenormalization2d_1、Relu激活函数、二维卷积层Conv2d_2以及二维实例正则化Instancenormalization2d_2,所述二维卷积层Conv2d_1的输入数据与二维实例正则化Instancenormalization2d_2的输出融合后作为残差卷积块的输出。分类器C的输入为输入音频,输出为输入音频属于某一类音频的分类置信度,既输入音频为正常音频和对抗音频的分类置信度。
步骤3,构建StarGAN模型的损失函数。
StarGAN模型的损失函数L由三部分构成,分别为由对抗损失函数Ladv、分类损失函数Lcls以及循环一致损失函数Lcls。其中,对抗损失函数Ladv用来实现生成器G和判别器D的性能的提升,使得输入音频经过生成器G处理后的数据仍符合给定属性下的音频数据分布。分类损失函数Lcls用来实现使生成器G实现多类别的数据转换以及分类器C性能的提升。循环一致损失函数Lcls用来保留语音信息以及生成器G的多样性,即避免生成器将需要转换的语音映射为对抗音频或正常音频中的某一个而失效。
具体地,对抗损失函数Ladv为:
其中,c~p(c)表示属性c服从属性c的概率分布p(c),y~p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c),D(y,c)表示判别器D对音频y在给定属性c下的预测置信度,E(·)表示数学期望值,x~p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x),G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频,D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。损失函数使判别器D在给定属性c下,学习能够判别生成器G生成的序列是否为符合对应属性类的音频数据特征分布的能力。损失函数使生成器G的生成数据仍符合给定属性的音频数据的特征分布。
分类损失函数Lcls为:
其中,pC(c|y)表示分类器C对音频y在属性c下的分类置信度分布,pC(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分类置信度分布,E(·)表示数学期望值,损失函数用来训练分类器C,提升其分类性能,损失函数使生成器G具有生成指定属性c的音频数据的能力。
循环一致损失函数Lcyc为:
其中,c′~p(c)表示属性c′概率分布p(c),x~p(y|c′)表示训练样本集中具有属性c′的音频x服从概率分布p(y|c′),G(G(x,c),c′)表示生成器G对生成音频G(x,)生成给定属性c′下的生成音频,G(x,c′)表示生成器G基于音频x生成具有给定属性c′的生成音频,表示‖·‖ρ表示Lρ范数,属性c′为音频的正确原属性,属性c为用于训练时人为赋予的属性,该属性c可以表示为音频的正确原属性,也可以表示为音频的错误属性。举例,对于一个正常音频来说,其对应的属性c′表示为该正常音频为正常样本,正常音频对应的属性c表示为可以是正常样本,也可以是对抗样本。损失函数保证生成器G生成的具有给定属性c的音频在转为原属性c′时,与原音频的差异小,由此可以确保生成器G不会对音频的语义信息产生影响。损失函数确保在进行同属性之间的音频转换时,生成器G不会对音频的语义信息产生影响。
因此,损失函数Ladv表示为:
L=Ladv+Lcls+Lcyc。
步骤4,利用数据集,根据损失函数对StarGAN模型进行训练。
构建好数据集、StarGAN模型以及损失函数的基础上,即可以对StarGAN模型进行训练,来优化StarGAN模型参数。在训练时,首先,可以利用数据集对StarGAN模型中的分类器C进行预训练,使得分类器C可以初步识别数据集中的对抗音频和正常音频的能力。
然后,利用数据集,以损失函数L最小为目标,对StarGAN模型再训练,在训练完成后用测试集进行测试,统计分类器的测试精度,即分类器对对抗样本和正常音频的分类精度,以及生成器对对抗音频的处理效果,若经过生成器处理后的对抗音频能够被语音识别模型正确识别则认为生成器的这次处理是有效的。若分类器的分类精度和生成器的处理效果达不到预设标准,则更改模型的参数继续训练模型,直到符合预设标准为止。训练结束后,提取训练好分类器和生成器用于语音识别。
步骤5,集成StarGAN模型与语音识别模型,并对输入音频进行语音识别。
如图7所示,语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。分类器和生成器的集成可以提高语音识别模型的鲁棒性,使语音识别模型能够抵御对抗样本的攻击。
上述实施例提供的基于StarGAN的语音识别模型的防御方法中,针对语音识别模型存在的漏洞,利用不同攻击方法下生成的对抗音频和正常语音数据集组成训练数据集,对StarGAN模型进行训练,使StarGAN能够检测并处理对抗样本,将StarGAN中的分类器和生成器集成到语音识别模型中,使语音识别模型的鲁棒性得到提升,并使语音识别模型能够抵御对抗样本的攻击。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于StarGAN的语音识别模型的防御方法,其特征在于,包括以下步骤:
构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的预测置信度,所述分类器用于分类输入音频的分类置信度;
构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;
利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;
语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
5.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述生成器的网络结构包括二维卷积层,二维实例正则化以及残差卷积块。
6.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述判别器的网络结构包括二维卷积层和残差卷积块。
7.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述分类器的网络结构包括二维卷积层和残差卷积块。
8.如权利要求5~7任一项所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述残差卷积块包括依次连接的二维卷积层Conv2d_1、二维实例正则化Instancenormalization2d_1、Relu激活函数、二维卷积层Conv2d_2以及二维实例正则化Instancenormalization2d_2,所述二维卷积层Conv2d_1的输入数据与二维实例正则化Instancenormalization2d_2的输出融合后作为残差卷积块的输出。
9.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,采用FGSM、DeepFool、PGD、GA、PSO、CS方法攻击语音识别模型,获得对抗音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011172485.4A CN112349281B (zh) | 2020-10-28 | 2020-10-28 | 基于StarGAN的语音识别模型的防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011172485.4A CN112349281B (zh) | 2020-10-28 | 2020-10-28 | 基于StarGAN的语音识别模型的防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112349281A true CN112349281A (zh) | 2021-02-09 |
CN112349281B CN112349281B (zh) | 2022-03-08 |
Family
ID=74358979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011172485.4A Active CN112349281B (zh) | 2020-10-28 | 2020-10-28 | 基于StarGAN的语音识别模型的防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112349281B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767216A (zh) * | 2019-09-10 | 2020-02-07 | 浙江工业大学 | 一种基于pso算法的语音识别攻击防御方法 |
CN113362822A (zh) * | 2021-06-08 | 2021-09-07 | 北京计算机技术及应用研究所 | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 |
CN115223011A (zh) * | 2022-07-08 | 2022-10-21 | 广东省智能网联汽车创新中心有限公司 | 一种智能驾驶场景的对抗样本生成方法及系统 |
CN115496924A (zh) * | 2022-09-29 | 2022-12-20 | 北京瑞莱智慧科技有限公司 | 一种数据处理方法、相关设备及存储介质 |
CN117292690A (zh) * | 2023-11-24 | 2023-12-26 | 南京信息工程大学 | 一种语音转换主动防御方法、装置、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599091A (zh) * | 2019-01-14 | 2019-04-09 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN110060657A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于sn的多对多说话人转换方法 |
CN111627429A (zh) * | 2020-05-20 | 2020-09-04 | 浙江工业大学 | 一种基于CycleGAN的语音识别模型的防御方法及装置 |
-
2020
- 2020-10-28 CN CN202011172485.4A patent/CN112349281B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599091A (zh) * | 2019-01-14 | 2019-04-09 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN110060657A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于sn的多对多说话人转换方法 |
CN111627429A (zh) * | 2020-05-20 | 2020-09-04 | 浙江工业大学 | 一种基于CycleGAN的语音识别模型的防御方法及装置 |
Non-Patent Citations (3)
Title |
---|
DONGSUK YOOK: "Voice Conversion using Conditional CycleGAN", 《2018 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE (CSCI)》 * |
陈晋音: "面向语音识别系统的黑盒对抗攻击方法", 《小型微型计算机系统》 * |
韩斌: "基于环状生成对抗网络的深度语音去噪方法", 《电子设计工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767216A (zh) * | 2019-09-10 | 2020-02-07 | 浙江工业大学 | 一种基于pso算法的语音识别攻击防御方法 |
CN113362822A (zh) * | 2021-06-08 | 2021-09-07 | 北京计算机技术及应用研究所 | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 |
CN115223011A (zh) * | 2022-07-08 | 2022-10-21 | 广东省智能网联汽车创新中心有限公司 | 一种智能驾驶场景的对抗样本生成方法及系统 |
CN115496924A (zh) * | 2022-09-29 | 2022-12-20 | 北京瑞莱智慧科技有限公司 | 一种数据处理方法、相关设备及存储介质 |
CN117292690A (zh) * | 2023-11-24 | 2023-12-26 | 南京信息工程大学 | 一种语音转换主动防御方法、装置、系统及存储介质 |
CN117292690B (zh) * | 2023-11-24 | 2024-03-15 | 南京信息工程大学 | 一种语音转换主动防御方法、装置、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112349281B (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112349281B (zh) | 基于StarGAN的语音识别模型的防御方法 | |
CN113554089B (zh) | 一种图像分类对抗样本防御方法、系统及数据处理终端 | |
CN111310802B (zh) | 一种基于生成对抗网络的对抗攻击防御训练方法 | |
CN111600835B (zh) | 一种基于fgsm对抗攻击算法的检测与防御方法 | |
CN110941794B (zh) | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 | |
CN110728360B (zh) | 一种基于bp神经网络的微能源器件能量识别方法 | |
CN111627429B (zh) | 一种基于CycleGAN的语音识别模型的防御方法及装置 | |
CN109934269B (zh) | 一种电磁信号的开集识别方法和装置 | |
CN111753881B (zh) | 一种基于概念敏感性量化识别对抗攻击的防御方法 | |
CN109902018B (zh) | 一种智能驾驶系统测试案例的获取方法 | |
CN111598210B (zh) | 面向基于人工免疫算法对抗攻击的对抗防御方法 | |
CN113283599B (zh) | 基于神经元激活率的对抗攻击防御方法 | |
CN110348475A (zh) | 一种基于空间变换的对抗样本增强方法和模型 | |
CN113362822B (zh) | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 | |
CN112052933B (zh) | 基于粒子群优化的深度学习模型的安全性测试方法和修复方法 | |
CN114464206A (zh) | 一种单通道盲源分离方法及系统 | |
CN109660522B (zh) | 面向综合电子系统的基于深层自编码器的混合入侵检测方法 | |
CN114220097A (zh) | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 | |
CN111950635A (zh) | 一种基于分层特征对齐的鲁棒特征学习方法 | |
CN113095381B (zh) | 一种基于改进型dbn的水声目标辨识方法及系统 | |
CN115270891A (zh) | 一种信号对抗样本的生成方法、装置、设备及存储介质 | |
CN113011446B (zh) | 一种基于多源异构数据学习的智能目标识别方法 | |
CN114818859A (zh) | 热力管网状况诊断方法、装置、终端设备和存储介质 | |
Tang et al. | Data augmentation for signal modulation classification using generative adverse network | |
CN112734016A (zh) | 用于钢筋表面的光滑程度检测的神经网络的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |