CN112349281A - 基于StarGAN的语音识别模型的防御方法 - Google Patents

基于StarGAN的语音识别模型的防御方法 Download PDF

Info

Publication number
CN112349281A
CN112349281A CN202011172485.4A CN202011172485A CN112349281A CN 112349281 A CN112349281 A CN 112349281A CN 202011172485 A CN202011172485 A CN 202011172485A CN 112349281 A CN112349281 A CN 112349281A
Authority
CN
China
Prior art keywords
audio
voice recognition
generator
loss function
stargan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011172485.4A
Other languages
English (en)
Other versions
CN112349281B (zh
Inventor
陈晋音
叶林辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011172485.4A priority Critical patent/CN112349281B/zh
Publication of CN112349281A publication Critical patent/CN112349281A/zh
Application granted granted Critical
Publication of CN112349281B publication Critical patent/CN112349281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于StarGAN的语音识别模型的防御方法,包括:构建包含生成器、判别器以及分类器的StarGAN模型;构建包括对抗损失函数、分类损失函数,循环一致损失函数的损失函数;以训损失函数最小为目标对StarGAN模型进行训练;语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。以解决语音识别模型容易受到对抗攻击的问题,进而提高识别精度和鲁棒性。

Description

基于StarGAN的语音识别模型的防御方法
技术领域
本发明属于深度学习算法及信息安全研究领域。具体设计一种基于StarGAN的语音识别模型的防御方法。
背景技术
随着技术的发展,语音识别已在手机移动端,自动驾驶,智能家居等领域有了各种应用。如在移动端,随着语音识别算法、模型、自适应性等的加强,语音识别系统已经在移动端得到了广泛的应用,如苹果的Siri,微软的小娜,小米的小爱等产品已经实现了商品化。在自动驾驶领域,语音识别系统使驾驶者将注意力集中于汽车的驾驶中,驾驶者通过语音命令就可以控制汽车内的各种功能。如蔚来车载语音识别系统,可以通过语音命令控制座椅的加热、座椅的通风,空调的温度,遮阳帘的开启与关闭等;在智能家居领域,海尔,长虹,TCL等企业已经推出了自己的智能电视,海尔空调更是推出了语音遥控器,用户只需要对语音遥控器说话,遥控器就可以进行识别,实现空调的自动开关机,调温等操作。
近些年来,深度学习的发展给语音识别模型的训练带来了便捷,同时也提高了语音识别模型的识别精度。虽然深度学习简化了模型的训练,也提高了语音识别模型的识别精度,但是深度学习也给语音识别模型带来了潜在的安全风险。最近有研究表明,深度学习模型容易受到对输入数据进行添加精心设计过的扰动的对抗攻击,在这种攻击下,模型无法输出正确的预测结果。在一些语音识别的场景下,会早成巨大的危险。如在自动驾驶领域,若车载语音识别系统收到对抗攻击,车载语音识别系统将会错误的识别乘客的指令,若将乘客的“stop”指令识别为“go”时就有可能给汽车带来危险。
目前已经有一些对于语音识别系统的对抗攻击方法,主要分为白盒攻击和黑盒攻击。白盒攻击是在已知模型参数的前提下进行的,可以利用快速梯度符号法(FGSM),DeepFool,PGD(Project Gradient Descent)等方法对语音识别模型进行攻击。黑盒攻击是在未知模型参数的前提下进行的,可以利用一些启发式算法对语音识别模型进行攻击,如遗传算法(GA),粒子群算法(PSO),布谷鸟搜索算法(CS)等。
针对以上这些白盒攻击和黑盒攻击,现有的语音识别模型并不能对其进行很好的防御,会造成极大的安全隐患,因此,迫切地需要一种能够防御对抗攻击的语音识别方法。
发明内容
本发明的目的是提供一种基于StarGAN的语音识别模型的防御方法,以解决现有语音识别模型容易受到对抗攻击的问题,进而提高语音识别系统的识别精度和鲁棒性。
为实现上述发明目的,本发明提供以下技术方案:
一种基于StarGAN的语音识别模型的防御方法,包括以下步骤:
构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的真伪,所述分类器用于分类输入音频的分类置信度;
构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;
利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;
语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
与现有技术相比,本发明具有的有益效果至少包括:
通过构建并训练StarGAN模型,使得StarGAN模型中的分类器能够识别被攻击的对抗音频,并利用训练好的生成器对对抗音频进行去干扰处理,生成满足真实属性的正常音频,然后再利用语音识别模型对正常音频进行语音识别,使得语音识别模型的鲁棒性得到提升,并使语音识别模型能够抵御对抗音频的攻击。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于StarGAN的语音识别模型的防御方法的流程图;
图2是实施例提供的StarGAN模型的结构示意图;
图3是实施例提供的生成器的结构示意图;
图4是实施例提供判别器的结构示意图;
图5是实施例提供的分类器的结构示意图;
图6是实施例提供的残差卷积块的结构示意图;
图7是实施例提供的利用分类器、生成器以及语音识别模型进行防御语音识别的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了防止音频数据因为被对抗攻击导致语音识别结果不准确的问题,实施例提供了一种基于StarGAN的语音识别模型的防御方法,将StarGAN集成到语音识别模型中,对输入语音识别系统的音频进行检测和处理,将检测到的对抗样本进行去噪,保留正常的音频,从而提高语音识别系统的识别精度和鲁棒性。
如图1所示,实施例提供的语音识别模型的防御方法包括以下步骤:
步骤1,构建用于StarGAN模型训练的数据集。
本实施例中,StarGAN模型的训练可以使用非并行数据集进行训练。由于本实施例中,StarGAN用于检测和处理对抗音频,因此用于StarGAN模型训练的数据集应由正常音频和对抗音频组成。分别使用白盒和黑盒攻击方法生成对抗音频,可获得不同攻击方法下生成的足量对抗音频,组成对抗音频数据集,将其与正常音频数据集组成数据集,并按照一定的比例划分为训练集和测试集。
对抗音频数据集的具体构建过程为:在白盒场景下,采用使用FGSM,DeepFool,PGD等方法攻击语音识别模型,获得白盒对抗音频。在黑盒场景下,可以使用GA,PSO,CS等方法攻击语音识别模型,获得黑盒对抗音频。将白盒对抗音频和黑盒对抗音频组合,构成对抗音频数据集。
步骤2,构建StarGAN模型。
图2是实施例提供的StarGAN模型的结构示意图。如图2所示,StarGAN模型包括生成器G、判别器D以及分类器C。其中,生成器G的网络结构包括二维卷积层,二维实例正则化以及残差卷积块。如图3所示,具体地,生成器G按照数据流方向依次包括3组特征提取单元、8个残差卷积块、2组特征提取单元、二维卷积层,其中,特征提取单元包括依次连接的二维卷积层、二维实例正则化、Relu激活函数。该生成器G用于基于输入音频生成符合给定属性c的生成音频并输出,其中给定属性c是训练时赋予输入音频的属性,表示音频属于正常样本或对抗样本。若输入生成器G的输入音频为对抗音频,属性c表示正常样本,则生成器执行对对抗音频进行去噪的作用,使转换得到的生成音频为符合表示正常样本属性的正常音频。因此,生成器的输入为音频和给定属性c,输出为具有给定属性c特征的生成音频。
判别器D的网络结构包括二维卷积层和残差卷积块。如图4所示,判别器D按照数据流的方向依次包括1个特征提取组、4个残差卷积块、5个特征提取组以及1个二维卷积层,其中,特征提取组包括依次连接的二维卷积层和LeakyRelu激活函数。该判别器D的输入为输入音频和给定属性c,输出为该输入音频的特征分布符合给定属性c对应的音频分布的预测置信度,此处的给定属性c用作监督数据,表示判别器D需要判别输入音频是否属于给定属性c下的音频特征的数据分布。
所述分类器C的网络结构包括二维卷积层和残差卷积块。如图5所示,分类器C的网络结构与判别器D的网络结构相同。本实施例中,生成器G、判别器D以及分类器C中的残差卷积块的结构相同,如图6所示,包括依次连接的二维卷积层Conv2d_1、二维实例正则化Instancenormalization2d_1、Relu激活函数、二维卷积层Conv2d_2以及二维实例正则化Instancenormalization2d_2,所述二维卷积层Conv2d_1的输入数据与二维实例正则化Instancenormalization2d_2的输出融合后作为残差卷积块的输出。分类器C的输入为输入音频,输出为输入音频属于某一类音频的分类置信度,既输入音频为正常音频和对抗音频的分类置信度。
步骤3,构建StarGAN模型的损失函数。
StarGAN模型的损失函数L由三部分构成,分别为由对抗损失函数Ladv、分类损失函数Lcls以及循环一致损失函数Lcls。其中,对抗损失函数Ladv用来实现生成器G和判别器D的性能的提升,使得输入音频经过生成器G处理后的数据仍符合给定属性下的音频数据分布。分类损失函数Lcls用来实现使生成器G实现多类别的数据转换以及分类器C性能的提升。循环一致损失函数Lcls用来保留语音信息以及生成器G的多样性,即避免生成器将需要转换的语音映射为对抗音频或正常音频中的某一个而失效。
具体地,对抗损失函数Ladv为:
Figure BDA00027477251600000710
Figure BDA0002747725160000071
Figure BDA0002747725160000072
其中,c~p(c)表示属性c服从属性c的概率分布p(c),y~p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c),D(y,c)表示判别器D对音频y在给定属性c下的预测置信度,E(·)表示数学期望值,x~p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x),G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频,D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。损失函数
Figure BDA0002747725160000073
使判别器D在给定属性c下,学习能够判别生成器G生成的序列是否为符合对应属性类的音频数据特征分布的能力。损失函数
Figure BDA0002747725160000074
使生成器G的生成数据仍符合给定属性的音频数据的特征分布。
分类损失函数Lcls为:
Figure BDA0002747725160000075
Figure BDA0002747725160000076
Figure BDA0002747725160000077
其中,pC(c|y)表示分类器C对音频y在属性c下的分类置信度分布,pC(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分类置信度分布,E(·)表示数学期望值,损失函数
Figure BDA0002747725160000078
用来训练分类器C,提升其分类性能,损失函数
Figure BDA0002747725160000079
使生成器G具有生成指定属性c的音频数据的能力。
循环一致损失函数Lcyc为:
Figure BDA0002747725160000081
Figure BDA0002747725160000082
Figure BDA0002747725160000083
其中,c′~p(c)表示属性c′概率分布p(c),x~p(y|c′)表示训练样本集中具有属性c′的音频x服从概率分布p(y|c′),G(G(x,c),c′)表示生成器G对生成音频G(x,)生成给定属性c′下的生成音频,G(x,c′)表示生成器G基于音频x生成具有给定属性c′的生成音频,表示‖·‖ρ表示Lρ范数,属性c′为音频的正确原属性,属性c为用于训练时人为赋予的属性,该属性c可以表示为音频的正确原属性,也可以表示为音频的错误属性。举例,对于一个正常音频来说,其对应的属性c′表示为该正常音频为正常样本,正常音频对应的属性c表示为可以是正常样本,也可以是对抗样本。损失函数
Figure BDA0002747725160000084
保证生成器G生成的具有给定属性c的音频在转为原属性c′时,与原音频的差异小,由此可以确保生成器G不会对音频的语义信息产生影响。损失函数
Figure BDA0002747725160000085
确保在进行同属性之间的音频转换时,生成器G不会对音频的语义信息产生影响。
因此,损失函数Ladv表示为:
L=Ladv+Lcls+Lcyc
步骤4,利用数据集,根据损失函数对StarGAN模型进行训练。
构建好数据集、StarGAN模型以及损失函数的基础上,即可以对StarGAN模型进行训练,来优化StarGAN模型参数。在训练时,首先,可以利用数据集对StarGAN模型中的分类器C进行预训练,使得分类器C可以初步识别数据集中的对抗音频和正常音频的能力。
然后,利用数据集,以损失函数L最小为目标,对StarGAN模型再训练,在训练完成后用测试集进行测试,统计分类器的测试精度,即分类器对对抗样本和正常音频的分类精度,以及生成器对对抗音频的处理效果,若经过生成器处理后的对抗音频能够被语音识别模型正确识别则认为生成器的这次处理是有效的。若分类器的分类精度和生成器的处理效果达不到预设标准,则更改模型的参数继续训练模型,直到符合预设标准为止。训练结束后,提取训练好分类器和生成器用于语音识别。
步骤5,集成StarGAN模型与语音识别模型,并对输入音频进行语音识别。
如图7所示,语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。分类器和生成器的集成可以提高语音识别模型的鲁棒性,使语音识别模型能够抵御对抗样本的攻击。
上述实施例提供的基于StarGAN的语音识别模型的防御方法中,针对语音识别模型存在的漏洞,利用不同攻击方法下生成的对抗音频和正常语音数据集组成训练数据集,对StarGAN模型进行训练,使StarGAN能够检测并处理对抗样本,将StarGAN中的分类器和生成器集成到语音识别模型中,使语音识别模型的鲁棒性得到提升,并使语音识别模型能够抵御对抗样本的攻击。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于StarGAN的语音识别模型的防御方法,其特征在于,包括以下步骤:
构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的预测置信度,所述分类器用于分类输入音频的分类置信度;
构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;
利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;
语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
2.如权利要求1所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述对抗损失函数Ladv为:
Figure FDA0002747725150000021
Figure FDA0002747725150000022
Figure FDA0002747725150000023
其中,c~p(c)表示属性c服从属性c的概率分布p(c),y~p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c),D(y,c)表示判别器D对音频y在给定属性c下的预测置信度,E(·)表示数学期望值,x~p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x),G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频,D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。
3.如权利要求1或2所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述分类损失函数Lcls为:
Figure FDA0002747725150000024
Figure FDA0002747725150000025
Figure FDA0002747725150000026
其中,pC(c|y)表示分类器C对音频y在属性c下的分类置信度分布,pC(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分类置信度分布,E(·)表示数学期望值。
4.如权利要求1或3所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述循环一致损失函数Lcyc为:
Figure FDA0002747725150000027
Figure FDA0002747725150000031
Figure FDA0002747725150000032
其中,c′~p(c)表示属性c′概率分布p(c),x~p(y|c′)表示训练样本集中具有属性c′的音频x服从概率分布p(y|c′),G(G(x,c),c′)表示生成器G对生成音频G(x,c)生成给定属性c′下的生成音频,G(x,c′)表示生成器G基于音频x生成具有给定属性c′的生成音频,表示‖·‖ρ表示Lρ范数,
损失函数Ladv表示为:
L=Ladv+Lcls+Lcyc
5.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述生成器的网络结构包括二维卷积层,二维实例正则化以及残差卷积块。
6.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述判别器的网络结构包括二维卷积层和残差卷积块。
7.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述分类器的网络结构包括二维卷积层和残差卷积块。
8.如权利要求5~7任一项所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述残差卷积块包括依次连接的二维卷积层Conv2d_1、二维实例正则化Instancenormalization2d_1、Relu激活函数、二维卷积层Conv2d_2以及二维实例正则化Instancenormalization2d_2,所述二维卷积层Conv2d_1的输入数据与二维实例正则化Instancenormalization2d_2的输出融合后作为残差卷积块的输出。
9.如权利要求4所述的基于StarGAN的语音识别模型的防御方法,其特征在于,采用FGSM、DeepFool、PGD、GA、PSO、CS方法攻击语音识别模型,获得对抗音频。
CN202011172485.4A 2020-10-28 2020-10-28 基于StarGAN的语音识别模型的防御方法 Active CN112349281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011172485.4A CN112349281B (zh) 2020-10-28 2020-10-28 基于StarGAN的语音识别模型的防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011172485.4A CN112349281B (zh) 2020-10-28 2020-10-28 基于StarGAN的语音识别模型的防御方法

Publications (2)

Publication Number Publication Date
CN112349281A true CN112349281A (zh) 2021-02-09
CN112349281B CN112349281B (zh) 2022-03-08

Family

ID=74358979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011172485.4A Active CN112349281B (zh) 2020-10-28 2020-10-28 基于StarGAN的语音识别模型的防御方法

Country Status (1)

Country Link
CN (1) CN112349281B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法
CN113362822A (zh) * 2021-06-08 2021-09-07 北京计算机技术及应用研究所 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及系统
CN115496924A (zh) * 2022-09-29 2022-12-20 北京瑞莱智慧科技有限公司 一种数据处理方法、相关设备及存储介质
CN117292690A (zh) * 2023-11-24 2023-12-26 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110060657A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于sn的多对多说话人转换方法
CN111627429A (zh) * 2020-05-20 2020-09-04 浙江工业大学 一种基于CycleGAN的语音识别模型的防御方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110060657A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于sn的多对多说话人转换方法
CN111627429A (zh) * 2020-05-20 2020-09-04 浙江工业大学 一种基于CycleGAN的语音识别模型的防御方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGSUK YOOK: "Voice Conversion using Conditional CycleGAN", 《2018 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE (CSCI)》 *
陈晋音: "面向语音识别系统的黑盒对抗攻击方法", 《小型微型计算机系统》 *
韩斌: "基于环状生成对抗网络的深度语音去噪方法", 《电子设计工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法
CN113362822A (zh) * 2021-06-08 2021-09-07 北京计算机技术及应用研究所 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及系统
CN115496924A (zh) * 2022-09-29 2022-12-20 北京瑞莱智慧科技有限公司 一种数据处理方法、相关设备及存储介质
CN117292690A (zh) * 2023-11-24 2023-12-26 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质
CN117292690B (zh) * 2023-11-24 2024-03-15 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN112349281B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN112349281B (zh) 基于StarGAN的语音识别模型的防御方法
CN113554089B (zh) 一种图像分类对抗样本防御方法、系统及数据处理终端
CN111310802B (zh) 一种基于生成对抗网络的对抗攻击防御训练方法
CN111600835B (zh) 一种基于fgsm对抗攻击算法的检测与防御方法
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN110728360B (zh) 一种基于bp神经网络的微能源器件能量识别方法
CN111627429B (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN109902018B (zh) 一种智能驾驶系统测试案例的获取方法
CN111598210B (zh) 面向基于人工免疫算法对抗攻击的对抗防御方法
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
CN113362822B (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN112052933B (zh) 基于粒子群优化的深度学习模型的安全性测试方法和修复方法
CN114464206A (zh) 一种单通道盲源分离方法及系统
CN109660522B (zh) 面向综合电子系统的基于深层自编码器的混合入侵检测方法
CN114220097A (zh) 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN113095381B (zh) 一种基于改进型dbn的水声目标辨识方法及系统
CN115270891A (zh) 一种信号对抗样本的生成方法、装置、设备及存储介质
CN113011446B (zh) 一种基于多源异构数据学习的智能目标识别方法
CN114818859A (zh) 热力管网状况诊断方法、装置、终端设备和存储介质
Tang et al. Data augmentation for signal modulation classification using generative adverse network
CN112734016A (zh) 用于钢筋表面的光滑程度检测的神经网络的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant