CN111477247A - 基于gan的语音对抗样本生成方法 - Google Patents

基于gan的语音对抗样本生成方法 Download PDF

Info

Publication number
CN111477247A
CN111477247A CN202010249328.2A CN202010249328A CN111477247A CN 111477247 A CN111477247 A CN 111477247A CN 202010249328 A CN202010249328 A CN 202010249328A CN 111477247 A CN111477247 A CN 111477247A
Authority
CN
China
Prior art keywords
loss
generator
sample
formula
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010249328.2A
Other languages
English (en)
Other versions
CN111477247B (zh
Inventor
王让定
王冬华
董理
严迪群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN202010249328.2A priority Critical patent/CN111477247B/zh
Publication of CN111477247A publication Critical patent/CN111477247A/zh
Application granted granted Critical
Publication of CN111477247B publication Critical patent/CN111477247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,对原始语音数据样本x进行预处理;将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
Figure DDA0002434914560000011
将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。本发明能有效生成最小扰动,且能确保语音质量。

Description

基于GAN的语音对抗样本生成方法
技术领域
本发明涉及语音技术领域,尤其涉及基于GAN的语音对抗样本生成方法。
背景技术
对抗样本是指一种被攻击者有目的加入细微扰动后的样本,其主要目的是导致深度神经网络性能失效,甚至诱导深度学习网络做出攻击者指定的判断。对抗样本构造方法实际上是寻求最优扰动的过程,目前较为常见的对抗样本生成方法分为基于优化对抗扰动与基于扰动的方法。
使用优化算法寻找对抗扰动通常是设置一个满足对抗样本条件的目标优化函数,寻找满足该约束条件的最优扰动;基于梯度扰动的方法通常是将语音转换成频谱特征,将频谱特征输入目标网络得到该频谱特征的梯度,然后将梯度作为扰动添加到频谱特征中,最后将频谱特征重建成语音。比如,Alantot使用遗传算法,迭代寻找最优对抗扰动;Carlini结合快速梯度下降法(简称FGSM)与语音重建方法构建对抗样本成功攻击语音识别网络。
但Alantot仅考虑了对抗样本能够成功攻击目标网络,没有保证生成语音的质量;Carlini采用的方法须先将语音转换成MFCC,然后通过语音识别网络回传的梯度信息修改MFCC特征,最后将MFCC特征重建成语音信号,这虽然能使目标语音识别网络识别错误,却无法保证对抗样本的语音质量。
发明内容
鉴于上述问题,本发明的目的在于提供一种能提供最优扰动,极大提升生成对抗样本效率,并确保语音质量的基于GAN的语音对抗样本生成方法。
为了实现上述目的,本发明的技术方案为:一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
Figure BDA0002434914540000021
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
进一步的,S4中生成器训练时的损失函数l通过公式(4)得到,该公式(4)具体为:
Figure BDA0002434914540000022
其中,α、β和γ是各项损失的权重,
Figure BDA0002434914540000023
为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5)
Figure BDA0002434914540000024
得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,
Figure BDA0002434914540000025
可促使构建的语音样本能被目标网络错分成目标标签t;
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Exlog(1-D(xadv),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数;
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2
判别器的损失lD通过公式(9)获取,即lD=Exlog(D(xadv))+Exlog(1-D(x))。
进一步的,生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。
进一步的,判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky-ReLU。
进一步的,S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,具体为,
1)在训练集中随机获取m个原始样本{x(1),x(2),…,x(m)};
2)将m个原始样本输入生成器G,构成m个对抗样本xadv(x+G(x)),即{xadv(1),xadv (2),…,xadv(m)};
3)使用
Figure BDA0002434914540000031
更新生成器;
4)使用
Figure BDA0002434914540000032
更新判别器;
5)重复步骤1)-4)直至完成迭代次数。
进一步的,S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为
Figure BDA0002434914540000033
进一步的,本方法还包括采用如下公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为
Figure BDA0002434914540000034
与现有技术相比,本发明的优点在于:结合生成对抗网络博弈思想,将目标网络置于生成对抗网络框架中,通过设计合理的损失函数来训练网络,以获得最佳生成器,生成能使样本错分类成指定类别的扰动,该方法极大提升了生成对抗样本的效率,并确保语音质量。
附图说明
图1为本申请的网络结构图示。
图2为本申请的生成器结构图示。
图3为本申请的判别器结构图示。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1至3所示为本发明的优选实施例结构示意图。本发明采用基于GAN的语音对抗样本生成方法,利用生成对抗网络的博弈思想,通过设计合理的损失函数,训练得到扰动生成器,通过该扰动生成器能够快速地构造语音质量较好的、攻击成功率高的语音对抗样本。如图1所示为本发明的网络结构图示。
该网络框架主要包括3部分:生成器G、判别器D、目标网络f。生成器的目的是生成扰动,用其构建的对抗样本既要使判别器误判,也即将对抗样本判断成原始样本,又要使目标网络误分类成攻击者指定的结果;判别器不断学习正常样本与对抗样本数据分布的差异,提升自身做出正确判断的能力;而目标网络则给出对抗样本的分类结果。
本方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
Figure BDA0002434914540000041
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
其中,生成器的结构如图2所示,由8个卷积层、7个反卷积层以及一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接(skip connection),卷积层和反卷积层指的都是一维卷积,使用Tanh激活函数将最后一层的值映射到[-1,1]范围内;
在传统的GAN中,判别器需要分辨出输入样本的真假,目的是鼓励生成器生成更真实的样本,而在本专利中,判别器的目的是区分出对抗样本与原始样本,判别器的结构如图3所示,由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中卷积块包括卷积层、BN层和激活函数Leaky-ReLU(LReLU),所有的卷积层指的都是一维卷积层。
S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为
Figure BDA0002434914540000051
当然,在进行数据恢复时,则采用公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为
Figure BDA0002434914540000052
通过分析可知,该方法的关键在于得到训练好的生成器,从而用该生成器快速生成质量较好的对抗样本。为了使构成的对抗样本既保持较高的质量,又能使目标网络错分类,本方法在S4中通过计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD来得到生成器G训练时的损失函数l,即
Figure BDA0002434914540000053
其中,α、β和γ是各项损失的权重,
Figure BDA0002434914540000054
为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,根据公式(5)
Figure BDA0002434914540000055
得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,
Figure BDA0002434914540000056
可促使构建的语音样本能被目标网络错分成目标标签t;
本发明使用标准交叉熵损失作为判别器的对抗损失,即判别器的对抗损失lGAN采用公式(6)lGAN=Exlog(1-D(xadv),t)获取,当D(xadv)→1时,判别器认为构成的对抗样本为真实样本。通过不断训练生成器与判别器,使构建的对抗样本与原始样本的数据分布更加接近,从而使得对抗样本的扰动尽可能小。
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数,使用铰链损失不仅可以约束扰动范围,还可以使GAN的训练变得稳定。
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2,该损失的设计源于实验,如果不使用该扰动,生成语音的采样值分布整体在0值以上或以下,导致语音质量差,使用该扰动能保证语音采样值的分布正常;
本文中判别器的损失lD为二元交叉熵损失,具体通过公式(9)获取,即
lD=Exlog(D(xadv))+Exlog(1-D(x))。
在获得损失函数l后,将其通过梯度反传,更新生成器和判别器的参数,也即实施训练,并通过公式(10)得到最佳生成器,公式(10)为
Figure BDA0002434914540000061
对于训练策略,需要说明的是,由于本方法是基于数据驱动的深度学习方法,故而网络训练策略对于网络最终的性能至关重要,进行训练时需注意以下几点:1、在训练阶段,目标网络的参数固定,不参与训练,其作用是给出对抗样本的分类结果;2、生成器和判别器的训练策略为:首先训练一次生成器,接着训练一次判别器。训练生成器时,判别器的参数固定,仅更新生成器的参数;训练判别器时,生成器的参数固定,仅更新判别器的参数;3、为保证语音样本质量,目标网络在生成器和判别器训练几圈(一般是3-5圈)后加入框架训练;4、在实验中调整生成器损失的权重,其中铰链损失和均方差损失的权重可以设置大一些,比如分别对应取值100、200;5、网络停止的策略有两个:一是当达到设定的训练次数后,网络停止训练;二是判别器无法判断生成器构建的对抗样本时,停止训练;6、网络训练过程中,生成器损失达到新的最小值时,保存生成器的网络参数,此时得到的即为最佳生成器。
而通过梯度反传更新生成器和判别器参数的具体操作请参见如下步骤:
Figure BDA0002434914540000062
Figure BDA0002434914540000071
本发明提供了一种快速构建语音对抗样本的方法,有效提高了语音对抗样本构建的速度,构建的对抗样本能够成功欺骗目标网络,并保证构建的语音对抗样本质量。生成器也可做通用扰动生成器。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
Figure FDA0002434914530000011
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
2.根据权利要求1所述方法,其特征在于:
S4中生成器训练时的损失函数l通过公式(4)得到,该公式(4)具体为:
Figure FDA0002434914530000012
其中,α、β和γ是各项损失的权重,
Figure FDA0002434914530000013
为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5)
Figure FDA0002434914530000014
得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,
Figure FDA0002434914530000015
可促使构建的语音样本能被目标网络错分成目标标签t;
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Exlog(1-D(xadv),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数;
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2
判别器的损失lD通过公式(9)获取,即lD=Exlog(D(xadv))+Exlog(1-D(x))。
3.根据权利要求1所述方法,其特征在于:
所述生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。
4.根据权利要求1所述方法,其特征在于:
所述判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky-ReLU。
5.根据权利要求2所述方法,其特征在于:
S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,具体为,
1)在训练集中随机获取m个原始样本{x(1),x(2),…,x(m)};
2)将m个原始样本输入生成器G,构成m个对抗样本xadv(x+G(x)),即{xadv(1),xadv(2),…,xadv(m)};
3)使用
Figure FDA0002434914530000021
更新生成器;
4)使用
Figure FDA0002434914530000022
更新判别器;
5)重复步骤1)-4)直至完成迭代次数。
6.根据权利要求1所述方法,其特征在于:
S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为
Figure FDA0002434914530000023
7.根据权利要求6所述方法,其特征在于:
所述方法还包括采用如下公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为
Figure FDA0002434914530000024
CN202010249328.2A 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法 Active CN111477247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249328.2A CN111477247B (zh) 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249328.2A CN111477247B (zh) 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法

Publications (2)

Publication Number Publication Date
CN111477247A true CN111477247A (zh) 2020-07-31
CN111477247B CN111477247B (zh) 2023-08-11

Family

ID=71750310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249328.2A Active CN111477247B (zh) 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法

Country Status (1)

Country Link
CN (1) CN111477247B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967584A (zh) * 2020-08-19 2020-11-20 北京字节跳动网络技术有限公司 生成对抗样本的方法、装置、电子设备及计算机存储介质
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112216273A (zh) * 2020-10-30 2021-01-12 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112581423A (zh) * 2020-09-29 2021-03-30 宁波大学 一种基于神经网络的汽车表面缺陷的快速检测方法
CN112735425A (zh) * 2020-12-24 2021-04-30 交控科技股份有限公司 轨旁设备巡检报文生成方法及系统
CN113053354A (zh) * 2021-03-12 2021-06-29 云知声智能科技股份有限公司 一种提高语音合成效果的方法和设备
CN113256751A (zh) * 2021-06-01 2021-08-13 平安科技(深圳)有限公司 基于语音的图像生成方法、装置、设备及存储介质
CN117292690A (zh) * 2023-11-24 2023-12-26 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
WO2018157804A1 (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种问题的应答方法及装置
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
US20190286073A1 (en) * 2018-03-16 2019-09-19 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US20200051565A1 (en) * 2018-08-13 2020-02-13 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
CN110930976A (zh) * 2019-12-02 2020-03-27 北京声智科技有限公司 一种语音生成方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157804A1 (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种问题的应答方法及装置
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
US20190286073A1 (en) * 2018-03-16 2019-09-19 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
US20200051565A1 (en) * 2018-08-13 2020-02-13 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110930976A (zh) * 2019-12-02 2020-03-27 北京声智科技有限公司 一种语音生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAZUKI FUJII 等: "humangan:generative adversarial network with human-based discriminator and its evaluation in speech perception modeling", pages 1 - 3 *
朱纯 等: "基于深度卷积生成对抗网络的语音生成技术", pages 13 - 20 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967584A (zh) * 2020-08-19 2020-11-20 北京字节跳动网络技术有限公司 生成对抗样本的方法、装置、电子设备及计算机存储介质
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112581423A (zh) * 2020-09-29 2021-03-30 宁波大学 一种基于神经网络的汽车表面缺陷的快速检测方法
CN112216273A (zh) * 2020-10-30 2021-01-12 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112216273B (zh) * 2020-10-30 2024-04-16 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112735425A (zh) * 2020-12-24 2021-04-30 交控科技股份有限公司 轨旁设备巡检报文生成方法及系统
CN113053354A (zh) * 2021-03-12 2021-06-29 云知声智能科技股份有限公司 一种提高语音合成效果的方法和设备
CN113256751A (zh) * 2021-06-01 2021-08-13 平安科技(深圳)有限公司 基于语音的图像生成方法、装置、设备及存储介质
CN113256751B (zh) * 2021-06-01 2023-09-29 平安科技(深圳)有限公司 基于语音的图像生成方法、装置、设备及存储介质
CN117292690A (zh) * 2023-11-24 2023-12-26 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质
CN117292690B (zh) * 2023-11-24 2024-03-15 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN111477247B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111477247A (zh) 基于gan的语音对抗样本生成方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Shenoy et al. Multilogue-net: A context aware rnn for multi-modal emotion detection and sentiment analysis in conversation
CN107609572B (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
Katagiri et al. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method
Ding et al. Autospeech: Neural architecture search for speaker recognition
CN110110318B (zh) 基于循环神经网络的文本隐写检测方法及系统
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN111506732B (zh) 一种文本多层次标签分类方法
CN112216273A (zh) 一种针对语音关键词分类网络的对抗样本攻击方法
CN112861945B (zh) 一种多模态融合谎言检测方法
EP3987450B1 (en) Multi-dimensional deep neural network
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN112634992A (zh) 分子性质预测方法及其模型的训练方法及相关装置、设备
CN115983274A (zh) 一种基于两阶段标签校正的噪声事件抽取方法
Singh et al. Supervised hierarchical clustering using graph neural networks for speaker diarization
JPH0934863A (ja) ニューラルネットワークによる情報統合処理方法
CN116205227A (zh) 一种基于变分推断理论的关键词生成方法及系统
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN107229944B (zh) 基于认知信息粒子的半监督主动识别方法
Oruh et al. Deep learning-based classification of spoken english digits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant