CN111477247B - 基于gan的语音对抗样本生成方法 - Google Patents

基于gan的语音对抗样本生成方法 Download PDF

Info

Publication number
CN111477247B
CN111477247B CN202010249328.2A CN202010249328A CN111477247B CN 111477247 B CN111477247 B CN 111477247B CN 202010249328 A CN202010249328 A CN 202010249328A CN 111477247 B CN111477247 B CN 111477247B
Authority
CN
China
Prior art keywords
loss
sample
generator
formula
adv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010249328.2A
Other languages
English (en)
Other versions
CN111477247A (zh
Inventor
王让定
王冬华
董理
严迪群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN202010249328.2A priority Critical patent/CN111477247B/zh
Publication of CN111477247A publication Critical patent/CN111477247A/zh
Application granted granted Critical
Publication of CN111477247B publication Critical patent/CN111477247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,对原始语音数据样本x进行预处理;将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。本发明能有效生成最小扰动,且能确保语音质量。

Description

基于GAN的语音对抗样本生成方法
技术领域
本发明涉及语音技术领域,尤其涉及基于GAN的语音对抗样本生成方法。
背景技术
对抗样本是指一种被攻击者有目的加入细微扰动后的样本,其主要目的是导致深度神经网络性能失效,甚至诱导深度学习网络做出攻击者指定的判断。对抗样本构造方法实际上是寻求最优扰动的过程,目前较为常见的对抗样本生成方法分为基于优化对抗扰动与基于扰动的方法。
使用优化算法寻找对抗扰动通常是设置一个满足对抗样本条件的目标优化函数,寻找满足该约束条件的最优扰动;基于梯度扰动的方法通常是将语音转换成频谱特征,将频谱特征输入目标网络得到该频谱特征的梯度,然后将梯度作为扰动添加到频谱特征中,最后将频谱特征重建成语音。比如,Alantot使用遗传算法,迭代寻找最优对抗扰动;Carlini结合快速梯度下降法(简称FGSM)与语音重建方法构建对抗样本成功攻击语音识别网络。
但Alantot仅考虑了对抗样本能够成功攻击目标网络,没有保证生成语音的质量;Carlini采用的方法须先将语音转换成MFCC,然后通过语音识别网络回传的梯度信息修改MFCC特征,最后将MFCC特征重建成语音信号,这虽然能使目标语音识别网络识别错误,却无法保证对抗样本的语音质量。
发明内容
鉴于上述问题,本发明的目的在于提供一种能提供最优扰动,极大提升生成对抗样本效率,并确保语音质量的基于GAN的语音对抗样本生成方法。
为了实现上述目的,本发明的技术方案为:一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
进一步的,S4中生成器训练时的损失函数l通过公式(4)得到,该公式(4)具体为:
其中,α、β和γ是各项损失的权重,为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5)得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,/>可促使构建的语音样本能被目标网络错分成目标标签t;
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Exlog(1-D(xadv),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数;
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2
判别器的损失lD通过公式(9)获取,即lD=Exlog(D(xadv))+Exlog(1-D(x))。
进一步的,生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。
进一步的,判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky-ReLU。
进一步的,S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,具体为,
1)在训练集中随机获取m个原始样本{x(1),x(2),…,x(m)};
2)将m个原始样本输入生成器G,构成m个对抗样本xadv(x+G(x)),即{xadv(1),xadv (2),…,xadv(m)};
3)使用更新生成器;
4)使用更新判别器;
5)重复步骤1)-4)直至完成迭代次数。
进一步的,S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为
进一步的,本方法还包括采用如下公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为
与现有技术相比,本发明的优点在于:结合生成对抗网络博弈思想,将目标网络置于生成对抗网络框架中,通过设计合理的损失函数来训练网络,以获得最佳生成器,生成能使样本错分类成指定类别的扰动,该方法极大提升了生成对抗样本的效率,并确保语音质量。
附图说明
图1为本申请的网络结构图示。
图2为本申请的生成器结构图示。
图3为本申请的判别器结构图示。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1至3所示为本发明的优选实施例结构示意图。本发明采用基于GAN的语音对抗样本生成方法,利用生成对抗网络的博弈思想,通过设计合理的损失函数,训练得到扰动生成器,通过该扰动生成器能够快速地构造语音质量较好的、攻击成功率高的语音对抗样本。如图1所示为本发明的网络结构图示。
该网络框架主要包括3部分:生成器G、判别器D、目标网络f。生成器的目的是生成扰动,用其构建的对抗样本既要使判别器误判,也即将对抗样本判断成原始样本,又要使目标网络误分类成攻击者指定的结果;判别器不断学习正常样本与对抗样本数据分布的差异,提升自身做出正确判断的能力;而目标网络则给出对抗样本的分类结果。
本方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
其中,生成器的结构如图2所示,由8个卷积层、7个反卷积层以及一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接(skip connection),卷积层和反卷积层指的都是一维卷积,使用Tanh激活函数将最后一层的值映射到[-1,1]范围内;
在传统的GAN中,判别器需要分辨出输入样本的真假,目的是鼓励生成器生成更真实的样本,而在本专利中,判别器的目的是区分出对抗样本与原始样本,判别器的结构如图3所示,由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中卷积块包括卷积层、BN层和激活函数Leaky-ReLU(LReLU),所有的卷积层指的都是一维卷积层。
S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为当然,在进行数据恢复时,则采用公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为/>
通过分析可知,该方法的关键在于得到训练好的生成器,从而用该生成器快速生成质量较好的对抗样本。为了使构成的对抗样本既保持较高的质量,又能使目标网络错分类,本方法在S4中通过计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD来得到生成器G训练时的损失函数l,即
其中,α、β和γ是各项损失的权重,为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,根据公式(5)
得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,/>可促使构建的语音样本能被目标网络错分成目标标签t;
本发明使用标准交叉熵损失作为判别器的对抗损失,即判别器的对抗损失lGAN采用公式(6)lGAN=Exlog(1-D(xadv),t)获取,当D(xadv)→1时,判别器认为构成的对抗样本为真实样本。通过不断训练生成器与判别器,使构建的对抗样本与原始样本的数据分布更加接近,从而使得对抗样本的扰动尽可能小。
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数,使用铰链损失不仅可以约束扰动范围,还可以使GAN的训练变得稳定。
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2,该损失的设计源于实验,如果不使用该扰动,生成语音的采样值分布整体在0值以上或以下,导致语音质量差,使用该扰动能保证语音采样值的分布正常;
本文中判别器的损失lD为二元交叉熵损失,具体通过公式(9)获取,即
lD=Exlog(D(xadv))+Exlog(1-D(x))。
在获得损失函数l后,将其通过梯度反传,更新生成器和判别器的参数,也即实施训练,并通过公式(10)得到最佳生成器,公式(10)为
对于训练策略,需要说明的是,由于本方法是基于数据驱动的深度学习方法,故而网络训练策略对于网络最终的性能至关重要,进行训练时需注意以下几点:1、在训练阶段,目标网络的参数固定,不参与训练,其作用是给出对抗样本的分类结果;2、生成器和判别器的训练策略为:首先训练一次生成器,接着训练一次判别器。训练生成器时,判别器的参数固定,仅更新生成器的参数;训练判别器时,生成器的参数固定,仅更新判别器的参数;3、为保证语音样本质量,目标网络在生成器和判别器训练几圈(一般是3-5圈)后加入框架训练;4、在实验中调整生成器损失的权重,其中铰链损失和均方差损失的权重可以设置大一些,比如分别对应取值100、200;5、网络停止的策略有两个:一是当达到设定的训练次数后,网络停止训练;二是判别器无法判断生成器构建的对抗样本时,停止训练;6、网络训练过程中,生成器损失达到新的最小值时,保存生成器的网络参数,此时得到的即为最佳生成器。
而通过梯度反传更新生成器和判别器参数的具体操作请参见如下步骤:
本发明提供了一种快速构建语音对抗样本的方法,有效提高了语音对抗样本构建的速度,构建的对抗样本能够成功欺骗目标网络,并保证构建的语音对抗样本质量。生成器也可做通用扰动生成器。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D中,并且将对抗样本xadv经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S4中生成器训练时的损失函数l通过公式(4)得到,该公式(4)具体为:
其中,α、β和γ是各项损失的权重,为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5)/>得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,/>可促使构建的语音样本能被目标网络错分成目标标签t;
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Εxlog(1-D(xadv),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Εxmax(0,||G(x)||2-c),其中,c为扰动范围参数;
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2
判别器的损失lD通过公式(9)获取,即lD=Εxlog(D(xadv))+Εxlog(1-D(x));
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
2.根据权利要求1所述方法,其特征在于:
所述生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。
3.根据权利要求1所述方法,其特征在于:
所述判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky-ReLU。
4.根据权利要求1所述方法,其特征在于:
S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,具体为,
1)在训练集中随机获取m个原始样本{x(1),x(2),…,x(m)};
2)将m个原始样本输入生成器G,构成m个对抗样本xadv(x+G(x)),即{xadv(1),xadv(2),…,xadv(m)};
3)使用更新生成器;
4)使用更新判别器;
5)重复步骤1)-4)直至完成迭代次数。
5.根据权利要求1所述方法,其特征在于:
S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为
6.根据权利要求5所述方法,其特征在于:
所述方法还包括采用如下公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为
CN202010249328.2A 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法 Active CN111477247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249328.2A CN111477247B (zh) 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249328.2A CN111477247B (zh) 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法

Publications (2)

Publication Number Publication Date
CN111477247A CN111477247A (zh) 2020-07-31
CN111477247B true CN111477247B (zh) 2023-08-11

Family

ID=71750310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249328.2A Active CN111477247B (zh) 2020-04-01 2020-04-01 基于gan的语音对抗样本生成方法

Country Status (1)

Country Link
CN (1) CN111477247B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967584A (zh) * 2020-08-19 2020-11-20 北京字节跳动网络技术有限公司 生成对抗样本的方法、装置、电子设备及计算机存储介质
CN112133326A (zh) * 2020-09-08 2020-12-25 东南大学 一种基于对抗神经网络的枪声数据增广与检测方法
CN112581423A (zh) * 2020-09-29 2021-03-30 宁波大学 一种基于神经网络的汽车表面缺陷的快速检测方法
CN112216273B (zh) * 2020-10-30 2024-04-16 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112735425B (zh) * 2020-12-24 2023-05-23 交控科技股份有限公司 轨旁设备巡检报文生成方法及系统
CN113053354B (zh) * 2021-03-12 2022-08-26 云知声智能科技股份有限公司 一种提高语音合成效果的方法和设备
CN113256751B (zh) * 2021-06-01 2023-09-29 平安科技(深圳)有限公司 基于语音的图像生成方法、装置、设备及存储介质
CN117292690B (zh) * 2023-11-24 2024-03-15 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
WO2018157804A1 (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种问题的应答方法及装置
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN110930976A (zh) * 2019-12-02 2020-03-27 北京声智科技有限公司 一种语音生成方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106182B2 (en) * 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US11568864B2 (en) * 2018-08-13 2023-01-31 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157804A1 (zh) * 2017-02-28 2018-09-07 华为技术有限公司 一种问题的应答方法及装置
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110930976A (zh) * 2019-12-02 2020-03-27 北京声智科技有限公司 一种语音生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱纯 等.基于深度卷积生成对抗网络的语音生成技术.《仪表技术》.2018,(第undefined期),第13-20页. *

Also Published As

Publication number Publication date
CN111477247A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111477247B (zh) 基于gan的语音对抗样本生成方法
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
Katagiri et al. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method
CN107729999A (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN109767759A (zh) 基于改进型cldnn结构的端到端语音识别方法
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN116635866A (zh) 用于挖掘少数类数据样本以训练神经网络的方法和系统
CN1302427A (zh) 用于说话者认证的模型自适应系统和方法
US20220165290A1 (en) Condition-invariant feature extraction network
CN113223515B (zh) 一种对抗攻击免疫的自动语音识别方法
CN113591553B (zh) 一种基于小样本权值优化的涡轮泵迁移学习故障智能判定方法
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
KR102406512B1 (ko) 음성인식 방법 및 그 장치
CN115983274A (zh) 一种基于两阶段标签校正的噪声事件抽取方法
CN113239809B (zh) 基于多尺度稀疏sru分类模型的水声目标识别方法
CN110808036B (zh) 一种增量式语音命令词识别方法
WO2020216286A1 (zh) 教师风格预测模型的训练方法及计算机存储介质
CN116205227A (zh) 一种基于变分推断理论的关键词生成方法及系统
CN108446718B (zh) 一种动态深度置信网络分析方法
CN107229944B (zh) 基于认知信息粒子的半监督主动识别方法
Oruh et al. Deep Learning‐Based Classification of Spoken English Digits
CN115602156A (zh) 一种基于多突触连接光脉冲神经网络的语音识别方法
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN110858484A (zh) 一种基于声纹识别技术的语音识别方法
CN113851149A (zh) 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant