CN111477247A - 基于gan的语音对抗样本生成方法 - Google Patents
基于gan的语音对抗样本生成方法 Download PDFInfo
- Publication number
- CN111477247A CN111477247A CN202010249328.2A CN202010249328A CN111477247A CN 111477247 A CN111477247 A CN 111477247A CN 202010249328 A CN202010249328 A CN 202010249328A CN 111477247 A CN111477247 A CN 111477247A
- Authority
- CN
- China
- Prior art keywords
- loss
- generator
- sample
- formula
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000004913 activation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 17
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 9
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,对原始语音数据样本x进行预处理;将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。本发明能有效生成最小扰动,且能确保语音质量。
Description
技术领域
本发明涉及语音技术领域,尤其涉及基于GAN的语音对抗样本生成方法。
背景技术
对抗样本是指一种被攻击者有目的加入细微扰动后的样本,其主要目的是导致深度神经网络性能失效,甚至诱导深度学习网络做出攻击者指定的判断。对抗样本构造方法实际上是寻求最优扰动的过程,目前较为常见的对抗样本生成方法分为基于优化对抗扰动与基于扰动的方法。
使用优化算法寻找对抗扰动通常是设置一个满足对抗样本条件的目标优化函数,寻找满足该约束条件的最优扰动;基于梯度扰动的方法通常是将语音转换成频谱特征,将频谱特征输入目标网络得到该频谱特征的梯度,然后将梯度作为扰动添加到频谱特征中,最后将频谱特征重建成语音。比如,Alantot使用遗传算法,迭代寻找最优对抗扰动;Carlini结合快速梯度下降法(简称FGSM)与语音重建方法构建对抗样本成功攻击语音识别网络。
但Alantot仅考虑了对抗样本能够成功攻击目标网络,没有保证生成语音的质量;Carlini采用的方法须先将语音转换成MFCC,然后通过语音识别网络回传的梯度信息修改MFCC特征,最后将MFCC特征重建成语音信号,这虽然能使目标语音识别网络识别错误,却无法保证对抗样本的语音质量。
发明内容
鉴于上述问题,本发明的目的在于提供一种能提供最优扰动,极大提升生成对抗样本效率,并确保语音质量的基于GAN的语音对抗样本生成方法。
为了实现上述目的,本发明的技术方案为:一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
其中,α、β和γ是各项损失的权重,为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5)得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,可促使构建的语音样本能被目标网络错分成目标标签t;
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Exlog(1-D(xadv),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数;
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2;
判别器的损失lD通过公式(9)获取,即lD=Exlog(D(xadv))+Exlog(1-D(x))。
进一步的,生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。
进一步的,判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky-ReLU。
进一步的,S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,具体为,
1)在训练集中随机获取m个原始样本{x(1),x(2),…,x(m)};
2)将m个原始样本输入生成器G,构成m个对抗样本xadv(x+G(x)),即{xadv(1),xadv (2),…,xadv(m)};
5)重复步骤1)-4)直至完成迭代次数。
进一步的,S1中对原始语音数据样本x进行预处理,具体为,
与现有技术相比,本发明的优点在于:结合生成对抗网络博弈思想,将目标网络置于生成对抗网络框架中,通过设计合理的损失函数来训练网络,以获得最佳生成器,生成能使样本错分类成指定类别的扰动,该方法极大提升了生成对抗样本的效率,并确保语音质量。
附图说明
图1为本申请的网络结构图示。
图2为本申请的生成器结构图示。
图3为本申请的判别器结构图示。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1至3所示为本发明的优选实施例结构示意图。本发明采用基于GAN的语音对抗样本生成方法,利用生成对抗网络的博弈思想,通过设计合理的损失函数,训练得到扰动生成器,通过该扰动生成器能够快速地构造语音质量较好的、攻击成功率高的语音对抗样本。如图1所示为本发明的网络结构图示。
该网络框架主要包括3部分:生成器G、判别器D、目标网络f。生成器的目的是生成扰动,用其构建的对抗样本既要使判别器误判,也即将对抗样本判断成原始样本,又要使目标网络误分类成攻击者指定的结果;判别器不断学习正常样本与对抗样本数据分布的差异,提升自身做出正确判断的能力;而目标网络则给出对抗样本的分类结果。
本方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
其中,生成器的结构如图2所示,由8个卷积层、7个反卷积层以及一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接(skip connection),卷积层和反卷积层指的都是一维卷积,使用Tanh激活函数将最后一层的值映射到[-1,1]范围内;
在传统的GAN中,判别器需要分辨出输入样本的真假,目的是鼓励生成器生成更真实的样本,而在本专利中,判别器的目的是区分出对抗样本与原始样本,判别器的结构如图3所示,由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中卷积块包括卷积层、BN层和激活函数Leaky-ReLU(LReLU),所有的卷积层指的都是一维卷积层。
S1中对原始语音数据样本x进行预处理,具体为,
所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[-1,1]内,语音数据采样点个数为16384个,公式(2)为当然,在进行数据恢复时,则采用公式(3)将[-1,1]范围内的语音数据恢复到[-32767,32767]的正常范围内,公式(3)为
通过分析可知,该方法的关键在于得到训练好的生成器,从而用该生成器快速生成质量较好的对抗样本。为了使构成的对抗样本既保持较高的质量,又能使目标网络错分类,本方法在S4中通过计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD来得到生成器G训练时的损失函数l,即
本发明使用标准交叉熵损失作为判别器的对抗损失,即判别器的对抗损失lGAN采用公式(6)lGAN=Exlog(1-D(xadv),t)获取,当D(xadv)→1时,判别器认为构成的对抗样本为真实样本。通过不断训练生成器与判别器,使构建的对抗样本与原始样本的数据分布更加接近,从而使得对抗样本的扰动尽可能小。
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数,使用铰链损失不仅可以约束扰动范围,还可以使GAN的训练变得稳定。
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2,该损失的设计源于实验,如果不使用该扰动,生成语音的采样值分布整体在0值以上或以下,导致语音质量差,使用该扰动能保证语音采样值的分布正常;
本文中判别器的损失lD为二元交叉熵损失,具体通过公式(9)获取,即
lD=Exlog(D(xadv))+Exlog(1-D(x))。
对于训练策略,需要说明的是,由于本方法是基于数据驱动的深度学习方法,故而网络训练策略对于网络最终的性能至关重要,进行训练时需注意以下几点:1、在训练阶段,目标网络的参数固定,不参与训练,其作用是给出对抗样本的分类结果;2、生成器和判别器的训练策略为:首先训练一次生成器,接着训练一次判别器。训练生成器时,判别器的参数固定,仅更新生成器的参数;训练判别器时,生成器的参数固定,仅更新判别器的参数;3、为保证语音样本质量,目标网络在生成器和判别器训练几圈(一般是3-5圈)后加入框架训练;4、在实验中调整生成器损失的权重,其中铰链损失和均方差损失的权重可以设置大一些,比如分别对应取值100、200;5、网络停止的策略有两个:一是当达到设定的训练次数后,网络停止训练;二是判别器无法判断生成器构建的对抗样本时,停止训练;6、网络训练过程中,生成器损失达到新的最小值时,保存生成器的网络参数,此时得到的即为最佳生成器。
而通过梯度反传更新生成器和判别器参数的具体操作请参见如下步骤:
本发明提供了一种快速构建语音对抗样本的方法,有效提高了语音对抗样本构建的速度,构建的对抗样本能够成功欺骗目标网络,并保证构建的语音对抗样本质量。生成器也可做通用扰动生成器。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,
S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)构建对抗样本,公式(1)为xadv=x+G(x);
S3、将对抗样本xadv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
2.根据权利要求1所述方法,其特征在于:
其中,α、β和γ是各项损失的权重,为生成的对抗样本xadv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5)得到,t是目标标签,lf为目标网络的,MFCC是特征提取器,可促使构建的语音样本能被目标网络错分成目标标签t;
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Exlog(1-D(xadv),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Exmax(0,||G(x)||2-c),其中,c为扰动范围参数;
均方差损失l2通过公式(8)获取,即l2=||xadv-x||2;
判别器的损失lD通过公式(9)获取,即lD=Exlog(D(xadv))+Exlog(1-D(x))。
3.根据权利要求1所述方法,其特征在于:
所述生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。
4.根据权利要求1所述方法,其特征在于:
所述判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky-ReLU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249328.2A CN111477247B (zh) | 2020-04-01 | 2020-04-01 | 基于gan的语音对抗样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249328.2A CN111477247B (zh) | 2020-04-01 | 2020-04-01 | 基于gan的语音对抗样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111477247A true CN111477247A (zh) | 2020-07-31 |
CN111477247B CN111477247B (zh) | 2023-08-11 |
Family
ID=71750310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010249328.2A Active CN111477247B (zh) | 2020-04-01 | 2020-04-01 | 基于gan的语音对抗样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111477247B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967584A (zh) * | 2020-08-19 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 生成对抗样本的方法、装置、电子设备及计算机存储介质 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112216273A (zh) * | 2020-10-30 | 2021-01-12 | 东南数字经济发展研究院 | 一种针对语音关键词分类网络的对抗样本攻击方法 |
CN112581423A (zh) * | 2020-09-29 | 2021-03-30 | 宁波大学 | 一种基于神经网络的汽车表面缺陷的快速检测方法 |
CN112735425A (zh) * | 2020-12-24 | 2021-04-30 | 交控科技股份有限公司 | 轨旁设备巡检报文生成方法及系统 |
CN113053354A (zh) * | 2021-03-12 | 2021-06-29 | 云知声智能科技股份有限公司 | 一种提高语音合成效果的方法和设备 |
CN113256751A (zh) * | 2021-06-01 | 2021-08-13 | 平安科技(深圳)有限公司 | 基于语音的图像生成方法、装置、设备及存储介质 |
CN117292690A (zh) * | 2023-11-24 | 2023-12-26 | 南京信息工程大学 | 一种语音转换主动防御方法、装置、系统及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
WO2018157804A1 (zh) * | 2017-02-28 | 2018-09-07 | 华为技术有限公司 | 一种问题的应答方法及装置 |
CN108597496A (zh) * | 2018-05-07 | 2018-09-28 | 广州势必可赢网络科技有限公司 | 一种基于生成式对抗网络的语音生成方法及装置 |
CN109065021A (zh) * | 2018-10-18 | 2018-12-21 | 江苏师范大学 | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 |
CN109473091A (zh) * | 2018-12-25 | 2019-03-15 | 四川虹微技术有限公司 | 一种语音样本生成方法及装置 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
US20190286073A1 (en) * | 2018-03-16 | 2019-09-19 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
US20200051565A1 (en) * | 2018-08-13 | 2020-02-13 | Carnegie Mellon University | Processing speech signals of a user to generate a visual representation of the user |
CN110930976A (zh) * | 2019-12-02 | 2020-03-27 | 北京声智科技有限公司 | 一种语音生成方法及装置 |
-
2020
- 2020-04-01 CN CN202010249328.2A patent/CN111477247B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018157804A1 (zh) * | 2017-02-28 | 2018-09-07 | 华为技术有限公司 | 一种问题的应答方法及装置 |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
US20190286073A1 (en) * | 2018-03-16 | 2019-09-19 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
CN108597496A (zh) * | 2018-05-07 | 2018-09-28 | 广州势必可赢网络科技有限公司 | 一种基于生成式对抗网络的语音生成方法及装置 |
US20200051565A1 (en) * | 2018-08-13 | 2020-02-13 | Carnegie Mellon University | Processing speech signals of a user to generate a visual representation of the user |
CN109065021A (zh) * | 2018-10-18 | 2018-12-21 | 江苏师范大学 | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 |
CN109473091A (zh) * | 2018-12-25 | 2019-03-15 | 四川虹微技术有限公司 | 一种语音样本生成方法及装置 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110930976A (zh) * | 2019-12-02 | 2020-03-27 | 北京声智科技有限公司 | 一种语音生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
KAZUKI FUJII 等: "humangan:generative adversarial network with human-based discriminator and its evaluation in speech perception modeling", pages 1 - 3 * |
朱纯 等: "基于深度卷积生成对抗网络的语音生成技术", pages 13 - 20 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967584A (zh) * | 2020-08-19 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 生成对抗样本的方法、装置、电子设备及计算机存储介质 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112581423A (zh) * | 2020-09-29 | 2021-03-30 | 宁波大学 | 一种基于神经网络的汽车表面缺陷的快速检测方法 |
CN112216273A (zh) * | 2020-10-30 | 2021-01-12 | 东南数字经济发展研究院 | 一种针对语音关键词分类网络的对抗样本攻击方法 |
CN112216273B (zh) * | 2020-10-30 | 2024-04-16 | 东南数字经济发展研究院 | 一种针对语音关键词分类网络的对抗样本攻击方法 |
CN112735425A (zh) * | 2020-12-24 | 2021-04-30 | 交控科技股份有限公司 | 轨旁设备巡检报文生成方法及系统 |
CN113053354A (zh) * | 2021-03-12 | 2021-06-29 | 云知声智能科技股份有限公司 | 一种提高语音合成效果的方法和设备 |
CN113256751A (zh) * | 2021-06-01 | 2021-08-13 | 平安科技(深圳)有限公司 | 基于语音的图像生成方法、装置、设备及存储介质 |
CN113256751B (zh) * | 2021-06-01 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于语音的图像生成方法、装置、设备及存储介质 |
CN117292690A (zh) * | 2023-11-24 | 2023-12-26 | 南京信息工程大学 | 一种语音转换主动防御方法、装置、系统及存储介质 |
CN117292690B (zh) * | 2023-11-24 | 2024-03-15 | 南京信息工程大学 | 一种语音转换主动防御方法、装置、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111477247B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111477247A (zh) | 基于gan的语音对抗样本生成方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
Shenoy et al. | Multilogue-net: A context aware rnn for multi-modal emotion detection and sentiment analysis in conversation | |
CN107609572B (zh) | 基于神经网络和迁移学习的多模态情感识别方法、系统 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
Katagiri et al. | Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method | |
Ding et al. | Autospeech: Neural architecture search for speaker recognition | |
CN110110318B (zh) | 基于循环神经网络的文本隐写检测方法及系统 | |
CN110956953B (zh) | 基于音频分析与深度学习的争吵识别方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN112216273A (zh) | 一种针对语音关键词分类网络的对抗样本攻击方法 | |
CN112861945B (zh) | 一种多模态融合谎言检测方法 | |
EP3987450B1 (en) | Multi-dimensional deep neural network | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
CN115983274A (zh) | 一种基于两阶段标签校正的噪声事件抽取方法 | |
Singh et al. | Supervised hierarchical clustering using graph neural networks for speaker diarization | |
JPH0934863A (ja) | ニューラルネットワークによる情報統合処理方法 | |
CN116205227A (zh) | 一种基于变分推断理论的关键词生成方法及系统 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN107229944B (zh) | 基于认知信息粒子的半监督主动识别方法 | |
Oruh et al. | Deep learning-based classification of spoken english digits |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |