CN112466317A - 一种基于双生成器生成对抗网络的语音转换系统研究 - Google Patents
一种基于双生成器生成对抗网络的语音转换系统研究 Download PDFInfo
- Publication number
- CN112466317A CN112466317A CN202011435662.3A CN202011435662A CN112466317A CN 112466317 A CN112466317 A CN 112466317A CN 202011435662 A CN202011435662 A CN 202011435662A CN 112466317 A CN112466317 A CN 112466317A
- Authority
- CN
- China
- Prior art keywords
- generator
- voice
- discriminator
- converted
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 48
- 238000011160 research Methods 0.000 title abstract description 3
- 230000009977 dual effect Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 16
- 238000011946 reduction process Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- PNEYBMLMFCGWSK-UHFFFAOYSA-N aluminium oxide Inorganic materials [O-2].[O-2].[O-2].[Al+3].[Al+3] PNEYBMLMFCGWSK-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种基于双生成器生成对抗网络的语音转换系统研究,涉及一种基于双生成器生成对抗网络的语音转换系统,将生成器一分为二各司其职:根据不同的任务,允许两个生成器使用不同的网络结构和不同级别的参数共享,通常有助于更好地学习多任务设置中的每个特定于任务的映射,设计了具有两个生成器的生成对抗网络,更加适合语音转换的任务,在非平行语音转换系统中的表现更加稳定,避免了转换结果模糊的问题。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种基于双生成器生成对抗网络的语音转换系统。
背景技术
语音转换技术是一种对语音信号进行处理的技术,涉及到信号处理和机器学习相关领域。语音转换技术有很多的应用场景,本发明针对的是语音转换领域中最核心的任务,即在不改变语句内容的前提下改变说话人的音色,使之听起来像是另一个人说的。
传统的语音转换方法专注于基于平行语料的转换,平行语料是指语音转换的源和目标说话人需要说同样的语句内容才可以进行模型的训练,这种方法虽然转换的效果还可以接受,但平行数据本身是很难获取的,且获取到的平行数据还需要人工地进行时间对齐才可以应用于语音转换系统的训练过程中,成本极高。
因此,急需一种基于生成对抗网络来设计语音转换系统,基于双生成器生成对抗网络的语音转换系统。
发明内容
本发明的目的在于提供一种基于双生成器生成对抗网络的语音转换系统,将生成器一分为二各司其职:根据不同的任务,允许两个生成器使用不同的网络结构和不同级别的参数共享,通常有助于更好地学习多任务设置中的每个特定于任务的映射。
第一方面,本申请提供一种基于双生成器生成对抗网络的语音转换系统,所述系统包括:一号生成器,用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征;二号生成器,用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征;
判别器,用于根据输入的语音特征判断该语音特征序列是否是真实语音;
域分类器,用于根据输入的语音特征和说话人标签判断该语音特征序列属于对应说话人的概率,概率越大代表输入的语音特征包含越多的目标说话人特征,转换语音的相似性越好;
所述一号生成器和判别器、域分类器之间构成了对抗训练过程,生成器用于取得更高的分数,分数越高,证明生成的转换语音更加真实,更加符合目标说话人的特性,判别器用于正确地判断真实语音和虚假语音的特征序列,给生成器生成的结果一个尽量低的分数,域分类器用于正确地判断真实语音和转换语音属于对应说话人的概率,给生成器生成的结果一个尽量低的分数。
结合第一方面,在第一方面第一种可能的实现方式中,将真实语音输入进判别器,使判别器输出尽量高的分数,0为最低,1为最高;将真实语音和对应的说话人标签输入进域分类器,使域分类器输出尽量高的概率,概率靠近1;将真实语音和对应的说话人标签输入进一号生成器,使一号生成器输出和原始输入基本相同的结果,该步骤中本身不存在转换过程;将真实语音和对应的说话人标签输入进二号生成器,使二号生成器输出和原始输入基本相同的结果,该步骤中本身不存在还原的过程;将源语音和目标说话人的标签输入进一号生成器,一号生成器输出的是转换后的音频特征序列,一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数;将转换后的特征序列输入进判别器,使判别器输出一个尽量低的分数,判别器用于正确地判断区分出真实语音特征和转换后的语音特征。
结合第一方面,在第一方面第二种可能的实现方式中,将转换后的特征序列和源说话人的标签输入进二号生成器,二号生成器用于根据输入的信息重新还原源语音的特征序列,帮助生成器在转换过程中减少信息的损失,避免生成器生成单一的真实语音以欺骗判别器和域分类器。
结合第一方面,在第一方面第三种可能的实现方式中,生成对抗网络是由一个生成器和一个判别器组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个模型。
第二方面,本申请提供一种基于双生成器生成对抗网络的语音转换系统,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
第四方面,本申请提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面四种可能中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
本发明提供一种基于双生成器生成对抗网络的语音转换系统,将生成器一分为二各司其职:根据不同的任务,允许两个生成器使用不同的网络结构和不同级别的参数共享,通常有助于更好地学习多任务设置中的每个特定于任务的映射,设计了具有两个生成器的生成对抗网络,更加适合语音转换的任务,在非平行语音转换系统中的表现更加稳定,避免了转换结果模糊的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音转换系统的系统图。
图2为本发明的语音转换系统的转换流程图。
图3为本发明的语音转换系统的训练流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
图1为本申请提供的基于双生成器生成对抗网络的语音转换系统图,所述系统包括:一号生成器,用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征;二号生成器,用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征;
判别器,用于根据输入的语音特征判断该语音特征序列是否是真实语音;
域分类器,用于根据输入的语音特征和说话人标签判断该语音特征序列属于对应说话人的概率,概率越大代表输入的语音特征包含越多的目标说话人特征,转换语音的相似性越好;
所述一号生成器和判别器、域分类器之间构成了对抗训练过程,生成器用于取得更高的分数,分数越高,证明生成的转换语音更加真实,更加符合目标说话人的特性,判别器用于正确地判断真实语音和虚假语音的特征序列,给生成器生成的结果一个尽量低的分数,域分类器用于正确地判断真实语音和转换语音属于对应说话人的概率,给生成器生成的结果一个尽量低的分数。
在一些优选实施例中,将真实语音输入进判别器,使判别器输出尽量高的分数,0为最低,1为最高;将真实语音和对应的说话人标签输入进域分类器,使域分类器输出尽量高的概率,概率靠近1;将真实语音和对应的说话人标签输入进一号生成器,使一号生成器输出和原始输入基本相同的结果,该步骤中本身不存在转换过程;将真实语音和对应的说话人标签输入进二号生成器,使二号生成器输出和原始输入基本相同的结果,该步骤中本身不存在还原的过程;将源语音和目标说话人的标签输入进一号生成器,一号生成器输出的是转换后的音频特征序列,一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数;将转换后的特征序列输入进判别器,使判别器输出一个尽量低的分数,判别器用于正确地判断区分出真实语音特征和转换后的语音特征。
在一些优选实施例中,将转换后的特征序列和源说话人的标签输入进二号生成器,二号生成器用于根据输入的信息重新还原源语音的特征序列,帮助生成器在转换过程中减少信息的损失,避免生成器生成单一的真实语音以欺骗判别器和域分类器。
在一些优选实施例中,生成对抗网络是由一个生成器和一个判别器组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个模型。
本发明所述的系统有训练和转换两个阶段,训练阶段的详细过程如下:
1)训练判别器D。将真实语音输入进判别器,使判别器尽量输出更高的分数(0为最低,1为最高),该过程的目的是使判别器对真实语音有更好的认识,便于后续判断转换后的特征是否是真实的;
2)训练域分类器C。将真实语音和对应的说话人标签输入进域分类器,使域分类器尽量输出更高的概率(靠近1),该过程的目的是帮助域分类器认识各个说话人的特征情况,便于后续判断转换后的特征是否属于目标说话人;
3)训练一号生成器Gt,将真实语音和对应的说话人标签输入进一号生成器,使一号生成器尽量输出和原始输入一模一样的结果,这一步骤中本身不存在转换过程,目的是帮助一号生成器初步建立生成音频特征的能力,同时使用自我重构的方式可以尽量避免后续转换过程中一号生成器带来的语音内容损失;
4)训练二号生成器Gr,将将真实语音和对应的说话人标签输入进二号生成器,使二号生成器尽量输出和原始输入一模一样的结果,这一步骤中本身不存在还原的过程,目的是帮助二号生成器初步建立生成音频特征的能力,同时使用自我重构的方式可以尽量避免后续过程中二号生成器带来的语音内容损失;
5)将源语音和目标说话人的标签输入进一号生成器,一号生成器输出的是转换后的音频特征序列,并且一号生成器的目标是在后续的判别器和域分类器的打分中尽量获得一个较高的分数;
6)将转换后的特征序列输入进判别器,使判别器尽量输出一个较低的分数,因为转换后的特征序列本身就是虚假的,所以判别器的目的就是正确地判断区分出真实语音特征和转换后的语音特征。同时将转换后的特征序列和目标说话人的标签输入进域分类器,使域分类器尽量输出一个较低的分数,因为转换后的特征序列本身是虚假的,并不是目标说话人的真实语音。同时将转换后的特征序列和源说话人的标签输入进二号生成器,二号生成器的目的是根据输入的信息重新还原源语音的特征序列,这一步可以帮助生成器在转换过程中减少信息的损失,也避免了生成器生成单一的真实语音以欺骗判别器和域分类器的情况。
通过以上六个步骤,一号生成器和判别器、域分类器之间构成了对抗训练过程,生成器的目的是取得更高的分数(证明生成的转换语音更加真实,更加符合目标说话人的特性),而判别器的目的是正确地判断真实语音和虚假语音的特征序列,即尽量给生成器生成的结果一个较低的分数,域分类器的目的是正确地判断真实语音和转换语音属于对应说话人的高铝,即尽量给生成器生成的结果一个较低的分数。
以上是本发明所述方法的训练过程,下面介绍本发明所述方法的转换过程。
经过恰当的训练后,我们仅需一号生成器就可以正确地得到转换语音,完成语音转换任务。将源语音和目标说话人的标签输入进一号生成器,一号生成器就可以在保留源语音内容信息的前提下更改说话人的身份为目标说话人,得到转换后的语音特征序列,再将转换后的结果输入进声码器来重建语音波形,即可得到转换后的音频文件。
生成对抗网络一般是由一个生成器G和一个判别器D组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个效果较好的模型。
我们基于可以实现多对多转换的StarGAN网络,将生成器设计为两个,这是因为以往为了更好地效果我们往往要将通过生成器后生成的数据再传回给生成器试图生成靠近原始语音的数据,来促进转换过程中语音内容信息的不变性(也就是CycleGAN的基本思想),但实际上这两步转换的过程所做的工作并不完全相同,由于每个人物的语音都有其独特性,因此优化生成器并使其在两个任务上获得良好的泛化能力更加困难,通常会导致生成结果模糊。因此本发明将生成器一分为二各司其职:根据不同的任务,允许两个生成器使用不同的网络结构和不同级别的参数共享,通常有助于更好地学习多任务设置中的每个特定于任务的映射。
相应地,在判别器D和域分类器C的设计中也尝试更加细化目标函数。整体来说我们的目的是争取更好的转换效果,这里域分类器C目的是使判别器D能够分辨出输入语音所属的说话人。但这样设计的缺点可能是在训练过程中所需的时间更多了。
损失函数方面首先是(cyc)循环一致性损失,这促进转换过程中语音内容不变;
然后是(id)身份映射损失,这促进在输入的语音信息和域标签相匹配时,生成器的输出尽量保持与输入信息相同,也是为了保证语音内容的不变性:
随后是(cls)针对生成语音的域分类损失以及针对真实语音的域分类损失,这驱动生成器产生属于域c概率p尽可能高的数据,以及使域分类器的性能更加稳定同时使判别器D能够尽量正确地分辨输入语音所属的的说话人;
最后是传统的对抗损失(adv)。
结合图3,整体训练目标和损失函数如下:
本申请提供一种基于双生成器生成对抗网络的语音转换系统,所述系统包括:所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
本申请提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面所有实施例中任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书各个实施例之间相同相似的部分互相参见即可。尤其,对于实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (7)
1.一种基于双生成器生成对抗网络的语音转换系统,其特征在于,所述系统包括:一号生成器,用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征;二号生成器,用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征;
判别器,用于根据输入的语音特征判断该语音特征序列是否是真实语音;
域分类器,用于根据输入的语音特征和说话人标签判断该语音特征序列属于对应说话人的概率,概率越大代表输入的语音特征包含越多的目标说话人特征,转换语音的相似性越好;
所述一号生成器和判别器、域分类器之间构成了对抗训练过程,生成器用于取得更高的分数,分数越高,证明生成的转换语音更加真实,更加符合目标说话人的特性,判别器用于正确地判断真实语音和虚假语音的特征序列,给生成器生成的结果一个尽量低的分数,域分类器用于正确地判断真实语音和转换语音属于对应说话人的概率,给生成器生成的结果一个尽量低的分数。
2.根据权利要求1所述的系统,其特征在于:将真实语音输入进判别器,使判别器输出尽量高的分数,0为最低,1为最高;将真实语音和对应的说话人标签输入进域分类器,使域分类器输出尽量高的概率,概率靠近1;将真实语音和对应的说话人标签输入进一号生成器,使一号生成器输出和原始输入基本相同的结果,该步骤中本身不存在转换过程;将真实语音和对应的说话人标签输入进二号生成器,使二号生成器输出和原始输入基本相同的结果,该步骤中本身不存在还原的过程;将源语音和目标说话人的标签输入进一号生成器,一号生成器输出的是转换后的音频特征序列,一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数;将转换后的特征序列输入进判别器,使判别器输出一个尽量低的分数,判别器用于正确地判断区分出真实语音特征和转换后的语音特征。
3.根据权利要求1-2任一项所述的系统,其特征在于:将转换后的特征序列和源说话人的标签输入进二号生成器,二号生成器用于根据输入的信息重新还原源语音的特征序列,帮助生成器在转换过程中减少信息的损失,避免生成器生成单一的真实语音以欺骗判别器和域分类器。
4.根据权利要求1-3任一项所述的系统,其特征在于:生成对抗网络是由一个生成器和一个判别器组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个模型。
5.一种基于双生成器生成对抗网络的语音转换系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
7.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011435662.3A CN112466317A (zh) | 2020-12-10 | 2020-12-10 | 一种基于双生成器生成对抗网络的语音转换系统研究 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011435662.3A CN112466317A (zh) | 2020-12-10 | 2020-12-10 | 一种基于双生成器生成对抗网络的语音转换系统研究 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112466317A true CN112466317A (zh) | 2021-03-09 |
Family
ID=74801183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011435662.3A Pending CN112466317A (zh) | 2020-12-10 | 2020-12-10 | 一种基于双生成器生成对抗网络的语音转换系统研究 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466317A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778937A (zh) * | 2023-03-28 | 2023-09-19 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308903A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 语音模仿方法、终端设备及计算机可读存储介质 |
CN111462768A (zh) * | 2020-03-12 | 2020-07-28 | 南京邮电大学 | 基于共享训练的多尺度StarGAN的语音转换方法 |
CN112466316A (zh) * | 2020-12-10 | 2021-03-09 | 青海民族大学 | 一种基于生成对抗网络的零样本语音转换系统 |
-
2020
- 2020-12-10 CN CN202011435662.3A patent/CN112466317A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308903A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 语音模仿方法、终端设备及计算机可读存储介质 |
CN111462768A (zh) * | 2020-03-12 | 2020-07-28 | 南京邮电大学 | 基于共享训练的多尺度StarGAN的语音转换方法 |
CN112466316A (zh) * | 2020-12-10 | 2021-03-09 | 青海民族大学 | 一种基于生成对抗网络的零样本语音转换系统 |
Non-Patent Citations (1)
Title |
---|
李婷: "基于生成对抗网络的语音转换系统研究", 《万方数据知识服务平台》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778937A (zh) * | 2023-03-28 | 2023-09-19 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN110853626B (zh) | 基于双向注意力神经网络的对话理解方法、装置及设备 | |
CN112466316A (zh) | 一种基于生成对抗网络的零样本语音转换系统 | |
WO2021179701A1 (zh) | 多语种语音识别方法、装置及电子设备 | |
CN109918627B (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
CN111816169B (zh) | 中英语种混杂语音识别模型训练方法和装置 | |
CN112685550B (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
CN111161726B (zh) | 一种智能语音交互方法、设备、介质及系统 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN106557164A (zh) | 应用于智能机器人的多模态输出方法和装置 | |
CN113505198A (zh) | 关键词驱动的生成式对话回复方法、装置及电子设备 | |
CN116797695A (zh) | 一种数字人与虚拟白板的交互方法、系统及存储介质 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN116483979A (zh) | 基于人工智能的对话模型训练方法、装置、设备及介质 | |
CN116821290A (zh) | 面向多任务对话的大语言模型训练方法和交互方法 | |
CN112466317A (zh) | 一种基于双生成器生成对抗网络的语音转换系统研究 | |
Agarwal et al. | Lidsnet: A lightweight on-device intent detection model using deep siamese network | |
CN108829675A (zh) | 文档表示方法及装置 | |
WO2021228084A1 (zh) | 语音数据识别方法、设备及介质 | |
CN117649857A (zh) | 零样本音频分类模型训练方法、零样本音频分类方法 | |
CN117519711A (zh) | 基于生成对抗网络的代码生成与搜索方法、系统及存储介质 | |
CN115617974B (zh) | 一种对话处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |
|
RJ01 | Rejection of invention patent application after publication |