CN113643687B - 融合DSNet与EDSR网络的非平行多对多语音转换方法 - Google Patents

融合DSNet与EDSR网络的非平行多对多语音转换方法 Download PDF

Info

Publication number
CN113643687B
CN113643687B CN202110772028.7A CN202110772028A CN113643687B CN 113643687 B CN113643687 B CN 113643687B CN 202110772028 A CN202110772028 A CN 202110772028A CN 113643687 B CN113643687 B CN 113643687B
Authority
CN
China
Prior art keywords
network
speaker
generator
edsr
dsnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110772028.7A
Other languages
English (en)
Other versions
CN113643687A (zh
Inventor
李燕萍
邱祥天
戴少梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110772028.7A priority Critical patent/CN113643687B/zh
Publication of CN113643687A publication Critical patent/CN113643687A/zh
Application granted granted Critical
Publication of CN113643687B publication Critical patent/CN113643687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Complex Calculations (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种融合DSNet与EDSR网络的非平行多对多语音转换方法,本方法包括训练阶段和转换阶段,训练过程不需要任何对齐过程,能够实现非平行文本条件下的多对多语音转换。训练阶段包括以下步骤:获取训练语料,训练语料由8名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的声学特征向量,将特征向量输入到转换网络中进行训练,转换网络包括生成器、鉴别器和分类器,生成器融合了DSNet与EDSR网络。本方法利用EDSR网络提升模型对语音频谱信息的提取能力,再通过DSNet网络将提取的频谱信息进行特征融合,从而较好地提升了转换语音的音质和个性相似度,实现高质量的多对多语音转换。

Description

融合DSNet与EDSR网络的非平行多对多语音转换方法
技术领域
本发明涉及语音转换技术领域,具体涉及到一种融合DSNet与EDSR网络的非平行多对多语音转换方法。
背景技术
语音转换是语音信号处理领域中重要的研究分支,研究该技术有着重要的理论价值和应用前景。语音转换是一种将语音中源说话人的身份特征转换为目标说话人的身份特征,同时保证语音中的语义特征不变的技术。简言之,将一个人的一段语音转换成听起来像是由另一个指定说话人所发出的同一段语音。一个典型的语音转换系统可以分为两个阶段:训练阶段、转换阶段。在训练阶段,需要先进行语音分析和特征计算从而将语音波形信号编码成可以进行处理的语音特征。在传统的语音转换方法中还需要对源和目标说话人的语音进行时间对齐,从而使得具有相同音素内容的语音之间产生关联性,并且用这些对齐后的语音特征来训练转换模型,而在非平行语音转换方法中不需要执行时间对齐操作。在转换阶段,先计算出待转换语音的特征,用训练阶段训练好的转换模型进行特征转换,然后用语音合成器将转换后的特征合成为语音信号。
语音转换技术经过多年的研究,已经涌现了很多经典的转换方法。其中,基于高斯混合模型(GMM)的方法得到了广泛的研究,该方法利用统计参数模型来变换频谱特征;此外,神经网络也因其优异的性能而被应用于语音转换中,如递归神经网络(RNN)和深度神经网络(DNN)。包括上述提到的许多语音转换方法被归类为平行文本条件下的转换方法,这需要精确对齐的源语音和目标语音的并行数据。在一般情况下,收集平行文本语料可能是一个昂贵和耗时的过程,即使能够收集平行文本语料,我们通常需要执行自动时间对齐程序,当源语音和目标语音之间相差很大时,可能会导致无法对齐。因此,无论从语音转换系统的通用性还是实用性来考虑,研究非平行文本条件下的语音转换技术具有更大的应用价值和现实意义。
在语音转换领域的研究中,现有的非平行文本条件下的语音转换方法取得了很大进展,主要包括C-VAE(Conditional Variational Auto-Encoder,基于条件变分自编码器)的方法、Cycle-GAN(Cycle-Consistent Adversarial Networks,基于循环一致对抗网络)的方法和STARGAN(Star Generative Adversarial Networks,基于星型生成对抗网络)的方法等,这些转换方法能够规避对平行文本的依赖,实现非平行文本条件下的转换。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器实现语音的语义信息和说话人个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖。但是C-VAE模型改进的理想假设认为观察到的数据通常是服从高斯分布的,从而使解码器的输出语音过度平滑,导致转换语音的质量不好。以往的研究已经证明,基于Cycle-GAN模型的语音转换方法能够产生更真实的语音。该模型可以同时学习声学特征的正映射和逆映射,主要是通过利用对抗损失和循环一致性损失来实现,可以有效地缓解过平滑问题,改善转换语音质量,虽然Cycle-GAN模型被证明效果相当好,但是该模型的局限性是它被设计为学习两个域之间的映射,只能实现一对一转换。
STARGAN(Star Generative Adversarial Networks,基于星型生成对抗网络)模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点,该方法的生成器结构由编码网络和解码网络组成,可以同时学习多对多映射,说话人身份标签控制着生成器的输出属性,因此可以实现非平行文本条件下的多对多语音转换。但是由于此方法中生成器的编码网络和解码网络之间相互独立,且编码网络和解码网络层次较低,整个生成器缺乏对深层特征的提取能力,直接通过编码网络无法生成较好的语义特征,同时生成器的解码网络也无法较好地实现语义特征和说话人个性特征的合成,因此在网络传输中容易丢失频谱深层的语义特征与说话人个性特征,造成转换语音的部分信息丢失和噪声的生成。针对这种情况,需要一种能够解决在训练过程中网络退化问题的方法,来提高生成器的编码网络对语义的学习能力,并且实现模型对频谱深层的语义特征与个性特征的学习能力,从而提高解码网络的频谱生成能力,使得转换后的语音在音质和个性相似度上有所提升。
目前,大多数基于深度学习的方法都是通过backbone网络实现的,其中两个最有名的方法就是ResNet和DenseNet。ResNet与DenseNet的不同之处在于,ResNet采用求和的方法将之前所有的特征图连接起来,而DenseNet将所有的特征图使用级联的方式连接起来。尽管它们具有相近的性能,但它们两个都存在缺点。对于ResNet,稳定训练的“短路连接”方式也限制了其表示能力,而DenseNet具有更高的特征,可以进行多层特征级联,但是,DenseNet中采用的密集级联产生了一些新的问题,即需要较高的GPU内存和更多的训练时间。DSNet结构的核心是dense weighted normalized shortcuts,吸取了上述两种方法的优点,采用加权归一化的“短路连接”和多层特征相加,实验结果也表明,DSNet比ResNet取得了更好的结果,并且具有与DenseNet相当的性能,但需要的计算资源更少。DSNet在“短路连接”中加入了归一化和特征加权的操作,其中使用归一化的动机是为了将前面的所有特征归一化到一个相似的尺度,避免任何前一个特征支配整个求和,方便训练;同时,特征加权是为了让网络根据特征图的显著性来给每个归一化特征图分配适当的权值。
在图像领域中,ResNet取得了显著的效果,它解决了深层卷积网络由于网络层次加深而引起的性能退化问题。ResNet结构的核心是通过建立输入和输出之间的“短路连接”,有助于提升训练过程中梯度的反向传播,解决梯度消失问题,提高模型的训练效率。在图像SR(Super-Resolution,超分辨率)领域,也使用ResNet这种结构来搭建深度卷积网络,为SR问题中的峰值信噪比提供了显著的性能改进。但是,这样的网络在架构最优性方面有所限制:神经网络模型的重建性能对架构的微小变化很敏感,同样的模型在不同的初始化和训练技术之下实现的性能水平不同;SRResNet虽然成功地解决了模型训练难的问题,并且有很好的性能,但它只是采用了原始的ResNet架构,并不适用于超分辨率问题。EDSR(Enhanced Deep Super-Resolution Network,增强型超分辨率网络)基于SRResNet架构来构建,通过删除不必要的模块进行优化,把Batch Norm层去掉(BN层的计算量和一个卷积层几乎持平,移除BN层后训练时可以节省内存空间)以及相加后不经过ReLU层,同时为了保证训练更加稳定,在残差块相加前,经过卷积处理的输出乘以一个小数,这些改变构建出更简单的结构,并且在计算效率上优于原始网络。
发明内容
本发明所要解决的技术问题:为了克服现有技术的不足,本发明提供一种融合DSNet与EDSR网络的非平行多对多语音转换方法,该方法可以增强网络的表征能力,解决现有的语音转换技术中生成语音噪声过大的问题,降低编码网络对语义特征的学习难度,提高模型对频谱深层特征的学习能力,从而提高解码网络对语音频谱的生成质量,改善转换语音的音质和个性相似度。
本发明为解决以上技术问题而采用以下技术方案:本发明所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
(1.2)使用WORLD语音分析/合成模型提取出所述训练语料中各说话人语料的频谱包络特征x、非周期性特征以及基频特征;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xy、源说话人标签cs以及目标说话人标签ct,输入到转换网络进行训练,所述的转换网络由生成器G、鉴别器D、分类器C组成,所述的生成器G由编码网络、EDSR网络、DSNet网络以及解码网络构成,DSNet网络构建在编码网络与解码网络之间。所述的EDSR网络能够提升生成器对语音频谱信息提取能力,说话人频谱特征一同输入到EDSR网络和编码网络中,再通过DSNet网络将编码网络的输出与EDSR网络的输出进行特征融合;
(1.4)对所述转换网络训练过程中,使所述转换网络的生成器的损失函数、鉴别器的损失函数、分类器的损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络,称之为DSNet-EDSR STARGAN网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)通过WORLD语音分析/合成模型将待转换语料中源说话人的频谱包络特征xs'、非周期性特征和基频特征提取出来;
(2.2)将上述源说话人的频谱包络特征xs'和目标说话人的标签特征ct'输入到(1.4)中训练好的转换网络中,重构出目标说话人的频谱特征xtc';
(2.3)将步骤(2.1)中提取出的源说话人的基频,使用步骤(1.5)中的基频转换函数,转换为目标说话人的基频;
(2.4)使用WORLD语音分析/合成模型将步骤(2.1)中提出的非周期性特征、步骤(2.2)中得到的重构目标说话人频谱特征xtc'和步骤(2.3)中得到的目标说话人的基频进行合成,得到转换后的说话人语音。
进一步说明,生成器G的编码网络与EDSR网络和解码网络之间构建了DSNet网络。
进一步说明,步骤(1.3)和(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入到生成器G的编码网络与EDSR网络,得到说话人无关的语义特征G'(xs)和E'(xs);
(2)将上述得到的语义特征G'(xs)和E'(xs)输入到DSNet网络中进行特征融合,得到G(xs),再与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到重构的目标说话人的频谱包络特征xtc
(3)将上述得到的重构目标说话人的频谱包络特征xyc,再次输入到生成器G的编码网络与EDSR网络,得到说话人无关的语义特征G'(xtc)和E'(xtc);
(4)将上述得到的语义特征G'(xtc)和E'(xtc)输入到DSNet网络进行特征融合,得到G(xtc),再与源说话人标签特征cs一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源说话人的频谱包络特征xsc
(5)将重构目标说话人的频谱包络特征xtc、目标说话人频谱包络特征xt以及目标说话人的标签特征ct,一同输入到鉴别器D中进行训练,最小化鉴别器D的损失函数;
(6)将重构目标说话人的频谱包络特征xtc、目标说话人的频谱包络特征xt输入到分类器C进行训练,最小化分类器C的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的DSNet-EDSR STARGAN网络。
进一步说明,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs'输入到生成器G的编码网络和EDSR网络,得到说话人无关的语义特征G'(xs')和E'(xs');
(2)将上述得到的语义特征G'(xs')和E'(xs')输入到DSNet网络中进行特征融合得到G'(xs'),再与目标说话人的标签特征ct'一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc'。
进一步说明,所述的生成器G的损失函数为:
其中,λcls>=0、λcyc>=0和λid>=0分别表示分类损失、循环一致性损失和身份映射损失的正则化参数,Lcyc(G)和Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致性损失和身份映射损失;
所述的鉴别器D的损失函数为:
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,/>表示真实概率分布的期望;
所述的分类器C的损失函数为:
其中,pC(ct|xt)表示分类器判别目标说话人频谱特征为标签ct的真实频谱的概率。
进一步说明,所述的生成器G的对抗损失函数为:
其中,表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成频谱特征;
所述的生成器G的分类损失函数为:
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱特征标签属于Ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱特征;
所述的生成器G的循环一致性损失函数为:
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,为重构的源说话人频谱和真实源说话人频谱的损失期望;
所述的生成器G的身份映射损失函数为:
其中,G(xs,cs)为源说话人频谱和源说话人标签输入到生成器后,得到的重构源说话人频谱特征,为xs和G(xs,cs)的损失期望。
进一步说明,所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3,步长分别为1*1、2*2、1*1、2*2、9*1,过滤器深度分别为32、64、128、64、12;所述的EDSR网络包括1个head卷积模块、1个body卷积模块和1个tail卷积模块,其中head包括1个卷积层,该卷积层的过滤器大小为5*5,步长为2*2,过滤器深度为64;body包括16个残差模块,每个残差模块包括2个卷积层,2个卷积层的过滤器大小分别为3*3、3*3,步长分别为1*1、1*1,过滤器深度分别为64、64;tail包括一个1个上采样层和2个卷积层,其中上采样层包括1个卷积层和1个PixelShuffle层,该卷积层的过滤器大小为3*3,步长为1*1,过滤器深度为256,该PixelShuffle层的尺度因子为2;2个卷积层的过滤器大小分别为3*3、3*3,步长分别为2*2、2*2,过滤器的深度分别为64、12;所述的生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3,步长分别为1*1、2*2、1*1、2*2、1*1,过滤器深度分别为64、128、64、32、1;在生成器编码网络与EDSR网络以及解码网络之间,融合了DSNet网络。该网络由6层卷积块构成,每层卷积块都包括2个相同的卷积层,2个卷积层的过滤器大小分别为3*3、3*3,步长分别为1*1、1*1,过滤器深度分别为24、24。
进一步说明,所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
进一步说明,所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、8。
进一步说明,所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和均方差,μt和σt分别为目标说话人的基频在对数域的均值和均方差,log f0s为源说话人的对数基频,log f0t'为转换后的目标说话人的对数基频。
本发明采用以上技术方案,与现有技术相比具有有益效果为:
本方法能够基于STARGAN基准模型以融合DSNet与EDSR网络的方式来实现非平行文本条件下的多对多语音转换,主要通过编码网络结合EDSR网络的方式来进一步提升模型对语音频谱特征信息的提取能力,再将编码网络和EDSR网络中提取的特征频谱输入到DSNet网络中进行特征融合,从而较好地提升转换语音的音质和个性相似度,实现高质量的多对多语音转换。DSNet在“短路连接”中加入了归一化和特征加权的操作,可以将前面的所有特征频谱归一化到一个相似的尺度,方便训练;同时,DSNet能够使网络根据特征频谱的显著性来给每个归一化特征频谱分配适当的权值,避免任何前一个特征支配整个求和,通过强调有用信息,抑制无用信息,进一步增强模型的表征能力。通过将DSNet与EDSR网络融合到STARGAN模型中,使得模型能够充分学习源说话人和目标说话人的语音特征和个性化特征,并且提升了生成器对语音语义特征的提取能力,克服了传统STARGAN模型中造成的语音特征丢失问题,改善了转换后的语音质量。本方法是基于STARGAN模型在语音转换领域中的进一步改进应用。
本方法能够实现非平行文本条件下的多对多语音转换,并且训练过程中不需要任何对齐过程,提高了语音转换系统的通用性和实用性,本方法还可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人转换,在跨语种语音转换、电影配音、语言翻译及医疗辅助系统等丰富人机交互方面有广阔的市场应用前景。
附图说明
图1是本发明实施例所述的模型的原理示意图;
图2是本发明实施例所述的模型中生成器的网络结构图;
图3是本发明实施例所述的模型中EDSR的网络结构图;
图4是本发明实施例所述的模型中DSNet的网络结构图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出的融合DSNet与EDSR网络的非平行多对多语音转换方法,包括训练阶段和转换阶段,训练阶段用于得到语音转换所需的参数和转换函数,而转换阶段用于实现源说话人语音转换为目标说话人语音。
进一步说明,训练阶段包括以下步骤:
步骤1、获取非平行文本的训练语料,训练语料由多名源说话人和目标说话人的语料组成。训练所需要的语音语料库取自VCC2018,该语料库的训练集中包括6名男性说话人和6名女性说话人,其中VCC2SF3、VCC2SF4、VCC2SM3、VCC2SM4与VCC2TF1、VCC2TF2、VCC2TM1、VCC2TM2的语音内容是不相同的,本发明是使用非平行文本的训练语料进行训练,因此从语料库的训练集中选取以上八位说话人的语料作为训练语料,每位说话人有81句语料,语音总时长约5分钟。
步骤2、使用WORLD语音分析/合成模型从训练语料中提取出每个说话人的频谱特征x、非周期性特征、对数基频log f0。其中将快速傅氏变换(Fast FourierTransformation,FFT)的长度设置为1024,可以得到频谱特征x和非周期性特征均为1024/2+1=513维。每一个语音数据有512帧,从频谱包络特征中提取36维的梅尔倒谱系数(MCC)特征,一次训练时的批次设置为8。因此,训练语料的维度为8*36*512。
步骤3、本实施例中的融合DSNet和EDSR网络的非平行多对多语音转换方法以STARGAN模型为基准,通过改善STARGAN模型结构,来提升转换网络的效果。STARGAN基准模型由三部分组成:一个产生真实频谱的生成器G,一个判断输入频谱是真实频谱特征还是生成频谱特征的鉴别器D,以及一个判别生成器频谱特征的标签是否属于标签ct的分类器C。
DSNet-EDSR STARGAN网络的目标函数为:
其中,LG(G)为生成器的损失函数:
其中,λcls>=0、λcyc>=0和λid>=0分别表示分类损失、循环一致性损失和身份映射损失的正则化参数,Lcyc(G)和Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致性损失和身份映射损失;
为鉴别器D的损失函数:
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,Ct)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,/>表示真实概率分布的期望;
为分类器C的损失函数:
其中,pC(ct|xt)表示分类器判别目标说话人频谱特征为标签ct的真实频谱的概率。
步骤4、将步骤2中提取的源说话人频谱特征xs与目标说话人标签特征Ct作为联合特征(xs,ct)输入到生成器中进行训练。训练生成器,直至达到设置的迭代次数,使得生成器的损失函数LG尽可能小,得到生成目标说话人频谱特征xtc
生成器由编码网络、EDSR网络、DSNet网络和解码网络组成,编码网络由5个卷积层组成,5个卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3,步长分别为1*1、2*2、1*1、2*2、9*1,过滤器深度分别为32、64、128、64、12。EDSR网络由1个head卷积模块、1个body卷积模块和1个tail卷积模块组成,其中head包括1个卷积层,该卷积层的过滤器大小为5*5,步长为2*2,过滤器深度为64;body包括16个残差模块,每个残差模块包括2个卷积层,2个卷积层的过滤器大小分别为3*3、3*3,步长分别为1*1、1*1,过滤器深度分别为64、64;tail包括一个1个上采样层和2个卷积层,其中上采样层包括1个卷积层和1个PixelShuffle层,该卷积层的过滤器大小为3*3,步长为1*1,过滤器深度为256,该PixelShuffle层的尺度因子为2;2个卷积层的过滤器大小分别为3*3、3*3,步长分别为2*2、2*2,过滤器的深度分别为64、12。其中,DSNet网络融合在生成器编码网络与EDSR网络以及解码网络之间,由6层卷积块构成,每层卷积块都包括2个相同的卷积层,2个卷积层的过滤器大小分别为3*3、3*3,步长分别为1*1、1*1,过滤器深度分别为24、24。解码网络由5个反卷积层组成,5个反卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3,步长分别为1*1、2*2、1*1、2*2、1*1,过滤器深度分别为64、128、64、32、1。
步骤5、将步骤4得到的生成目标说话人频谱特征xtc和步骤2得到的训练语料的目标说话人频谱特征xc以及目标说话人标签ct,一同输入到鉴别器中来训练鉴别器,使鉴别器的损失函数尽可能小。
鉴别器是由二维卷积神经网络搭建而成,包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
鉴别器的损失函数为:
优化目标为:
步骤6、将步骤4得到的生成目标说话人频谱特征xtc再次输入到生成器G的编码网络和EDSR网络,通过DSNet网络进行特征融合之后得到说话人无关的语义特征G(xtc),将G(xtc)与源说话人标签特征cs一同输入到生成器G的解码网络进行训练,得到重构的源说话人频谱特征xsc。在整个训练过程中最小化生成器的损失函数,包括生成器的对抗损失、循环一致性损失、身份映射损失以及生成器的分类损失。其中,循环一致性损失使得转换后的语音特征可以保留更多的语义特征。身份映射损失来确保当输入的真实语音特征已经属于标签为c'的说话人时,其频谱特征保持不变。生成器的分类损失指分类器判别生成器所生成的目标说话人频谱特征xtc属于标签ct的概率损失。
生成器的损失函数为:
优化目标为:
其中,λcls>=0、λcyc>=0和λid>=0分别表示分类损失、循环一致性损失和身份映射损失的正则化参数。
DSNet-EDSR STARGAN网络中生成器的对抗损失表示为:
其中,xs~p(xs)表示任意说话人的一段语音的声学特征,表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成的频谱特征。在训练过程中使/>的值逐渐变小,不断优化生成器,使得生成器G能够成功欺骗鉴别器D,即鉴别器将生成器生成的语音特征G(xs,ct)错误地分类为真实语音特征。
分类器C用来优化生成器的分类损失表示为:
其中,pc(ct|G(xs,ct))是生成的频谱特征G(xs,ct)被分类器分类的概率分布,G(xs,ct)表示生成器生成的目标说话人频谱特征。当分类器能够将G(xs,ct)正确地分类为说话人类别ct时,的值应该是尽可能小的。因此,在训练过程中,通过最小化/>来优化生成器G,使得生成器G生成的频谱特征G(xs,ct)能够被分类器正确分类为类别ct
进一步说明,Lcyc(G)为生成器G的循环一致性损失:
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,为重构源说话人频谱特征和真实源说话人频谱特征的损失期望。在训练过程中,使Lcyc(G)损失尽可能小,来保证生成器G可以保留更多语音特征中的语义信息,使说话人语音的语义特征在经过生成器的编码之后不被损失。
Lid(G)为生成器G的身份映射损失:
其中,G(xs,cs)为生成器生成的源说话人频谱特征,为xs和G(xs,cs)的损失期望。使Lid(G)尽可能小,来确保当输入的源说话人频谱特征已经属于标签cs的说话人时,其频谱特征保持不变。
步骤7、将上述生成的目标说话人频谱特征xtc和真实目标说话人的频谱特征xt输入到分类器中进行训练,最小化分类器的损失函数。
分类器C是由二维卷积神经网络搭建而成,包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、8。
分类器的损失函数为:
优化目标为:
步骤8、重复步骤4/5/6/7,使得目标函数最小化,直至达到迭代次数。在训练过程中,使所述转换网络的对抗损失、分类损失、循环一致性损失和身份映射损失尽可能小,直至设置的迭代次数,从而得到训练好的所述转换网络。本实验中设置的迭代次数为200000次。
步骤9、使用对数基频log f0的均值和均方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和均方差,利用对数域线性变换将源说话人对数基频log f0s转换为目标说话人对数基频log f0t'。
进一步说明,基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和均方差,μt和σt分别为目标说话人的基频在对数域的均值和均方差,log f0s为源说话人的对数基频,log f0t'为转换的目标说话人对数基频。
进一步说明,转换阶段包括以下步骤:
步骤1、通过WORLD语音分析/合成模型将待转换语料中源说话人的频谱包络特征xs'、非周期性特征和基频特征提取出来;
步骤2、将上述源说话人的频谱包络特征xs'和目标说话人的标签特征ct'输入到训练阶段步骤8中训练好的转换网络中,重构出目标说话人的频谱特征xtc';
步骤3、将步骤1中提取的源说话人基频特征,使用训练阶段步骤9中的基频转换函数,转换为目标说话人的基频;
步骤4、使用WORLD语音分析/合成模型,将步骤1中提取的非周期性特征、步骤2中得到的重构目标说话人频谱特征xtc'和步骤3中得到的目标说话人的基频等进行合成,得到转换后的说话人语音。
以上所述为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
(1.2)使用WORLD语音分析/合成模型提取出所述训练语料中各说话人语料的频谱包络特征x、非周期性特征以及基频特征;
(1.3)将源说话人的频谱包络特征xs、目标说话人的频谱包络特征xt、源说话人标签cs以及目标说话人标签ct,输入到转换网络进行训练;转换网络由生成器G、鉴别器D、分类器C组成,所述的生成器G由编码网络、EDSR网络、DSNet网络以及解码网络构成,DSNet网络构建在编码网络与解码网络之间;说话人频谱特征一同输入到EDSR网络和编码网络中,再通过DSNet网络将编码网络的输出与EDSR网络的输出进行特征融合;所述EDSR网络包括卷积模块和残差模块,所述残差模块是去除了BN和ReLU模块的ResNet结构;
(1.4)设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)通过WORLD语音分析/合成模型将待转换语料中源说话人的频谱包络特征xs'、非周期性特征和基频特征提取出来;
(2.2)将上述源说话人的频谱包络特征xs'和目标说话人的标签ct'输入到步骤(1.4)中训练好的转换网络中,重构出目标说话人的频谱特征xtc';
(2.3)将步骤(2.1)中提取出的源说话人的基频,使用步骤(1.5)中的基频转换函数,转换为目标说话人的基频;
(2.4)使用WORLD语音分析/合成模型将步骤(2.1)中提出的非周期性特征、步骤(2.2)中得到的重构目标说话人频谱特征xtc'和步骤(2.3)中得到的目标说话人的基频进行合成,得到转换后的说话人语音。
2.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于:步骤(1.4)中的训练过程包括以下步骤:
(1)将源说话人的频谱包络特征xs输入到生成器G的编码网络和EDSR网络,得到说话人无关的语义特征G'(xs)和E'(xs);
(2)将上述得到的语义特征G'(xs)和E'(xs)输入到DSNet网络中进行特征融合,得到G(xs),再与目标说话人的标签特征ct一同输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,从而得到重构的目标说话人的频谱包络特征xtc
(3)将上述得到的重构目标说话人的频谱包络特征xtc,再次输入到生成器G的编码网络和EDSR网络,得到说话人无关的语义特征G'(xtc)和E'(xtc);
(4)将上述得到的语义特征G'(xtc)和E'(xtc)输入到DSNet网络进行特征融合得到G(xtc),再与源说话人标签特征cs输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源说话人的频谱包络特征xsc
(5)将重构目标说话人的频谱包络特征xtc、目标说话人频谱包络特征xt以及目标说话人的标签特征ct,一同输入到鉴别器D中进行训练,最小化鉴别器D的损失函数;
(6)将重构目标说话人的频谱包络特征xtc、目标说话人的频谱包络特征xt输入分类器C进行训练,最小化分类器C的损失函数;
(7)回到步骤(1)重复上述步骤,直至达到设置的迭代次数,从而得到训练好的DSNet-EDSR STARGAN网络。
3.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于,步骤(2.2)中的输入过程包括以下步骤:
(1)将源说话人的频谱包络特征xs'输入到生成器G的编码网络和EDSR网络,得到说话人无关的语义特征G'(xs')和E'(xs');
(2)将上述得到的语义特征G'(xs')和E'(xs')输入到DSNet网络中进行特征融合得到G(xs'),再与目标说话人的标签特征ct'一同输入到生成器G的解码网络,得到目标说话人的频谱包络特征xtc'。
4.根据权利要求2所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于,所述的生成器G的损失函数为:
其中,λcls>=0、λcyc>=0和λid>=0分别表示分类损失、循环一致性损失和身份映射损失的正则化参数,Lcyc(G)和Lid(G)分别表示生成器的对抗损失、分类器优化生成器的分类损失、循环一致性损失和身份映射损失;
所述的鉴别器D的损失函数为:
其中,D(xt,ct)表示鉴别器D判别真实频谱特征,G(xs,ct)表示生成器G生成的目标说话人频谱特征,D(G(xs,ct),ct)表示鉴别器判别生成的频谱特征,表示生成器G生成的概率分布的期望,/>表示真实概率分布的期望;
所述的分类器C的损失函数为:
其中,pC(ct|xt)表示分类器判别目标说话人频谱特征为标签ct的真实频谱的概率。
5.根据权利要求4所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于,所述的生成器G的对抗损失函数为:
其中,表示生成器生成的概率分布的期望,G(xs,ct)表示生成器生成的频谱特征;
所述的生成器G的分类损失函数为:
其中,pC(ct|G(xs,ct))表示分类器判别生成目标说话人频谱特征标签属于ct的概率,G(xs,ct)表示生成器生成的目标说话人频谱特征;
所述的生成器G的循环一致性损失函数为:
其中,G(G(xs,ct),cs)为重构的源说话人频谱特征,为重构的源说话人频谱和真实源说话人频谱的损失期望;
所述的生成器G的身份映射损失函数为:
其中,G(xs,cs)为源说话人频谱和源说话人标签输入到生成器后,得到的重构源说话人频谱特征,为xs和G(xs,cs)的损失期望。
6.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于:所述的生成器G的编码网络包括5个卷积层,5个卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3,步长分别为1*1、2*2、1*1、2*2、9*1,过滤器深度分别为32、64、128、64、12;
所述的EDSR网络包括1个head卷积模块、1个body卷积模块和1个tail卷积模块,其中:head卷积模块包括1个卷积层,该卷积层的过滤器大小为5*5,步长为2*2,过滤器深度为64;body卷积模块包括16个残差模块,每个残差模块包括2个卷积层,2个卷积层的过滤器大小分别为3*3、3*3,步长分别为1*1、1*1,过滤器深度分别为64、64;tail卷积模块包括一个1个上采样层和2个卷积层,其中上采样层包括1个卷积层和1个PixelShuffle层,该卷积层的过滤器大小为3*3,步长为1*1,过滤器深度为256,该PixelShuffle层的尺度因子为2;2个卷积层的过滤器大小分别为3*3、3*3,步长分别为2*2、2*2,过滤器的深度分别为64、12;
所述的生成器G的解码网络包括5个反卷积层,5个反卷积层的过滤器大小分别为3*3、5*5、3*3、5*5、3*3,步长分别为1*1、2*2、1*1、2*2、1*1,过滤器深度分别为64、128、64、32、1;
在生成器编码网络与EDSR网络以及解码网络之间,融合了DSNet网络;该DSNet网络由6层卷积块构成,每层卷积块都包括2个相同的卷积层,2个卷积层的过滤器大小分别为3*3、3*3,步长分别为1*1、1*1,过滤器深度分别为24、24。
7.根据权利要求4所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于:所述的鉴别器D包括5个卷积层,5个卷积层的过滤器大小分别为3*9、3*8、3*8、3*6、36*5,步长分别为1*1、1*2、1*2、1*2、36*1,过滤器深度分别为32、32、32、32、1。
8.根据权利要求4所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于:所述的分类器C包括5个卷积层,5个卷积层的过滤器大小分别为4*4、4*4、4*4、3*4、1*4,步长分别为2*2、2*2、2*2、1*2、1*2,过滤器深度分别为8、16、32、16、8。
9.根据权利要求1所述的融合DSNet与EDSR网络的非平行多对多语音转换方法,其特征在于:步骤(1.5)所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和均方差,μt和σt分别为目标说话人的基频在对数域的均值和均方差,logf0s为源说话人的对数基频,log f0t'为转换后的目标说话人的对数基频。
CN202110772028.7A 2021-07-08 2021-07-08 融合DSNet与EDSR网络的非平行多对多语音转换方法 Active CN113643687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772028.7A CN113643687B (zh) 2021-07-08 2021-07-08 融合DSNet与EDSR网络的非平行多对多语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772028.7A CN113643687B (zh) 2021-07-08 2021-07-08 融合DSNet与EDSR网络的非平行多对多语音转换方法

Publications (2)

Publication Number Publication Date
CN113643687A CN113643687A (zh) 2021-11-12
CN113643687B true CN113643687B (zh) 2023-07-18

Family

ID=78416857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772028.7A Active CN113643687B (zh) 2021-07-08 2021-07-08 融合DSNet与EDSR网络的非平行多对多语音转换方法

Country Status (1)

Country Link
CN (1) CN113643687B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
CA2882968A1 (en) * 2015-02-23 2016-08-23 Sulfur Heron Cognitive Systems Inc. Facilitating generation of autonomous control information
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN110827837A (zh) * 2019-10-18 2020-02-21 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN111833855A (zh) * 2020-03-16 2020-10-27 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN111951810A (zh) * 2019-05-14 2020-11-17 国际商业机器公司 高质量非并行多对多语音转换
KR20200129058A (ko) * 2019-05-07 2020-11-17 한국전자통신연구원 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법
EP3739570A1 (en) * 2019-05-17 2020-11-18 Papercup Technologies Limited Attention-based neural sequence to sequence mapping applied to speech synthesis and vocal translation
WO2020231209A1 (en) * 2019-05-14 2020-11-19 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation
WO2020232860A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN112270644A (zh) * 2020-10-20 2021-01-26 西安工程大学 基于空间特征变换和跨尺度特征集成的人脸超分辨方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020242662A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
CA2882968A1 (en) * 2015-02-23 2016-08-23 Sulfur Heron Cognitive Systems Inc. Facilitating generation of autonomous control information
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
KR20200129058A (ko) * 2019-05-07 2020-11-17 한국전자통신연구원 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법
CN111951810A (zh) * 2019-05-14 2020-11-17 国际商业机器公司 高质量非并行多对多语音转换
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
WO2020231209A1 (en) * 2019-05-14 2020-11-19 Samsung Electronics Co., Ltd. Method, apparatus, electronic device, and computer readable storage medium for voice translation
EP3739570A1 (en) * 2019-05-17 2020-11-18 Papercup Technologies Limited Attention-based neural sequence to sequence mapping applied to speech synthesis and vocal translation
WO2020232860A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法
CN110827837A (zh) * 2019-10-18 2020-02-21 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN111833855A (zh) * 2020-03-16 2020-10-27 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN112270644A (zh) * 2020-10-20 2021-01-26 西安工程大学 基于空间特征变换和跨尺度特征集成的人脸超分辨方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Many-to-Many Voice Conversion based on Bottleneck Features with Variational Autoencoder for Non-parallel Training Data;Yanping Li;Proceedings, APSIPA Annual Summit and Conference 2018;第829-833页 *
增强变分自编码器做非平行语料语音转换;黄国捷;金慧;俞一彪;;信号处理(10);全文 *
约束条件下的结构化高斯混合模型及非平行语料语音转换;车滢霞;俞一彪;;电子学报(09);全文 *
采用深度信念网络的语音转换方法;王民;黄斐;刘利;卫铭斐;王明明;;计算机工程与应用(15);全文 *
非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换;李燕萍;曹盼;石杨;张燕;钱博;;复旦学报(自然科学版)(03);全文 *

Also Published As

Publication number Publication date
CN113643687A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN111462768B (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN110675891B (zh) 一种基于多层注意力机制的语音分离方法、模块
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN111816156A (zh) 基于说话人风格特征建模的多对多语音转换方法及系统
CN111429894A (zh) 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111833855B (zh) 基于DenseNet STARGAN的多对多说话人转换方法
CN112989107B (zh) 音频分类和分离方法、装置、电子设备以及存储介质
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
Yang et al. TFPSNet: Time-frequency domain path scanning network for speech separation
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
CN106531181A (zh) 一种基于谐波提取的欠定语音盲分离方法及装置
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Han et al. DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
Xue et al. Cross-modal information fusion for voice spoofing detection
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN114299917A (zh) 基于基频差异补偿的StyleGAN情感语音转换方法
Ma et al. Deep semantic encoder-decoder network for acoustic scene classification with multiple devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant