CN109326283A - 非平行文本条件下基于文本编码器的多对多语音转换方法 - Google Patents

非平行文本条件下基于文本编码器的多对多语音转换方法 Download PDF

Info

Publication number
CN109326283A
CN109326283A CN201811406355.5A CN201811406355A CN109326283A CN 109326283 A CN109326283 A CN 109326283A CN 201811406355 A CN201811406355 A CN 201811406355A CN 109326283 A CN109326283 A CN 109326283A
Authority
CN
China
Prior art keywords
text
speaker
feature
sentence
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811406355.5A
Other languages
English (en)
Other versions
CN109326283B (zh
Inventor
李燕萍
石杨
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201811406355.5A priority Critical patent/CN109326283B/zh
Publication of CN109326283A publication Critical patent/CN109326283A/zh
Application granted granted Critical
Publication of CN109326283B publication Critical patent/CN109326283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

Description

非平行文本条件下基于文本编码器的多对多语音转换方法
技术领域
本发明涉及一种语音转换方法,特别是涉及一种非平行文本条件下基于文本编码器的多对多语音转换方法。
背景技术
语音转换(Voice Conversion,VC)是一种在保持语义信息的同时将源说话人特征转换为目标说话人特征的技术。近几年的研究中,VC模型采用深度神经网络(Deep NeuralNetworks,DNN),将源语音参数转换为目标语音参数,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM),DNN可以更有效地转换语音特征。
最近,变分自动编码器(Variational Auto-Encoder,VAE)已经被用于非平行的VC模型,因为VAE比受限制的Boltzmann机更容易训练。在传统的基于VAE的非平行VC中,编码器从输入语音参数中提取与说话者无关的代表语义内容的潜在变量,然后解码器从潜在变量中重建参数。然而由于VAE的潜在变量中的过度正则化效应,这使得潜在变量的分布过于简单化,并且很难代表语义内容的基础结构,这种基于VAE的非平行语料转换语音的质量低于用平行语音语料库训练的DNN转换的质量。如果使用潜在变量的更复杂的先验分布,例如GMM来解决该问题,但是因为语义内容的变化很大,不容易确定GMM集群的数量,所以实现起来非常困难。目前,基于VAE的非平行语料转换语音方法存在着转换后的语音质量差、噪声多等不足。
发明内容
发明目的:本发明要解决的技术问题是提供一种非平行文本条件下基于文本编码器(Text-Encoder)的多对多语音转换方法,能够有效提升转换后的语音质量,减少转换过程中带来的噪声。
技术方案:本发明所述的非平行文本条件下基于文本编码器的多对多语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:
(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0
(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp
(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练,训练过程中使文本编码器的损失函数尽量小,直至设置的迭代次数,得到训练好的文本编码器;
(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN网络模型进行训练,VAWGAN网络模型由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN网络;
(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0
(2.2)将上述频谱包络特征x,输入步骤(1.4)中训练好的文本编码器,输出得到文本编码器预测的源说话人每条语句的句子嵌入
(2.3)将上述句子嵌入源说话人频谱包络特征x、目标说话人标签特征y输入步骤(1.5)中训练好的VAWGAN网络,从而重构出目标说话人频谱包络特征x′;
(2.4)通过步骤(1.6)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′
(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,所述文本编码器采用l2损失函数,损失函数为:
其中,M为训练语句的数量,zp为训练库中语义内容编码所得的真实句子嵌入,为文本编码器输出的预测句子嵌入。
进一步的,所述文本编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
进一步的,步骤(1.5)中的训练过程包括以下步骤:
(1)将所述的训练语料频谱包络特征x,作为所述VAWGAN网络中编码器的输入数据,输出得到说话人无关的语义特征z;
(2)将上述语义特征z、说话人标签特征y、步骤(1.3)中所述的句子嵌入zp输入生成器进行训练,使生成器的损失函数尽量小,得到生成的说话人频谱包络特征x′;
(3)将上述说话人频谱包络特征x′和训练语料频谱包络特征x输入所述鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到迭代次数,从而得到训练好的VAWGAN网络。
进一步的,步骤(2.3)中的输入过程包括以下步骤:
(1)将频谱包络特征x输入VAWGAN网络中的编码器,得到说话人无关的语义特征z;
(2)将上述语义特征z、目标说话人标签特征y、步骤(2.2)中文本编码器预测的句子嵌入输入到所述的生成器中,重构出目标说话人频谱包络特征x′。
进一步的,所述VAWGAN网络中的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
进一步的,所述VAWGAN网络中的生成器采用二维卷积神经网络G,损失函数为:
所述的鉴别器采用二维卷积神经网络D,损失函数为:
其中,Gθ为生成器网络,Dψ为鉴别器网络,表示生成器生成的概率分布的期望,表示真实概率分布的期望。
进一步的,所述的生成器的二维卷积神经网络G包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1;所述的鉴别器的二维卷积神经网络D,包括3个卷积层和1个全连接层,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
进一步的,所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0c为转换后对数基频。
有益效果:本方法能够将转换语音中的语义内容通过文本编辑器处理后,应用到VAWGAN系统中去,相比于现有技术有效地提升了转换后的语音质量和相似度,减少转换过程中带来的噪声,实现高质量的语音转换。此外,本方法的训练过程并不依赖平行文本,能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。本方法还可以将多个源-目标说话人对的转换系统通过一个转换模型实现,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。
附图说明
图1是本方法的整体流程图。
具体实施方式
如图1所示,本发明所述高质量语音转换方法分为两个部分:训练部分用于得到语音转换所需的模型参数和转换函数,而转换部分用于实现源说话人语音到目标说话人语音的转换。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库,选取该语料库中4名男性和4名女性说话人的非平行文本训练语料,每名说话人有81句语料。该语料库还包含每句训练语料的语义内容。源说话人和目标说话人的训练语料既可以是平行文本,也可以是非平行文本的。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f0。其中由于快速傅氏变换(Fast FourierTransformation,FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。
1.3)将训练语料中每句话的语义内容进行编码,首先使用fasttext框架训练维度为300的词嵌入。fasttext是一个被用于对词嵌入和句子分类进行高效学习训练的工具库。词嵌入采用subword模型来学习每个单词w的向量表示。subword模型来源于skipgram模型。skipgram模型的训练目标是最大化以下对数似然:
其中,wt为当前指定的单词,Ct为单词的上下文内容,wc为上下文单词。
为了更符合实际情况,将预测上下文单词替代为构造独立的二进制分类任务,即预测某个上下文单词是否存在。对于上下文位置c,使用二元逻辑损失,上式改写为:
其中Nt,c为不存在的上下文单词,即负例,为单词wt和上下文单词wc之间的评分函数,分别为单词wt和上下文单词wc的词嵌入。
Subword模型将评分函数替换为:
其中,Gw为单词w中的n-gram集合,zg为n-gram g的向量表示,n-gram的向量表示的总和表示单词w的词嵌入。最小化该对数似然损失函数,便可以获得单词w的词嵌入。
然后将句子嵌入表示成词嵌入的加权平均值:
其中,zp为句子嵌入,vw为单词w的词嵌入,a为超参数,p(w)为单词w在整个语料库中出现的概率。将zp形成的矩阵的第一个奇异值记为u,zp减去在向量u上的投影便可获得编码之后的句子嵌入:
zp←zp-uuTzp
1.4)训练文本编码器来建立频谱包络x和句子嵌入之间的映射关系,训练好的文本编码器用于转换阶段,通过将待转换源语音的频谱包络特征输入训练好的文本编码器中得到待转换源语音的句子嵌入。
由于训练语句中有准确的语义内容,先按照1.3)所述方法将句子转化为准确的句子嵌入zp。接着训练文本编码器,输入为训练语音的频谱包络特征x和句子嵌入zp,利用l2损失函数度量预测的句子嵌入和准确的句子嵌入之间的误差,损失函数表示为:
其中,M为训练语句的数量。
所述文本编码器的结构与VAWGAN(Variational Autoencoding WassersteinGenerative Adversarial Network)中使用的编码器的结构相同,采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
1.5)将1.2)提取的训练语料的频谱包络特征x,作为VAWGAN编码器的输入数据,经过网络训练后得到说话人无关的语义特征z。其中编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
本实施例中的VAWGAN网络以条件变分自动编码器(Conditional VariationalAuto-Encoders,C-VAE)为基础,将W-GAN合并到解码器中来提升C-VAE效果。W-GAN由两个部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D。
VAWGAN网络的目标函数为:
Jvawgan=L(x;φ,θ)+αJwgan
其中,L(x;φ,θ)为C-VAE部分的目标函数:
其中,DKL(qφ(z|x)||pθ(z))表示判别模型qφ(z|x)和真实后验概率p(z|x)之间的KL散度。先验概率pθ(z)为标准多维高斯分布。qφ(z|x)和pθ(x|z)分别为编码器和解码器,服从多维高斯分布,其均值向量和协方差矩阵分别为(μφ(z),σφ(z))和(μθ(x),σθ(x))。因此,右边两项可以简化为:
其中,K为中间变量z的维数,L为对qφ(z|x)取样的次数。由于取样过程是一个非连续的操作,无法求导,因此无法通过反向传播来更新编码器和解码器的网络参数。于是引入另一个随机变量ε对隐藏变量z进行再参数化,令z(l)=μθ(x)+ε(l)θ(x),ε(l)~N(0,I),则:
其中,D为x的样本数。
至此,最大化C-VAE的目标函数已经转换为求解凸优化问题,利用随机梯度下降法(Stochastic Gradient Descent,SGD)来更新网络模型参数。α是W-GAN的损失系数。Jwgan表示W-GAN部分的目标函数:
生成器二维卷积神经网络的损失函数为:
优化目标为:
鉴别器二维卷积神经网络的损失函数为:
优化目标为:
1.6)将1.5)得到的训练语料的语义特征z与1.3)得到的句子嵌入zp、说话人标签特征y作为联合特征(z,zp,y)输入到解码器进行训练。其中y为每一个说话人的标签,在本方法中,采用8个说话人进行训练,对每一个说话人进行标号,8个参与训练的说话人分别标为0、1、2、3、4、5、6、7,并将标号编码为one-hot,即得到y。解码器由生成器和鉴别器组成。训练生成器,使生成器的损失函数LG尽量小,得到生成的说话人频谱包络特征x′。生成器采用二维卷积神经网络,包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。鉴别器采用二维卷积神经网络,包括3个卷积层和1个全连接层。3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
1.7)将1.6)得到的生成的说话人频谱包络特征x′和1.2)得到的训练语料的频谱包络特征x作为鉴别器的输入,训练鉴别器,使鉴别器的损失函数LD尽量大。
1.8)重复1.5)、1.6)和1.7),直至达到迭代次数,从而得到训练好的VAWGAN网络,其中编码器参数φ、生成器参数θ、鉴别器参数ψ为训练好的参数。本实验中选择迭代次数为200000次。
1.9)使用对数基频logf0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频logf0转换得到目标说话人语音基频logf0′
基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤:
2.1)将源说话人语音通过WORLD语音分析/合成模型提取出源说话人的不同语句的频谱包络特征x、非周期性特征、对数基频logf0。其中由于FFT长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。
2.2)将2.1)提取的源说话人语音的频谱包络特征x,作为1.4)中训练好的文本编码器的输入数据,得到预测的源说话人的句子嵌入
2.3)将2.1)提取的源说话人语音的频谱包络特征x,作为VAWGAN中编码器的输入数据,得到说话人无关的语义特征z。
2.4)将2.2)得到的句子嵌入与2.3)得到的语义特征z、说话人表征y作为联合特征输入1.7)训练好的VAWGAN网络,从而重构出目标说话人频谱包络特征x′。
2.5)通过1.9)得到的基音频率转换函数,将2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′
2.6)将2.4)中得到的目标说话人频谱包络特征x′、2.5)中得到的目标说话人的对数基频logf0′和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

Claims (9)

1.一种非平行文本条件下基于文本编码器的多对多语音转换方法,其特征包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:
(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0
(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp
(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练,训练过程中使文本编码器的损失函数尽量小,直至设置的迭代次数,得到训练好的文本编码器;
(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN进行训练,VAWGAN网络模型由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN网络;
(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0
(2.2)将上述频谱包络特征x,输入步骤(1.4)中训练好的文本编码器,输出得到文本编码器预测的源说话人每条语句的句子嵌入
(2.3)将上述句子嵌入源说话人频谱包络特征x、目标说话人标签特征y输入步骤(1.5)中训练好的VAWGAN网络,从而重构出目标说话人频谱包络特征x′;
(2.4)通过步骤(1.6)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′
(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
2.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述文本编码器采用l2损失函数,损失函数为:
其中,M为训练语句的数量,zp为训练库中语义内容编码所得的真实句子嵌入,为文本编码器输出的预测句子嵌入。
3.根据权利要求2所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述文本编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
4.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:步骤(1.5)中的训练过程包括以下步骤:
(1)将所述的训练语料频谱包络特征x,作为所述VAWGAN网络中编码器的输入数据,输出得到说话人无关的语义特征z;
(2)将上述语义特征z、说话人标签特征y、步骤(1.3)中所述的句子嵌入zp输入生成器进行训练,使生成器的损失函数尽量小,得到生成的说话人频谱包络特征x′;
(3)将上述说话人频谱包络特征x′和训练语料频谱包络特征x输入所述鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到迭代次数,从而得到训练好的VAWGAN网络。
5.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于步骤(2.3)中的输入过程包括以下步骤:
(1)将频谱包络特征x输入VAWGAN网络中的编码器,得到说话人无关的语义特征z;
(2)将上述语义特征z、目标说话人标签特征y、步骤(2.2)中文本编码器预测的句子嵌入输入到所述的生成器中,重构出目标说话人频谱包络特征x′。
6.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述VAWGAN网络中的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
7.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述VAWGAN网络中的生成器采用二维卷积神经网络G,损失函数为:
所述的鉴别器采用二维卷积神经网络D,损失函数为:
其中,Gθ为生成器网络,Dψ为鉴别器网络,表示生成器生成的概率分布的期望,表示真实概率分布的期望。
8.根据权利要求7所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述的生成器的二维卷积神经网络G包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1;所述的鉴别器的二维卷积神经网络D,包括3个卷积层和1个全连接层,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
9.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法,其特征在于:所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0c为转换后对数基频。
CN201811406355.5A 2018-11-23 2018-11-23 非平行文本条件下基于文本编码器的多对多语音转换方法 Active CN109326283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811406355.5A CN109326283B (zh) 2018-11-23 2018-11-23 非平行文本条件下基于文本编码器的多对多语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811406355.5A CN109326283B (zh) 2018-11-23 2018-11-23 非平行文本条件下基于文本编码器的多对多语音转换方法

Publications (2)

Publication Number Publication Date
CN109326283A true CN109326283A (zh) 2019-02-12
CN109326283B CN109326283B (zh) 2021-01-26

Family

ID=65257963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811406355.5A Active CN109326283B (zh) 2018-11-23 2018-11-23 非平行文本条件下基于文本编码器的多对多语音转换方法

Country Status (1)

Country Link
CN (1) CN109326283B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033096A (zh) * 2019-03-07 2019-07-19 北京大学 一种用于强化学习的状态数据生成方法和系统
CN110047501A (zh) * 2019-04-04 2019-07-23 南京邮电大学 基于beta-VAE的多对多语音转换方法
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110060701A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110060691A (zh) * 2019-04-16 2019-07-26 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN110060657A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于sn的多对多说话人转换方法
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
CN110288975A (zh) * 2019-05-17 2019-09-27 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110600012A (zh) * 2019-08-02 2019-12-20 特斯联(北京)科技有限公司 一种人工智能学习的模糊语音语义识别方法及系统
CN111247581A (zh) * 2019-12-23 2020-06-05 深圳市优必选科技股份有限公司 一种多语言文本合成语音方法、装置、设备及存储介质
CN111310439A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 一种基于深度特征变维机制的智能语义匹配方法和装置
CN111724809A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于变分自编码器的声码器实现方法及装置
CN111916093A (zh) * 2020-07-31 2020-11-10 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
CN111951810A (zh) * 2019-05-14 2020-11-17 国际商业机器公司 高质量非并行多对多语音转换
CN111968617A (zh) * 2020-08-25 2020-11-20 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN112289304A (zh) * 2019-07-24 2021-01-29 中国科学院声学研究所 一种基于变分自编码器的多说话人语音合成方法
CN112309365A (zh) * 2020-10-21 2021-02-02 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112863529A (zh) * 2020-12-31 2021-05-28 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN113032558A (zh) * 2021-03-11 2021-06-25 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113066475A (zh) * 2021-06-03 2021-07-02 成都启英泰伦科技有限公司 一种基于生成式对抗网络的语音合成方法
CN113378586A (zh) * 2021-07-15 2021-09-10 北京有竹居网络技术有限公司 语音翻译方法、翻译模型训练方法、装置、介质及设备
WO2022007438A1 (zh) * 2020-11-27 2022-01-13 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质
CN114818644A (zh) * 2022-06-27 2022-07-29 北京云迹科技股份有限公司 文本模板生成方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN107301859A (zh) * 2017-06-21 2017-10-27 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
US20180226075A1 (en) * 2017-02-03 2018-08-09 T-Mobile Usa, Inc. Automated text-to-speech conversion, such as driving mode voice memo
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
US20180226075A1 (en) * 2017-02-03 2018-08-09 T-Mobile Usa, Inc. Automated text-to-speech conversion, such as driving mode voice memo
CN107301859A (zh) * 2017-06-21 2017-10-27 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘俊坤,李燕萍,凌云志: "基于AutoEncoder DBN-VQ的说话人识别系统", 《计算机技术与发展》 *
吕中良: "基于改进的BLFW下平行和非平行文本的语音转换算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033096B (zh) * 2019-03-07 2021-04-02 北京大学 一种用于强化学习的状态数据生成方法和系统
CN110033096A (zh) * 2019-03-07 2019-07-19 北京大学 一种用于强化学习的状态数据生成方法和系统
CN110060701B (zh) * 2019-04-04 2023-01-31 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110047501A (zh) * 2019-04-04 2019-07-23 南京邮电大学 基于beta-VAE的多对多语音转换方法
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110060701A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110047501B (zh) * 2019-04-04 2021-09-07 南京邮电大学 基于beta-VAE的多对多语音转换方法
CN110060657A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于sn的多对多说话人转换方法
CN110060691A (zh) * 2019-04-16 2019-07-26 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN110060691B (zh) * 2019-04-16 2023-02-28 南京邮电大学 基于i向量和VARSGAN的多对多语音转换方法
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110110337B (zh) * 2019-05-08 2023-04-18 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
CN111951810A (zh) * 2019-05-14 2020-11-17 国际商业机器公司 高质量非并行多对多语音转换
CN110288975B (zh) * 2019-05-17 2022-04-22 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
CN110288975A (zh) * 2019-05-17 2019-09-27 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
CN112289304B (zh) * 2019-07-24 2024-05-31 中国科学院声学研究所 一种基于变分自编码器的多说话人语音合成方法
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
CN112289304A (zh) * 2019-07-24 2021-01-29 中国科学院声学研究所 一种基于变分自编码器的多说话人语音合成方法
CN110600012A (zh) * 2019-08-02 2019-12-20 特斯联(北京)科技有限公司 一种人工智能学习的模糊语音语义识别方法及系统
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN111247581B (zh) * 2019-12-23 2023-10-10 深圳市优必选科技股份有限公司 一种多语言文本合成语音方法、装置、设备及存储介质
CN111247581A (zh) * 2019-12-23 2020-06-05 深圳市优必选科技股份有限公司 一种多语言文本合成语音方法、装置、设备及存储介质
CN111310439A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 一种基于深度特征变维机制的智能语义匹配方法和装置
CN111310439B (zh) * 2020-02-20 2023-06-27 齐鲁工业大学 一种基于深度特征变维机制的智能语义匹配方法和装置
CN111724809A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于变分自编码器的声码器实现方法及装置
CN111916093A (zh) * 2020-07-31 2020-11-10 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
CN111968617B (zh) * 2020-08-25 2024-03-15 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
CN111968617A (zh) * 2020-08-25 2020-11-20 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN112071325B (zh) * 2020-09-04 2023-09-05 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN112309365B (zh) * 2020-10-21 2024-05-10 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112309365A (zh) * 2020-10-21 2021-02-02 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
WO2022007438A1 (zh) * 2020-11-27 2022-01-13 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质
CN112863529B (zh) * 2020-12-31 2023-09-22 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112863529A (zh) * 2020-12-31 2021-05-28 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112863483A (zh) * 2021-01-05 2021-05-28 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN113032558B (zh) * 2021-03-11 2023-08-29 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113032558A (zh) * 2021-03-11 2021-06-25 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113066475B (zh) * 2021-06-03 2021-08-06 成都启英泰伦科技有限公司 一种基于生成式对抗网络的语音合成方法
CN113066475A (zh) * 2021-06-03 2021-07-02 成都启英泰伦科技有限公司 一种基于生成式对抗网络的语音合成方法
CN113378586B (zh) * 2021-07-15 2023-03-28 北京有竹居网络技术有限公司 语音翻译方法、翻译模型训练方法、装置、介质及设备
CN113378586A (zh) * 2021-07-15 2021-09-10 北京有竹居网络技术有限公司 语音翻译方法、翻译模型训练方法、装置、介质及设备
CN114818644A (zh) * 2022-06-27 2022-07-29 北京云迹科技股份有限公司 文本模板生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109326283B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN109326283A (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110060701A (zh) 基于vawgan-ac的多对多语音转换方法
CN109377978A (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN101777347B (zh) 一种模型互补的汉语重音识别方法及系统
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
CN110136686A (zh) 基于STARGAN与i向量的多对多说话人转换方法
Casale et al. Multistyle classification of speech under stress using feature subset selection based on genetic algorithms
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN109584893A (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN110047501A (zh) 基于beta-VAE的多对多语音转换方法
Zheng et al. Improving Prosodic Boundaries Prediction for Mandarin Speech Synthesis by Using Enhanced Embedding Feature and Model Fusion Approach.
CN106448660B (zh) 一种引入大数据分析的自然语言模糊边界确定方法
Gao et al. Mixed-bandwidth cross-channel speech recognition via joint optimization of DNN-based bandwidth expansion and acoustic modeling
Ramos Voice conversion with deep learning
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Le et al. Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning.
Djeffal et al. Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190212

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2021980014141

Denomination of invention: Multi to multi speech conversion method based on text encoder under non parallel text conditions

Granted publication date: 20210126

License type: Common License

Record date: 20211206

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2021980014141

Date of cancellation: 20231107