CN109584893B - 非平行文本条件下基于VAE与i-vector的多对多语音转换系统 - Google Patents

非平行文本条件下基于VAE与i-vector的多对多语音转换系统 Download PDF

Info

Publication number
CN109584893B
CN109584893B CN201811597896.0A CN201811597896A CN109584893B CN 109584893 B CN109584893 B CN 109584893B CN 201811597896 A CN201811597896 A CN 201811597896A CN 109584893 B CN109584893 B CN 109584893B
Authority
CN
China
Prior art keywords
speaker
many
vae
voice
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811597896.0A
Other languages
English (en)
Other versions
CN109584893A (zh
Inventor
李燕萍
许吉良
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201811597896.0A priority Critical patent/CN109584893B/zh
Publication of CN109584893A publication Critical patent/CN109584893A/zh
Application granted granted Critical
Publication of CN109584893B publication Critical patent/CN109584893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种非平行文本条件下基于VAE与身份特征向量(i‑vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i‑vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i‑vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。

Description

非平行文本条件下基于VAE与i-vector的多对多语音转换 系统
技术领域
本发明属于信号处理技术领域,具体涉及一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统。
背景技术
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,建立源语音和目标语音频谱特征之间的转换规则。
基于变分自编码器(VAE)模型的语音转换方法是直接利用说话人的身份标签建立语音转换的系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖。但是由于one-hot特征仅仅是一个说话人的身份标签,而不携带有丰富的个性信息,因此基于one-hot特征的VAE模型得到的转换语音个性相似度不够理想,这也是该算法主要不足之一。
发明内容
本发明的目的在于:提供一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统,该系统能解除对平行文本的依赖,实现多说话人对多说话人的语音转换,有效提高系统的性能。
为了达到以上目的,提供一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统,包括如下步骤,
S1、提取每个说话人的语句的频谱特征,谐波包络特征和对数基频;
S2、提取每个说话人的身份特征向量i-vector;
S3、以S1中提取的频谱特征、S2中提取的说话人身份特征向量和说话人标签作为VAE模型的输入数据,迭代训练VAE模型,训练得到说话人语音转换模型;
S4、提取每个源说话人的语句的频谱特征,谐波包络特征和对数基频;
S5、将源说话人频谱特征、目标说话人标签及目标说话人身份特征向量输入训练好的语音转换模型,获取转换后的模型输出即为目标说话人的语音频谱特征;
S6、源说话人语句特征中对数基频通过对数线型域变换转换为目标说话人的基频;
S7、将目标说话人语音频谱特征,S4中源说话人的谐波包络与目标说话人的基频输入语音合成模型获取目标说话人语音。
本发明的优选方案是:语句的特征包括每一帧的频谱包络sp′、语音对数基频logf0、谐波频谱包络ap,计算每一帧语音的能量en,并对频谱包络重新计算,即sp=log10sp′/en,语音采样频率为fs=16000。
优选地,所述频谱特征Xn为说话人的语音频谱特征sp,即Xn=[sp(n),n=1,...N]。
优选地,在模型训练阶段,将说话人频谱特征X输入VAE模型的Encoder端,并将Encoder输出的说话人无关的语义特征z、说话人标签和说话人身份特征向量输入VAE模型的Decoder端。其中,说话人标签和说话人身份特征向量作为Decoder训练的监督数据。
优选地,所述频谱特征Xn为说话人的语音频谱特征sp,即
Figure BDA0001921773800000021
优选地,在语音转换阶段,将源说话人频谱特征
Figure BDA0001921773800000022
输入语音转换模型的Encoder端获取说话人无关的语义特征隐变量z,再将隐变量z、目标说话人的标签yt及目标说话人的身份特征向量It输入语音转换模型的Decoder端,通过训练好的转换模型的转换获取目标说话人的频谱特征信息
Figure BDA0001921773800000023
并对
Figure BDA0001921773800000024
矩阵和源说话人的谐波包络ap进行归一化处理后与目标说话人基频f0输入语音合成模型进行语音合成。
优选地,语音合成模型为WORLD语音合成模型。
优选地,步骤S6中基频转换的公式为:
Figure BDA0001921773800000031
其中,源说话人的基频在对数域的均值和方差分别为μsrc和σsrc,目标说话人的基频在对数域的均值和方差分别为μtar和σtar
Figure BDA0001921773800000032
为源说话人的基频,
Figure BDA0001921773800000033
为转换后的基频。
本发明有益效果为:(1)解除对平行文本的依赖,而且训练过程不需要任何对齐过程;(2)可以将多个源-目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换;3)i-vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明基于变分自编码模型和i-vector的语音转换系统训练流程图;
图2是本发明基于变分自编码模型和i-vector的语音转换系统转换流程图。
具体实施方式
实施例一
请参阅图1和图2,本实施例提供一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统,分为训练和转换两个步骤:
1说话人语音训练阶段
1.1获取训练语料,本处采用的语音库为VCC2018,该语音库包含8个源说话人和4个目标说话人。训练语料分为两组:4个男性说话人和4个女性说话人。对于充分训练的说话人每人81条语句作为训练语料进行充分训练,35句语句作为测试语料进行模型评估;
1.2使用语音分析合成模型WORLD提取说话人语句每一帧的语音特征:频谱包络sp′,语音对数基频logf0,谐波频谱包络ap,计算出每一帧语音的能量en,并对频谱包络重新进行计算,即sp=log10sp′/en。语音采样频率为fs=16000,这里进行的是1024点的快速傅里叶变换,因此得到的频谱包络特征sp和谐波频谱包络特征ap均为1024/2+1=513维。ap与sp都是n*513维的二维矩阵,说话人标签y为每个说话人子集在训练语音集中的编号。最终将提取的每一帧的频谱特征为Xn=[sp(n),n=1,...N];
1.3提取每个说话人的身份特征向量i-vector,这里表示为Ik
i-vector是在高斯混合模型-通用背景模型(GMM-UBM)超向量和信道分析的基础上提出的一种新型的低维定长特征向量。对于p维的输入语音,GMM-UBM采用最大后验概率算法(MAP)只对高斯混合模型中的均值向量参数进行自适应即可得到GMM超向量,在此所有说话人的高斯混合模型具有相同的协方差矩阵和权重参数。然而,在说话人的语音中不仅包含语音个性差异信息同时也包含大量的信道差异信息,为了提高说话人特征向量的鲁棒性,在GMM超向量中综合考虑以上信息,定义全局GMM超向量为:
Figure BDA0001921773800000041
其中SV表示说话人的超向量,
Figure BDA0001921773800000042
表示与信道无关的话者超向量的均值向量,T是低维的全局差异空间矩阵。ω=(ω12,...,ωq)是全局变异因子,服从标准正态分布N(0,1),称之为i-vector。
1.4对于VAE模型的训练,1.2中的Xn频谱特征输入到VAE模型的Encoder端并将Encoder端输出的说话人无关的语义表示z,目标说话人标签yt和目标说话人说话人身份特征向量It输入VAE模型Decoder端。迭代输入说话人频谱特征Xn、说话人标签y和说话人身份特征向量Ik,完成对语音转换模型的训练。其中,说话人i向量是利用说话人的训练语料进行提取得到,每个说话人得到一个表示说话人特征的i向量。VAE网络的训练过程中,图1中VAE模型生成器Encoder采用二维卷积神经网络,包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。编码器Encoder采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
VAE模型用判别模型qφ(z|x(i))去逼近真实的后验概率pθ(z|x(i)),而衡量两个分布的相似程度,则采用KL散度,如式1-1所示:
Figure BDA0001921773800000051
将式1-1作贝叶斯公式的变换并整理可得式1-2:
Figure BDA0001921773800000052
于是:
Figure BDA0001921773800000053
由于p(X)是一个已知数据集的概率,希望最小化KL(qφ(z|x(i))||pθ(z|x(i))),就要使等号右边尽可能得到最大。又因为式1-4:
Figure BDA0001921773800000054
通过整理可得:
Figure BDA0001921773800000055
其中等号右边第一项是基于qφ(z|X)的似然期望,也就是已知真实的z分布而计算出的X的分布,即根据z重建X的过程;第二项是负的KL散度。所以为找到一个好的qφ(z|X),使它尽可能地逼近pθ(z|X),需要做的就是:(1)右边第一项的log似然的期望最大化;(2)右边第二项的KL散度最小化。
为更加方便地求解式1-5,对于隐变量z,可以将z分为两部分,一部分是一个复杂函数gφ(X),再定义一个随机变量ε负责随机部分,所以可以用gφ(X+ε)来表示服从条件概率的隐含空间z,即z-1=gφ(X+ε(1)),其中q(z(i))=p(ε(i)),则式1-5又可写为:
Figure BDA0001921773800000061
若取随机变量ε服从标准正态分布,即ε=N(0,I),而将z|X简化为一种高斯关系,进而有:
qφ(z|X,ε)=N(z|μ(X),∑(X)) 1-7
由于多维高斯分布下的KL散度公式为:
Figure BDA0001921773800000062
故式等号右侧第二项可改写为:
Figure BDA0001921773800000063
其中det为行列式,tr为矩阵的秩,d为I的秩即d=tr(I)。将该式变为具体的神经网络和矩阵运算,将式1-9化简为:
Figure BDA0001921773800000064
这也是VAE模型的编码(Encoder)部分。
等式右侧第一项即代表依赖隐变量z建出的数据应尽可能与X相同,这是VAE模型的解码(Decoder)部分。
1.6至此,VAE模型已经训练完成,如图1所示。
2语音转换阶段:
2.1利用WORLD语音分析合成模型提取源说话人语音特征参数:频谱包络sp′,语音对数基频logf0,谐波频谱包络ap,计算出每一帧语音的能量en,并重新计算频谱包络,即sp=log10sp′/en。最终提取说话人语音的每一帧的频谱特征为
Figure BDA0001921773800000071
2.2将源说话人频谱特征
Figure BDA0001921773800000072
目标说话人标签yt和目标说话人身份特征向量It输入训练好的转换模型,其中目标说话人标签yt和目标说话人身份特征向量It作为VAE频谱转换网络Decoder过程计算损失函数,进而得到转换后的目标说话人语音频谱参数
Figure BDA0001921773800000073
2.3将转换得到的目标说话人频谱参数
Figure BDA0001921773800000074
与2.1中得到的谐波包络ap进行归一化。将2.1中提取的源说话人对数基频logf0利用对数域线性变换得到目标说话人的基频。
对数域线性变换是一种简单的,同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设,那就是每个说话人的基频在对数域服从一个高斯分布。那么,只要统计出每个说话人的对数基频的均值和方差,便能构造出两个说话人之间的基频转换关系:
Figure BDA0001921773800000075
其中,源说话人的基频在对数域的均值和方差分别用μsrc和σsrc表示,目标说话人的基频在对数域的均值和方差分别用μtar和σtar表示,而则
Figure BDA0001921773800000076
表示源说话人的基频,
Figure BDA0001921773800000077
表示转换后的基频,本处使用对数基频
Figure BDA0001921773800000078
即logf0
2.4最后将归一化后目标说话人频谱参数特征Xtar以及谐波包络以及转换后的基频f0通过语音合成工具WORLD合成转换后的目标说话人语音。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (8)

1.非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,包括如下步骤:
S1、提取每个说话人的语句的频谱特征,谐波包络特征和对数基频;
S2、提取每个说话人的身份特征向量i-vector;
S3、以S1中提取的频谱特征、S2中提取的身份特征向量和说话人标签作为VAE模型的输入数据,迭代训练VAE模型,得到说话人语音转换模型;
S4、提取每个源说话人的语句的频谱特征,谐波包络特征和对数基频;
S5、以源说话人的频谱特征、目标说话人的标签及目标说话人的身份特征向量作为训练好的语音转换模型的输入数据,获取语音转换模型的输出即为目标说话人的重构频谱特征信息;
S6、源说话人语句的特征中对数基频通过对数线性域变换转换为目标说话人的基频;
S7、将转换得到的目标说话人频谱特征信息,S4中源说话人的谐波包络特征和目标说话人的基频输入语音合成模型获取目标说话人语音。
2.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,语句的特征包括每一帧的频谱特征sp′、对数基频logf0、谐波频谱包络ap,计算每一帧语音的能量en,并重新计算sp语音频谱特征,其中sp=log10sp′/en。
3.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,所述频谱特征Xn为说话人的语音频谱特征sp,即Xn=[sp(n),n=1,...N]。
4.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,将说话人语音特征X输入VAE模型的Encoder端,并将Encoder端输出的说话人无关的语义特征z结合说话人标签和说话人身份特征向量输入VAE模型的Decoder端。
5.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,源说话人频谱特征
Figure FDA0003167009960000021
为源说话人的语音频谱特征sp,即
Figure FDA0003167009960000022
6.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,将源说话人频谱特征
Figure FDA0003167009960000023
输入语音转换模型的Encoder端,并将Encoder端输出的说话人无关的语义特征z、目标说话人的标签yt及身份特征向量It输入语音转换模型的Decoder端,转换获取目标说话人的频谱特征
Figure FDA0003167009960000024
并对
Figure FDA0003167009960000025
与源说话人的谐波包络特征ap矩阵进行归一化处理后与转换后的目标说话人的基频输入语音合成模型进行语音合成。
7.根据权利要求1或5所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,所述语音合成模型为WORLD语音合成模型。
8.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,所述步骤S6中基频转换的公式为:
Figure FDA0003167009960000026
其中,源说话人的基频在对数域的均值和方差分别为μsrc和σsrc,目标说话人的基频在对数域的均值和方差分别为μtar和σtar
Figure FDA0003167009960000027
为源说话人的基频,
Figure FDA0003167009960000028
为转换后的基频。
CN201811597896.0A 2018-12-26 2018-12-26 非平行文本条件下基于VAE与i-vector的多对多语音转换系统 Active CN109584893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811597896.0A CN109584893B (zh) 2018-12-26 2018-12-26 非平行文本条件下基于VAE与i-vector的多对多语音转换系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811597896.0A CN109584893B (zh) 2018-12-26 2018-12-26 非平行文本条件下基于VAE与i-vector的多对多语音转换系统

Publications (2)

Publication Number Publication Date
CN109584893A CN109584893A (zh) 2019-04-05
CN109584893B true CN109584893B (zh) 2021-09-14

Family

ID=65932628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811597896.0A Active CN109584893B (zh) 2018-12-26 2018-12-26 非平行文本条件下基于VAE与i-vector的多对多语音转换系统

Country Status (1)

Country Link
CN (1) CN109584893B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110136686A (zh) * 2019-05-14 2019-08-16 南京邮电大学 基于STARGAN与i向量的多对多说话人转换方法
CN110136690B (zh) * 2019-05-22 2023-07-14 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110164463B (zh) * 2019-05-23 2021-09-10 北京达佳互联信息技术有限公司 一种语音转换方法、装置、电子设备及存储介质
CN111968617B (zh) * 2020-08-25 2024-03-15 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
CN113299267B (zh) * 2021-07-26 2021-10-15 北京语言大学 一种基于变分自编码器的语音刺激连续统合成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN105023570A (zh) * 2014-04-30 2015-11-04 安徽科大讯飞信息科技股份有限公司 一种实现声音转换的方法及系统
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869645B (zh) * 2016-03-25 2019-04-12 腾讯科技(深圳)有限公司 语音数据处理方法和装置
US10621586B2 (en) * 2017-01-31 2020-04-14 Paypal, Inc. Fraud prediction based on partial usage data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023570A (zh) * 2014-04-30 2015-11-04 安徽科大讯飞信息科技股份有限公司 一种实现声音转换的方法及系统
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Also Published As

Publication number Publication date
CN109584893A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109584893B (zh) 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN109377978B (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
Ding et al. Group Latent Embedding for Vector Quantized Variational Autoencoder in Non-Parallel Voice Conversion.
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
Wu et al. Locally Linear Embedding for Exemplar-Based Spectral Conversion.
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN110047501B (zh) 基于beta-VAE的多对多语音转换方法
CN109326294B (zh) 一种文本相关的声纹密钥生成方法
CN110136686A (zh) 基于STARGAN与i向量的多对多说话人转换方法
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
Champion et al. Speaker information modification in the VoicePrivacy 2020 toolchain
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
Lian et al. Towards improved zero-shot voice conversion with conditional dsvae
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
Feng et al. Speech emotion recognition based on LSTM and Mel scale wavelet packet decomposition
Cui et al. Multi-view and multi-objective semi-supervised learning for large vocabulary continuous speech recognition
CN108510995B (zh) 面向语音通信的身份信息隐藏方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant