CN109767778A - 一种融合Bi-LSTM和WaveNet的语音转换方法 - Google Patents
一种融合Bi-LSTM和WaveNet的语音转换方法 Download PDFInfo
- Publication number
- CN109767778A CN109767778A CN201811613192.8A CN201811613192A CN109767778A CN 109767778 A CN109767778 A CN 109767778A CN 201811613192 A CN201811613192 A CN 201811613192A CN 109767778 A CN109767778 A CN 109767778A
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency
- mel
- network
- cepstrum coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明提出了一种融合Bi‑LSTM和WaveNet的语音转换方法,首先提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入语音生成网络,生成最终的转换语音。本发明生成的转换语音相似度更高,自然度更好。
Description
技术领域
本发明属于语音信号处理领域,具体为一种融合Bi-LSTM和WaveNet的语音转换方法。
背景技术
随着人工智能技术的迅速发展,其应用领域也越来越广泛。语音交互、智能仿声、个性化语音生成等技术逐步受到人们的关注。语音转换(Voice Conversion,VC)作为个性化语音生成的一种重要技术手段,涉及语音信号处理、语音学、模式识别、人工智能等多种学科,是当今语音处理领域的研究难点和热点之一。广义上讲,人们把改变语音中说话人特征的语音处理技术统称为语音转换或语音变换(Voice Transformation)。在实际研究和应用中,语音转换是指在保持语义内容不变的情况下,改变一个说话人(源说话人)的语音个性特征(如音色、韵律等),使之具有另外一个说话人(目标说话人)的语音个性特征的一种语音处理技术。
近年来,随着语音信号处理、机器学习等技术的进步以及海量数据获取能力,大规模计算性能的提高,语音转换技术的研究取得了长足的进步,语音转换的性能也得到不断提升。典型的语音转换技术包括:基于高斯混合模型的语音转换(T.Toda,A.W.Black,andK.Tokuda,“Spectral conversion based on maximum likelihood estimationconsidering global variance of converted parameter,”Proc.of ICASSP,pp.9–12,2005),基于频率规整的语音转换(Xiaohai Tian,Zhizheng Wu,Siu Wa Lee,Nguyen QuyHy,Eng Siong Chng,Minghui Dong,“Sparse representation for frequency warpingbased voice conversion”.Proc.of the ICASSP,pp.4235-4239,2015),基于深度神经网络的语音转换(Lifa Sun,Shiyin Kang,Kun Li,Helen Meng,“Voice conversion usingdeep bidirectional long short-term memory based recurrent neural networks,”Proc.of ICASSP,pp.4869–4873,2015)等。这些语音转换网络模型框架主要包括训练阶段和转换阶段两个阶段。训练阶段,通过源说话人和目标说话人的平行语料库获取相应转换函数;转换阶段,将训练阶段得到的转换函数应用于待转换语音,对待转换语音的特征进行转换,最后利用转换后的特征合成转换语音。目前,虽然这些语音转换技术合理有效,也取得了较好的转换效果,但是由于大多数转换最终生成的语音波形,是使用基于确定声学参数的声码器生成的,所以转换语音通常存在过平滑问题,导致转换语音中缺少语音细节信息,并使转换后的语音嗡嗡作响,最终影响了转换语音的效果和质量,使它听起来不像自然语音那样流畅舒服。
发明内容
本发明的目的在于提出了一种融合Bi-LSTM和WaveNet的语音转换方法,解决现有语音转换方法缺少语音细节信息,转换质量不高的问题。
实现本发明的技术解决方案为:一种融合Bi-LSTM和WaveNet的语音转换方法,具体步骤为:
步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;
步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;
步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;
步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;
步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模型进行训练,得到后处理网络;
步骤6、提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。
本发明与现有技术相比,其显著优点为:1)本发明将双向长短时记忆递归神经网络用于语音特征的转换,能够联系上下文信息,更好地建模特征之间的映射,能够与音频生成模型相结合,使得生成的转换语音相似度更高,自然度更好;2)本发明通过对WaveNet增加后处理优化语音生成部分,使得语音生成系统更加稳定和准确,提高了转换系统的稳定性。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1是本发明融合Bi-LSTM网络和WaveNet网络的语音转换方法流程图。
图2是本发明的Bi-LSTM网络和WaveNet网络的语音转换方法训练流程图。
图3是本发明利用Bi-LSTM网络实现语音特征转换的示意图。
图4是本发明利用条件WaveNet实现语音合成的示意图。
图5是本发明利用线性插值法得到与语音样点长度一致的特征示意图。
具体实施方式
一种融合双向长短时记忆递归神经网络(Bidirectional-Long Short-TermMemory Recurrent Neural Networks,简称Bi-LSTM)和波形生成神经网络(简称WaveNet)的语音转换方法,具体步骤为:
步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;
步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;
步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;
步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;
步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模型进行训练,得到后处理网络;
步骤6、提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。
进一步的实施例中,步骤1中对源语音特征和目标语音特征进行预处理的具体内容为:
对源语音和目标语音的梅尔频率倒谱系数进行动态时域规整,得到对齐后的各自的梅尔频率倒谱系数;
对源语音和目标语音的基音频率进行线性转换并上采样;
对源语音和目标语音的非周期频率进行上采样。
进一步的实施例中,步骤2对Bi-LSTM1网络模型进行训练得到特征转换网络具体过程为:Bi-LSTM1初始化参数为θB1,训练时采用最小均方差准则对θB1进行更新,训练迭代次数为N2-N1,最终得到一个稳定的特征转换网络,训练过程可表示为:
式中,mx和my分别表示对齐后的源语音和目标语音的梅尔频率倒谱系数,B1表示Bi-LSTM1网络,表示源语音转换后的梅尔频率倒谱系数,y表示目标语音,ηB1表示学习率,表示下降梯度,表示计算my和之间的最小均方差。
进一步的实施例中,步骤3将提取到的目标语音特征与目标语音一同送入WaveNet网络进行训练,得到语音生成网络的具体过程为:
采用最小均方差准则对WaveNet中初始化参数θW进行更新,训练迭代次数为N1,最终得到一个稳定的语音生成网络,训练过程即:
式中m'y表示对齐并经上采样后的目标MFCC,fy表示经过线性转换并上采样后的目标基音频率,Ay表示上采样后目标的非周期频率,表示经WaveNet生成的语音,y表示目标语音,ηW表示学习率。
进一步的实施例中,Bi-LSTM1网络模型具体为:学习速率为0.0001,批处理量大小为12,LSTM的“细胞单元”个数为50,迭代次数为50000;
Bi-LSTM2网络模型具体为:Bi-LSTM1学习速率为0.0002,批处理量大小为12,LSTM的“细胞单元”个数为50,迭代次数为2000;
WaveNet网络模型具体为:WaveNet学习速率为0.0001,迭代次数为100000,批处理量大小为32,跳跃连接层为512层,扩张卷积层为50层,u-律压缩编码通道数为256,残差通道数为32,音频采样率为16000Hz,训练模型数据维度为259维。
本发明将长短时记忆递归神经网络与波形生成神经模型相融合,首先通过Bi-LSTM模型有效联系语音上下文信息,解决特征转换模型能力不足的问题,其次,语音特征到语音波形的转换中,采用确定的参数化声码器,通常会导致语音质量下降,WaveNet能够有效解决特征到波形转换过程中的这一问题。融合模型能够有效解决转换语音中的过平滑问题,使得生成的转换语音相似度更高、自然度更好;并且通过对WaveNet增加后处理,优化语音生成,可防止WaveNet生成过程中语音崩塌现象的产生,使得语音生成更加准确,提高了语音转换系统的稳定性。
实施例
如图1所示,首先得到两个训练好的Bi-LSTM网络模型和一个波形生成神经网络模型(WaveNet),其中,一个Bi-LSTM网络模型用于特征转换(Bi-LSTM1),另一个Bi-LSTM网络模型用于后处理(Bi-LSTM2),然后提取待转换语音特征,经训练好的用于特征转换的Bi-LSTM网络模型(Bi-LSTM1)转换后送入波形生成神经网络模型(WaveNet)生成预转换语音,接着通过另一个用于后处理的Bi-LSTM网络模型(Bi-LSTM2)进行后处理,最后再经波形生成神经网络模型(WaveNet)生成最终的转换语音。
如图2所示,具体过程包括如下几个步骤。
步骤1、对训练语音进行“预处理”
从平行语料库中将源语音和目标语音经STRAIGHT分析提取出各自的语音特征,包括:基音频率(F0)、梅尔频率倒谱系数(MFCC)、非周期频率(AP);
对源语音和目标语音的梅尔频率倒谱系数MFCC进行动态时域规整(DTW),得到对齐后的各自的梅尔频率倒谱系数(源语音S_MFCC,目标语音T_MFCC);
对源语音和目标语音的基音频率进行线性转换并上采样;
对源语音和目标语音的非周期频率进行上采样。
步骤2、训练1,对Bi-LSTM1网络进行训练
将对齐后的源语音梅尔频率倒谱系数和目标语音梅尔频率倒谱系数,送入Bi-LSTM1网络模型开始训练。Bi-LSTM1初始化参数为θB1,Bi-LSTM网络模型中的初始化参数主要是权重值和偏移量,系统随机产生其初始化数值,训练时采用最小均方差准则对θB1进行更新,训练迭代次数为N2-N1,本实施例中,N2为150000,N1为100000。最终得到一个稳定的特征转换网络,训练过程可表示为:
式中,mx和my分别表示对齐后的源语音和目标语音的梅尔频率倒谱系数,B1表示Bi-LSTM1网络,表示源语音转换后的梅尔频率倒谱系数,y表示目标语音,ηB1表示学习率,表示下降梯度,表示计算my和之间的最小均方差。
步骤3、训练2,对Wavenet网络进行训练
将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络,开始训练。WaveNet中初始化参数为θW,训练时采用最小均方差准则对θW进行更新,训练迭代次数为N1,最终得到一个稳定的语音生成网络,同时得到合成的目标语音,训练过程表示为:
式中,m'y表示对齐并经上采样后的目标语音梅尔频率倒谱系数,fy表示经过线性转换并上采样后的目标语音基音频率,Ay表示上采样后的目标语言非周期频率,W表示Wavenet网络,表示经WaveNet生成的语音,y表示目标语音,ηW表示学习率。
步骤4、获取预转换语音
对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;
步骤5、训练3,对Bi-LSTM2网络进行训练
提取预转换语音与步骤3得到的合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后送入Bi-LSTM2网络模型,Bi-LSTM2网络模型初始化参数为θB2,经N3-N2次迭代后,得到后处理网络,本实施例中N3为152000。
步骤6、生成转换语音
提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数都经上采样后送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。
上述步骤中,训练1和训练3中涉及到的Bi-LSTM网络的训练过程如图3所示,采用最小均方差准则训练以得到稳定的网络模型,分别用于特征转换和后处理。
本实施例中,Bi-LSTM1网络模型具体为:Bi-LSTM1学习速率为0.0001,批处理量大小为12,LSTM的“细胞单元”个数为50。迭代次数为50000。
Bi-LSTM2网络模型具体为:Bi-LSTM1学习速率为0.0002,批处理量大小为12,LSTM的“细胞单元”个数为50。迭代次数为2000。
WaveNet网络模型具体为:WaveNet学习速率为0.0001,迭代次数为100000,批处理量大小为32,跳跃连接层为512层,扩张卷积层为50层,u-律压缩编码通道数为256,残差通道数为32,音频采样率为16000Hz,训练模型数据维度为259维。
在训练2中,WaveNet条件概率建模的流程如图4所示,WaveNet是一个深度自回归的模型,x1,x2…,xt-1表示时间序列的样点,θ表示当前时刻的条件信息,其条件概率密度分布公式为:
对提取的特征逐一进行上采样后,按照图4的框架进行建模。通过训练,将语音波形点与条件建立起对应关系。其中,条件1和条件2构建过程中对MFCC插值上采样如图5所示,插值间隔为:△y=|第i帧-第(i-1)帧)|/(帧间样点数n)。
基音频率线性转换过程采用的公式为:
式中,pt (Y)和pt (X)分别表示转换后的logF0和原始logF0,u(X)和u(Y)代表转换前后的均值,σ(X)和σ(Y)是转换前后的标准差,这些数据均来自训练数据。
Claims (5)
1.一种融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,具体步骤为:
步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;
步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;
步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;
步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;
步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模型进行训练,得到后处理网络;
步骤6、提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。
2.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,步骤1中对源语音特征和目标语音特征进行预处理的具体内容为:
对源语音和目标语音的梅尔频率倒谱系数进行动态时域规整,得到对齐后的各自的梅尔频率倒谱系数;
对源语音和目标语音的基音频率进行线性转换并上采样;
对源语音和目标语音的非周期频率进行上采样。
3.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,步骤2对Bi-LSTM1网络模型进行训练得到特征转换网络具体过程为:Bi-LSTM1初始化参数为θB1,训练时采用最小均方差准则对θB1进行更新,训练迭代次数为N2-N1,最终得到一个稳定的特征转换网络,训练过程可表示为:
式中,mx和my分别表示对齐后的源语音和目标语音的梅尔频率倒谱系数,B1表示Bi-LSTM1网络,表示源语音转换后的梅尔频率倒谱系数,y表示目标语音,ηB1表示学习率,表示下降梯度,表示计算my和之间的最小均方差。
4.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,步骤3将提取到的目标语音特征与目标语音一同送入WaveNet网络进行训练,得到语音生成网络的具体过程为:
采用最小均方差准则对WaveNet中初始化参数θW进行更新,训练迭代次数为N1,最终得到一个稳定的语音生成网络,训练过程即:
式中m'y表示对齐并经上采样后的目标MFCC,fy表示经过线性转换并上采样后的目标基音频率,Ay表示上采样后目标的非周期频率,表示经WaveNet生成的语音,y表示目标语音,ηW表示学习率。
5.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,Bi-LSTM1网络模型具体为:学习速率为0.0001,批量大小为12,LSTM的“细胞单元”个数为50。迭代次数为50000。
Bi-LSTM2网络模型具体为:学习速率为0.0001,批处理量大小为12,LSTM的细胞单元个数为50,迭代次数为50000;
Bi-LSTM2网络模型具体为:Bi-LSTM1学习速率为0.0002,批处理量大小为12,LSTM的细胞单元个数为50,迭代次数为2000;
WaveNet网络模型具体为:WaveNet学习速率为0.0001,迭代次数为100000,批处理量大小为32,跳跃连接层为512层,扩张卷积层为50层,u-律压缩编码通道数为256,残差通道数为32,音频采样率为16000Hz,训练模型数据维度为259维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811613192.8A CN109767778B (zh) | 2018-12-27 | 2018-12-27 | 一种融合Bi-LSTM和WaveNet的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811613192.8A CN109767778B (zh) | 2018-12-27 | 2018-12-27 | 一种融合Bi-LSTM和WaveNet的语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767778A true CN109767778A (zh) | 2019-05-17 |
CN109767778B CN109767778B (zh) | 2020-07-31 |
Family
ID=66452126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811613192.8A Active CN109767778B (zh) | 2018-12-27 | 2018-12-27 | 一种融合Bi-LSTM和WaveNet的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767778B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110246488A (zh) * | 2019-06-14 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 半优化CycleGAN模型的语音转换方法及装置 |
CN110600046A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于改进的STARGAN和x向量的多对多说话人转换方法 |
CN111127104A (zh) * | 2019-12-25 | 2020-05-08 | 创新奇智(广州)科技有限公司 | 一种商品销量预测方法及系统 |
CN111247584A (zh) * | 2019-12-24 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
CN111295017A (zh) * | 2020-02-21 | 2020-06-16 | 成都世纪光合作用科技有限公司 | 一种灯光控制方法、控制系统和设备 |
CN111402923A (zh) * | 2020-03-27 | 2020-07-10 | 中南大学 | 基于wavenet的情感语音转换方法 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
CN112562704A (zh) * | 2020-11-17 | 2021-03-26 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112735434A (zh) * | 2020-12-09 | 2021-04-30 | 中国人民解放军陆军工程大学 | 一种具有声纹克隆功能的语音通话方法及系统 |
CN112786001A (zh) * | 2019-11-11 | 2021-05-11 | 北京地平线机器人技术研发有限公司 | 语音合成模型训练方法、语音合成方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306492A (zh) * | 2011-09-09 | 2012-01-04 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
KR101807961B1 (ko) * | 2016-06-07 | 2017-12-11 | 한양대학교 산학협력단 | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN108847249A (zh) * | 2018-05-30 | 2018-11-20 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
-
2018
- 2018-12-27 CN CN201811613192.8A patent/CN109767778B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306492A (zh) * | 2011-09-09 | 2012-01-04 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
KR101807961B1 (ko) * | 2016-06-07 | 2017-12-11 | 한양대학교 산학협력단 | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 |
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN107705806A (zh) * | 2017-08-22 | 2018-02-16 | 北京联合大学 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
CN108847249A (zh) * | 2018-05-30 | 2018-11-20 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
Non-Patent Citations (1)
Title |
---|
孙健等: "基于卷积非负矩阵分解的语音转换方法", 《数据采集与处理》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223705B (zh) * | 2019-06-12 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110246488A (zh) * | 2019-06-14 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 半优化CycleGAN模型的语音转换方法及装置 |
CN110246488B (zh) * | 2019-06-14 | 2021-06-25 | 思必驰科技股份有限公司 | 半优化CycleGAN模型的语音转换方法及装置 |
CN110600046A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于改进的STARGAN和x向量的多对多说话人转换方法 |
CN112786001A (zh) * | 2019-11-11 | 2021-05-11 | 北京地平线机器人技术研发有限公司 | 语音合成模型训练方法、语音合成方法和装置 |
CN112786001B (zh) * | 2019-11-11 | 2024-04-09 | 北京地平线机器人技术研发有限公司 | 语音合成模型训练方法、语音合成方法和装置 |
WO2021127985A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
CN111247584B (zh) * | 2019-12-24 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
CN111247584A (zh) * | 2019-12-24 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
CN111127104A (zh) * | 2019-12-25 | 2020-05-08 | 创新奇智(广州)科技有限公司 | 一种商品销量预测方法及系统 |
CN111295017A (zh) * | 2020-02-21 | 2020-06-16 | 成都世纪光合作用科技有限公司 | 一种灯光控制方法、控制系统和设备 |
CN111402923A (zh) * | 2020-03-27 | 2020-07-10 | 中南大学 | 基于wavenet的情感语音转换方法 |
CN111402923B (zh) * | 2020-03-27 | 2023-11-03 | 中南大学 | 基于wavenet的情感语音转换方法 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
CN112562704A (zh) * | 2020-11-17 | 2021-03-26 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112562704B (zh) * | 2020-11-17 | 2023-08-18 | 中国人民解放军陆军工程大学 | 基于blstm的分频拓谱抗噪语音转换方法 |
CN112735434A (zh) * | 2020-12-09 | 2021-04-30 | 中国人民解放军陆军工程大学 | 一种具有声纹克隆功能的语音通话方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109767778B (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767778A (zh) | 一种融合Bi-LSTM和WaveNet的语音转换方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN107545903B (zh) | 一种基于深度学习的语音转换方法 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN104616655B (zh) | 声纹模型自动重建的方法和装置 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
CN109326283A (zh) | 非平行文本条件下基于文本编码器的多对多语音转换方法 | |
EP4118641A1 (en) | Speech recognition using unspoken text and speech synthesis | |
CN105869624A (zh) | 数字语音识别中语音解码网络的构建方法及装置 | |
WO2019214047A1 (zh) | 建立声纹模型的方法、装置、计算机设备和存储介质 | |
CN107077842A (zh) | 用于语音转录的系统和方法 | |
CN111210803B (zh) | 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法 | |
CN109065033A (zh) | 一种基于随机深度时延神经网络模型的自动语音识别方法 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
CN105023570B (zh) | 一种实现声音转换的方法及系统 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
CN105206257A (zh) | 一种声音转换方法及装置 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN111508470A (zh) | 一种语音合成模型的训练方法及装置 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
CN110047501A (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN101178895A (zh) | 基于生成参数听感误差最小化的模型自适应方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |