CN113539232A - 一种基于慕课语音数据集的语音合成方法 - Google Patents

一种基于慕课语音数据集的语音合成方法 Download PDF

Info

Publication number
CN113539232A
CN113539232A CN202110781210.9A CN202110781210A CN113539232A CN 113539232 A CN113539232 A CN 113539232A CN 202110781210 A CN202110781210 A CN 202110781210A CN 113539232 A CN113539232 A CN 113539232A
Authority
CN
China
Prior art keywords
audio
data set
speech synthesis
mullet
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110781210.9A
Other languages
English (en)
Other versions
CN113539232B (zh
Inventor
伍家松
陈曦
孔佑勇
杨淳沨
杨冠羽
姜龙玉
沈傲东
舒华忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110781210.9A priority Critical patent/CN113539232B/zh
Publication of CN113539232A publication Critical patent/CN113539232A/zh
Application granted granted Critical
Publication of CN113539232B publication Critical patent/CN113539232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。

Description

一种基于慕课语音数据集的语音合成方法
技术领域
本发明涉及一种基于慕课语音数据集的语音合成方法,属于深度学习、语音合成技术领域。
背景技术
语音合成,是一种将文本转化为语音的技术,它的目的是“让机器发音”。使机器能模仿人的说话方式和停顿习惯。这项技术早就已经出现在我们的日常生活中,比如手机来电播报,电子书阅读,电子导游等。现在的语音合成方法大都是基于录音场景数据集,录音场景数据集需要专业的录音人员,录音设备以及后期制作,制作成本相对较大。真实场景数据集相对容易获得,制作难度和成本相对较低,和录音场景数据集相比感情更加充沛。用真实场景数据集进行语音合成,和录音数据集相比,合成的语音更加贴近真实说话场景,也更富有感情。基于真实场景数据集进行语音合成,对模型的音频,文本对齐能力以及稳定性提出了更高的要求。
现有的语音合成,说话人转换以及多语种语音合成的模型大多是不同的语音合成模型,这些模型不具有普适性,将它们整合在一个系统中会使得该系统非常庞大复杂。将语音合成,说话人转换,以及多语种语音合成这些语音合成任务运用相同的语音合成模型和声码器完成,精简了模型结构,也使得模型更具有普适性。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于慕课语音数据集的语音合成方法,以解决背景技术中所介绍的基于真实场景语音数据集的语音合成模型的注意力对齐,以及模型稳定性的问题,同时在同一语音合成模型和声码器完成语音合成,说话人转换和多语种语音合成的任务。
为了实现上述目的,本发明的技术方案如下,一种基于慕课语音数据集的语音合成方法,其特征在于:所述方法包括以下步骤:
步骤1)对数据集的<音频,文本>对进行预处理;
该方案可以利用MOOC网站公开的视频制作数据集,MOOC是大型开放式网络课程平台。MOOC网站包含约7000门课程,涵盖文学,历史,心理,哲学等多个领域,语料内容丰富。因为MOOC课程是在自然场景下录制,所以在制作数据集时需对音频进行筛选,剔除吐字不清,噪音过大的音频,提升合成音频的质量。
步骤2)构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;
步骤3)利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;
步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换;
步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。
作为本发明的一种改进,所述步骤1的<音频,文本>预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应。
作为本发明的一种改进,所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力。Tacotron 2是序列到序列的特征预测网络是编码器-注意力-解码器的结构。Tacotron2的编码器由一个3层的卷积层和一个双向LSTM层组成。将进行了词嵌入操作后的字符序列送入编码器生成编码器隐状态,注意力RNN生成一个解码器隐状态,根据这两个隐状态计算注意力对齐,从而计算上下文向量。将卷积网络和上下文向量做拼接,送入LSTM,LSTM的输出再次和上下文向量拼接,送入线性投影层预测输出。最后,目标频谱帧送入5层卷积网络和卷积前的频谱帧进行残差叠加,得到梅尔谱。
作为本发明的一种改进,所述改进后的GMM注意力是一种基于位置的注意力机制,通过它生成一个解码器隐状态Si,作为注意力制的查询向量去生成解码i时刻,音素序列长度为j的对齐αi,j,根据对齐αi,j计算上下文向量ci。对齐αi,j具体方法如下:
Figure BDA0003157055810000021
μi=μi-1i (2);
αi,j=softmax(α'i,j) (3);
Figure BDA0003157055810000022
其中,
Figure BDA0003157055810000023
是待训练的中间向量,通过softplus函数得到Δi和δi,计算得到每个高斯分量的均值μi,从而计算αi,j'这个中间变量,对αi,j'做归一化操作,得到注意力对齐αi,j
作为本发明的一种改进,所述步骤3中采用多波段MelGAN作为声码器,得到合成音频。MelGAN是基于GAN的声码器,由生成器和判别器组成。将梅尔频谱输入生成器,经过一层卷积之后送入上采样层,将梅尔频谱的序列长度和波形的频率进行匹配。每次上采样之后都接入一个残差模块,最后经过一个卷积层输出音频。判别器由卷积层和下采样层组成,采用多尺度架构,不仅对原始音频进行判别,还对采用平均池化降频处理后的音频进行判别。为了解决MelGAN无法有效衡量真实和预测音频之间的差异,多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)。在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛Lsc和对数短时傅里叶变换的幅度值Lmag
Figure BDA0003157055810000031
Figure BDA0003157055810000032
其中,x是真实音频,
Figure BDA0003157055810000033
是生成器G(s)输出的预测音频,||·||F和||·||1表示Frobenius和L1范数,|STFT(·)|表示短时傅里叶变换,N是幅度谱的元素个数。
对于多尺度短时傅里叶变换目标函数,有M个不同分析参数的单个短时傅里叶变换损失,对这些变换损失取平均:
Figure BDA0003157055810000034
对于多波段MelGAN,同时在全带和各个子带尺度上应用多尺度短时傅里叶变换损失:
Figure BDA0003157055810000035
其中,
Figure BDA0003157055810000036
Figure BDA0003157055810000037
分别表示多尺度短时傅里叶变换损失的全频带和子频带运算。
作为本发明的一种改进,所述步骤4中使用的语音合成系统,是将已经训练好的Tacotron2模型,通过嵌入层和编码器层的参数。将目标说话人的少量<音频,文本>对设置为训练集,继续用该模型进行训练。用训练好的模型合成目标说话人声音的语音。
作为本发明的一种改进,所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。全卷积输入文本编码器模型包含参数生成器和卷积编码器两个个部分。参数生成器实现了跨语言知识共享,为给定语言的卷积编码器的一层生成参数。卷积编码器使用全卷积的分组层,并用用批归一化的方式增强编码器,有效实现了多编码器的分批训练,缩短了训练的时间。
相对于现有技术,本发明具有如下优点:首先,本发明创新性地利用真实场景语音合成数据集进行语音合成,目前现有的大规模应用都是基于录音场景数据集的,稀缺基于真实场景语音数据集的语音合成方法。真实场景数据集易于获得,制作成本相对较低,声音的停顿自然,富有感情,使得合成的音频更加贴近真实说话场景,语调自然,感情充沛,为语音伪造和语音鉴伪技术提供了参考;另外,该方案利用相同的语音合成模型和声码器进行语音合成,说话人转换以及多语种语音合成的任务,在这3个功能上都取得了较为优良的效果,为用质量不够好的语料进行语音合成相关任务提供了方法参考,增强了模型的普适性,精简了语音合成系统的结构,为多功能语音合成的商业应用提供了思路,进一步推动语音合成模型的研究。
附图说明
图1为一种基于慕课语音数据集的语音合成方法构建系统结构图;
图2为全卷积输入文本编码器的结构图。
具体实施方式:
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术方案做进一步详细的说明。
本发明所提出的一种基于慕课语音数据集的语音合成方法的示意图如图1,图2所示。图1是本发明的系统结构图,主要由编码器,解码器和声码器三部分组成,其中左边小方框为编码器,右边大方框为解码器,“多波段MelGAN”为声码器。进行说话人转换任务时,需固定编码器部分的参数。图2是在进行多语种语音合成任务时,对编码器进行的改进,全卷积输入文本编码器的结构图,将参数生成器生成的参数给卷积编码器相应的一层,再将编码器的输出送入Tacotron2的解码器,实现多语种语音合成。
实施例:参见图1、图2,一种基于慕课语音数据集的语音合成方法,所述方法包括以下步骤:
实验环境:电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM),Windows10 64位操作系统。软件环境为TensorFlow1.14.0和pytorch1.3.0。
步骤1)对数据集的<音频,文本>对进行预处理;
步骤2)构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;
步骤3)利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;
步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换;
步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。
所述步骤1的<音频,文本>预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应。
所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力。Tacotron 2是序列到序列的特征预测网络是编码器-注意力-解码器的结构。Tacotron2的编码器由一个3层的卷积层和一个双向LSTM层组成。将进行了词嵌入操作后的字符序列送入编码器生成编码器隐状态,注意力RNN生成一个解码器隐状态,根据这两个隐状态计算注意力对齐,从而计算上下文向量。将卷积网络和上下文向量做拼接,送入LSTM,LSTM的输出再次和上下文向量拼接,送入线性投影层预测输出。最后,目标频谱帧送入5层卷积网络和卷积前的频谱帧进行残差叠加,得到梅尔谱。
所述改进后的GMM注意力是一种基于位置的注意力机制,通过它生成一个解码器隐状态Si,作为注意力制的查询向量去生成解码i时刻,音素序列长度为j的对齐αi,j,根据对齐αi,j计算上下文向量ci。对齐αi,j具体方法如下:
Figure BDA0003157055810000051
μi=μi-1i (2);
αi,j=softmax(α'i,j) (3);
Figure BDA0003157055810000052
其中,
Figure BDA0003157055810000053
是待训练的中间向量,通过softplus函数得到Δi和δi,计算得到每个高斯分量的均值μi,从而计算αi,j'这个中间变量,对αi,j'做归一化操作,得到注意力对齐αi,j
所述步骤3中采用多波段MelGAN作为声码器,得到合成音频。MelGAN是基于GAN的声码器,由生成器和判别器组成。将梅尔频谱输入生成器,经过一层卷积之后送入上采样层,将梅尔频谱的序列长度和波形的频率进行匹配。每次上采样之后都接入一个残差模块,最后经过一个卷积层输出音频。判别器由卷积层和下采样层组成,采用多尺度架构,不仅对原始音频进行判别,还对采用平均池化降频处理后的音频进行判别。为了解决MelGAN无法有效衡量真实和预测音频之间的差异,多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)。在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛Lsc和对数短时傅里叶变换的幅度值Lmag
所述步骤4中使用的语音合成系统,是将已经训练好的Tacotron2模型,通过嵌入层和编码器层的参数。将目标说话人的少量<音频,文本>对设置为训练集,继续用该模型进行训练。用训练好的模型合成目标说话人声音的语音。
所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。全卷积输入文本编码器模型包含参数生成器和卷积编码器两个部分。参数生成器实现了跨语言知识共享,为给定语言的卷积编码器的一层生成参数。卷积编码器使用全卷积的分组层,并用批归一化的方式增强编码器,有效实现了多编码器的分批训练,缩短了训练的时间。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (9)

1.一种基于慕课语音数据集的语音合成方法,其特征在于:所述方法包括以下步骤:
步骤1)对数据集的<音频,文本>对进行预处理;
步骤2)构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;
步骤3)利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;
步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换;
步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。
2.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤1的<音频,文本>预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应。
3.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力。
4.根据权利要求3所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述改进后的GMM注意力是一种基于位置的注意力机制,通过它生成一个解码器隐状态Si,作为注意力制的查询向量去生成解码i时刻,音素序列长度为j的对齐αi,j,根据对齐αi,j计算上下文向量ci。对齐αi,j具体方法如下:
Figure FDA0003157055800000011
μi=μi-1i (2);
αi,j=softmax(α′i,j) (3);
Figure FDA0003157055800000012
其中,
Figure FDA0003157055800000013
是待训练的中间向量,通过softplus函数得到Δi和δi,计算得到每个高斯分量的均值μi,从而计算αi,j'这个中间变量,对αi,j'做归一化操作,得到注意力对齐αi,j
5.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤3中采用多波段MelGAN作为声码器,得到合成音频。
6.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤4中使用的语音合成系统,需固定部分网络层的参数。
7.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。
8.根据权利要求7所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述全卷积输入文本编码器模型包含参数生成器和卷积编码器两个部分,参数生成器实现了跨语言知识共享,为给定语言的卷积编码器的一层生成参数,卷积编码器使用全卷积的分组层,并用批归一化的方式增强编码器,有效实现了多编码器的分批训练。
9.根据权利要求5所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤3中,MelGAN是基于GAN的声码器,由生成器和判别器组成,将梅尔频谱输入生成器,经过一层卷积之后送入上采样层,将梅尔频谱的序列长度和波形的频率进行匹配,每次上采样之后都接入一个残差模块,最后经过一个卷积层输出音频,判别器由卷积层和下采样层组成,采用多尺度架构,不仅对原始音频进行判别,还对采用平均池化降频处理后的音频进行判别;为了解决MelGAN无法有效衡量真实和预测音频之间的差异,多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss),在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛Lsc和对数短时傅里叶变换的幅度值Lmag
Figure FDA0003157055800000021
Figure FDA0003157055800000022
其中,x是真实音频,
Figure FDA0003157055800000023
是生成器G(s)输出的预测音频,||·||F和||·||1表示Frobenius和L1范数,|STFT(·)|表示短时傅里叶变换,N是幅度谱的元素个数。
CN202110781210.9A 2021-07-10 2021-07-10 一种基于慕课语音数据集的语音合成方法 Active CN113539232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110781210.9A CN113539232B (zh) 2021-07-10 2021-07-10 一种基于慕课语音数据集的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110781210.9A CN113539232B (zh) 2021-07-10 2021-07-10 一种基于慕课语音数据集的语音合成方法

Publications (2)

Publication Number Publication Date
CN113539232A true CN113539232A (zh) 2021-10-22
CN113539232B CN113539232B (zh) 2024-05-14

Family

ID=78098338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110781210.9A Active CN113539232B (zh) 2021-07-10 2021-07-10 一种基于慕课语音数据集的语音合成方法

Country Status (1)

Country Link
CN (1) CN113539232B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360559A (zh) * 2021-12-17 2022-04-15 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114999447A (zh) * 2022-07-20 2022-09-02 南京硅基智能科技有限公司 一种基于对抗生成网络的语音合成模型及训练方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364632A (zh) * 2017-12-22 2018-08-03 东南大学 一种具备情感的中文文本人声合成方法
CN111552801A (zh) * 2020-04-20 2020-08-18 大连理工大学 基于语义对齐的神经网络自动摘要模型
WO2020173134A1 (zh) * 2019-02-27 2020-09-03 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112418409A (zh) * 2020-12-14 2021-02-26 南京信息工程大学 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112652291A (zh) * 2020-12-15 2021-04-13 携程旅游网络技术(上海)有限公司 基于神经网络的语音合成方法、系统、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364632A (zh) * 2017-12-22 2018-08-03 东南大学 一种具备情感的中文文本人声合成方法
WO2020173134A1 (zh) * 2019-02-27 2020-09-03 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN111552801A (zh) * 2020-04-20 2020-08-18 大连理工大学 基于语义对齐的神经网络自动摘要模型
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112418409A (zh) * 2020-12-14 2021-02-26 南京信息工程大学 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法
CN112652291A (zh) * 2020-12-15 2021-04-13 携程旅游网络技术(上海)有限公司 基于神经网络的语音合成方法、系统、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360559A (zh) * 2021-12-17 2022-04-15 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
CN114999447A (zh) * 2022-07-20 2022-09-02 南京硅基智能科技有限公司 一种基于对抗生成网络的语音合成模型及训练方法
CN114999447B (zh) * 2022-07-20 2022-10-25 南京硅基智能科技有限公司 一种基于对抗生成网络的语音合成模型及语音合成方法
US11817079B1 (en) 2022-07-20 2023-11-14 Nanjing Silicon Intelligence Technology Co., Ltd. GAN-based speech synthesis model and training method

Also Published As

Publication number Publication date
CN113539232B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN111754976B (zh) 一种韵律控制语音合成方法、系统及电子装置
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
CN108847249A (zh) 声音转换优化方法和系统
CN110033755A (zh) 语音合成方法、装置、计算机设备及存储介质
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
Siuzdak et al. WavThruVec: Latent speech representation as intermediate features for neural speech synthesis
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN113327580A (zh) 语音合成方法、装置、可读介质及电子设备
CN112837669A (zh) 语音合成方法、装置及服务器
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
Liu et al. Multistage deep transfer learning for emIoT-enabled human–computer interaction
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN114495969A (zh) 一种融合语音增强的语音识别方法
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
Xue et al. Foundationtts: Text-to-speech for asr customization with generative language model
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
Choi et al. Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN116312476A (zh) 语音合成方法和装置、存储介质、电子设备
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
CN112242134A (zh) 语音合成方法及装置
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant