CN113539232A - 一种基于慕课语音数据集的语音合成方法 - Google Patents
一种基于慕课语音数据集的语音合成方法 Download PDFInfo
- Publication number
- CN113539232A CN113539232A CN202110781210.9A CN202110781210A CN113539232A CN 113539232 A CN113539232 A CN 113539232A CN 202110781210 A CN202110781210 A CN 202110781210A CN 113539232 A CN113539232 A CN 113539232A
- Authority
- CN
- China
- Prior art keywords
- audio
- data set
- speech synthesis
- mullet
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 51
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 25
- 241001502129 Mullus Species 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。
Description
技术领域
本发明涉及一种基于慕课语音数据集的语音合成方法,属于深度学习、语音合成技术领域。
背景技术
语音合成,是一种将文本转化为语音的技术,它的目的是“让机器发音”。使机器能模仿人的说话方式和停顿习惯。这项技术早就已经出现在我们的日常生活中,比如手机来电播报,电子书阅读,电子导游等。现在的语音合成方法大都是基于录音场景数据集,录音场景数据集需要专业的录音人员,录音设备以及后期制作,制作成本相对较大。真实场景数据集相对容易获得,制作难度和成本相对较低,和录音场景数据集相比感情更加充沛。用真实场景数据集进行语音合成,和录音数据集相比,合成的语音更加贴近真实说话场景,也更富有感情。基于真实场景数据集进行语音合成,对模型的音频,文本对齐能力以及稳定性提出了更高的要求。
现有的语音合成,说话人转换以及多语种语音合成的模型大多是不同的语音合成模型,这些模型不具有普适性,将它们整合在一个系统中会使得该系统非常庞大复杂。将语音合成,说话人转换,以及多语种语音合成这些语音合成任务运用相同的语音合成模型和声码器完成,精简了模型结构,也使得模型更具有普适性。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于慕课语音数据集的语音合成方法,以解决背景技术中所介绍的基于真实场景语音数据集的语音合成模型的注意力对齐,以及模型稳定性的问题,同时在同一语音合成模型和声码器完成语音合成,说话人转换和多语种语音合成的任务。
为了实现上述目的,本发明的技术方案如下,一种基于慕课语音数据集的语音合成方法,其特征在于:所述方法包括以下步骤:
步骤1)对数据集的<音频,文本>对进行预处理;
该方案可以利用MOOC网站公开的视频制作数据集,MOOC是大型开放式网络课程平台。MOOC网站包含约7000门课程,涵盖文学,历史,心理,哲学等多个领域,语料内容丰富。因为MOOC课程是在自然场景下录制,所以在制作数据集时需对音频进行筛选,剔除吐字不清,噪音过大的音频,提升合成音频的质量。
步骤2)构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;
步骤3)利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;
步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换;
步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。
作为本发明的一种改进,所述步骤1的<音频,文本>预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应。
作为本发明的一种改进,所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力。Tacotron 2是序列到序列的特征预测网络是编码器-注意力-解码器的结构。Tacotron2的编码器由一个3层的卷积层和一个双向LSTM层组成。将进行了词嵌入操作后的字符序列送入编码器生成编码器隐状态,注意力RNN生成一个解码器隐状态,根据这两个隐状态计算注意力对齐,从而计算上下文向量。将卷积网络和上下文向量做拼接,送入LSTM,LSTM的输出再次和上下文向量拼接,送入线性投影层预测输出。最后,目标频谱帧送入5层卷积网络和卷积前的频谱帧进行残差叠加,得到梅尔谱。
作为本发明的一种改进,所述改进后的GMM注意力是一种基于位置的注意力机制,通过它生成一个解码器隐状态Si,作为注意力制的查询向量去生成解码i时刻,音素序列长度为j的对齐αi,j,根据对齐αi,j计算上下文向量ci。对齐αi,j具体方法如下:
μi=μi-1+Δi (2);
αi,j=softmax(α'i,j) (3);
作为本发明的一种改进,所述步骤3中采用多波段MelGAN作为声码器,得到合成音频。MelGAN是基于GAN的声码器,由生成器和判别器组成。将梅尔频谱输入生成器,经过一层卷积之后送入上采样层,将梅尔频谱的序列长度和波形的频率进行匹配。每次上采样之后都接入一个残差模块,最后经过一个卷积层输出音频。判别器由卷积层和下采样层组成,采用多尺度架构,不仅对原始音频进行判别,还对采用平均池化降频处理后的音频进行判别。为了解决MelGAN无法有效衡量真实和预测音频之间的差异,多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)。在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛Lsc和对数短时傅里叶变换的幅度值Lmag:
对于多尺度短时傅里叶变换目标函数,有M个不同分析参数的单个短时傅里叶变换损失,对这些变换损失取平均:
对于多波段MelGAN,同时在全带和各个子带尺度上应用多尺度短时傅里叶变换损失:
作为本发明的一种改进,所述步骤4中使用的语音合成系统,是将已经训练好的Tacotron2模型,通过嵌入层和编码器层的参数。将目标说话人的少量<音频,文本>对设置为训练集,继续用该模型进行训练。用训练好的模型合成目标说话人声音的语音。
作为本发明的一种改进,所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。全卷积输入文本编码器模型包含参数生成器和卷积编码器两个个部分。参数生成器实现了跨语言知识共享,为给定语言的卷积编码器的一层生成参数。卷积编码器使用全卷积的分组层,并用用批归一化的方式增强编码器,有效实现了多编码器的分批训练,缩短了训练的时间。
相对于现有技术,本发明具有如下优点:首先,本发明创新性地利用真实场景语音合成数据集进行语音合成,目前现有的大规模应用都是基于录音场景数据集的,稀缺基于真实场景语音数据集的语音合成方法。真实场景数据集易于获得,制作成本相对较低,声音的停顿自然,富有感情,使得合成的音频更加贴近真实说话场景,语调自然,感情充沛,为语音伪造和语音鉴伪技术提供了参考;另外,该方案利用相同的语音合成模型和声码器进行语音合成,说话人转换以及多语种语音合成的任务,在这3个功能上都取得了较为优良的效果,为用质量不够好的语料进行语音合成相关任务提供了方法参考,增强了模型的普适性,精简了语音合成系统的结构,为多功能语音合成的商业应用提供了思路,进一步推动语音合成模型的研究。
附图说明
图1为一种基于慕课语音数据集的语音合成方法构建系统结构图;
图2为全卷积输入文本编码器的结构图。
具体实施方式:
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术方案做进一步详细的说明。
本发明所提出的一种基于慕课语音数据集的语音合成方法的示意图如图1,图2所示。图1是本发明的系统结构图,主要由编码器,解码器和声码器三部分组成,其中左边小方框为编码器,右边大方框为解码器,“多波段MelGAN”为声码器。进行说话人转换任务时,需固定编码器部分的参数。图2是在进行多语种语音合成任务时,对编码器进行的改进,全卷积输入文本编码器的结构图,将参数生成器生成的参数给卷积编码器相应的一层,再将编码器的输出送入Tacotron2的解码器,实现多语种语音合成。
实施例:参见图1、图2,一种基于慕课语音数据集的语音合成方法,所述方法包括以下步骤:
实验环境:电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM),Windows10 64位操作系统。软件环境为TensorFlow1.14.0和pytorch1.3.0。
步骤1)对数据集的<音频,文本>对进行预处理;
步骤2)构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;
步骤3)利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;
步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换;
步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。
所述步骤1的<音频,文本>预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应。
所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力。Tacotron 2是序列到序列的特征预测网络是编码器-注意力-解码器的结构。Tacotron2的编码器由一个3层的卷积层和一个双向LSTM层组成。将进行了词嵌入操作后的字符序列送入编码器生成编码器隐状态,注意力RNN生成一个解码器隐状态,根据这两个隐状态计算注意力对齐,从而计算上下文向量。将卷积网络和上下文向量做拼接,送入LSTM,LSTM的输出再次和上下文向量拼接,送入线性投影层预测输出。最后,目标频谱帧送入5层卷积网络和卷积前的频谱帧进行残差叠加,得到梅尔谱。
所述改进后的GMM注意力是一种基于位置的注意力机制,通过它生成一个解码器隐状态Si,作为注意力制的查询向量去生成解码i时刻,音素序列长度为j的对齐αi,j,根据对齐αi,j计算上下文向量ci。对齐αi,j具体方法如下:
μi=μi-1+Δi (2);
αi,j=softmax(α'i,j) (3);
所述步骤3中采用多波段MelGAN作为声码器,得到合成音频。MelGAN是基于GAN的声码器,由生成器和判别器组成。将梅尔频谱输入生成器,经过一层卷积之后送入上采样层,将梅尔频谱的序列长度和波形的频率进行匹配。每次上采样之后都接入一个残差模块,最后经过一个卷积层输出音频。判别器由卷积层和下采样层组成,采用多尺度架构,不仅对原始音频进行判别,还对采用平均池化降频处理后的音频进行判别。为了解决MelGAN无法有效衡量真实和预测音频之间的差异,多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss)。在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛Lsc和对数短时傅里叶变换的幅度值Lmag。
所述步骤4中使用的语音合成系统,是将已经训练好的Tacotron2模型,通过嵌入层和编码器层的参数。将目标说话人的少量<音频,文本>对设置为训练集,继续用该模型进行训练。用训练好的模型合成目标说话人声音的语音。
所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。全卷积输入文本编码器模型包含参数生成器和卷积编码器两个部分。参数生成器实现了跨语言知识共享,为给定语言的卷积编码器的一层生成参数。卷积编码器使用全卷积的分组层,并用批归一化的方式增强编码器,有效实现了多编码器的分批训练,缩短了训练的时间。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
Claims (9)
1.一种基于慕课语音数据集的语音合成方法,其特征在于:所述方法包括以下步骤:
步骤1)对数据集的<音频,文本>对进行预处理;
步骤2)构建端到端的语音合成模型,利用注意力机制提取音频和文本的对齐关系,通过对齐关系生成上下文向量,从而生成梅尔频谱;
步骤3)利用梅尔频谱,通过基于生成对抗网络的声码器,合成最终音频;
步骤4)利用步骤2)的语音合成系统以及步骤3)的声码器进行说话人转换;
步骤5)利用步骤2)的语音合成模型以及步骤3)的声码器进行多语种语音合成。
2.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤1的<音频,文本>预处理是将音频处理为梅尔频谱,将文本进行转拼音并进行标注,使文本和音频一一对应。
3.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤2中所选择的语音合成模型是Tacotron2,注意力机制是改进后的GMM注意力。
5.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤3中采用多波段MelGAN作为声码器,得到合成音频。
6.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤4中使用的语音合成系统,需固定部分网络层的参数。
7.根据权利要求1所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤5中使用语音合成模型需在编码部分添加全卷积输入文本编码器模型。
8.根据权利要求7所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述全卷积输入文本编码器模型包含参数生成器和卷积编码器两个部分,参数生成器实现了跨语言知识共享,为给定语言的卷积编码器的一层生成参数,卷积编码器使用全卷积的分组层,并用批归一化的方式增强编码器,有效实现了多编码器的分批训练。
9.根据权利要求5所述的一种基于慕课语音数据集的语音合成方法,其特征在于:所述步骤3中,MelGAN是基于GAN的声码器,由生成器和判别器组成,将梅尔频谱输入生成器,经过一层卷积之后送入上采样层,将梅尔频谱的序列长度和波形的频率进行匹配,每次上采样之后都接入一个残差模块,最后经过一个卷积层输出音频,判别器由卷积层和下采样层组成,采用多尺度架构,不仅对原始音频进行判别,还对采用平均池化降频处理后的音频进行判别;为了解决MelGAN无法有效衡量真实和预测音频之间的差异,多波段MelGAN引入了多尺度短时傅里叶变换损失(multi-resolution STFT loss),在单个短时傅里叶变换损失中包含最小化真实音频和生成音频的谱收敛Lsc和对数短时傅里叶变换的幅度值Lmag:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781210.9A CN113539232B (zh) | 2021-07-10 | 2021-07-10 | 一种基于慕课语音数据集的语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781210.9A CN113539232B (zh) | 2021-07-10 | 2021-07-10 | 一种基于慕课语音数据集的语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539232A true CN113539232A (zh) | 2021-10-22 |
CN113539232B CN113539232B (zh) | 2024-05-14 |
Family
ID=78098338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110781210.9A Active CN113539232B (zh) | 2021-07-10 | 2021-07-10 | 一种基于慕课语音数据集的语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539232B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360559A (zh) * | 2021-12-17 | 2022-04-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN114596879A (zh) * | 2022-03-25 | 2022-06-07 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
CN114999447A (zh) * | 2022-07-20 | 2022-09-02 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及训练方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364632A (zh) * | 2017-12-22 | 2018-08-03 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
CN111552801A (zh) * | 2020-04-20 | 2020-08-18 | 大连理工大学 | 基于语义对齐的神经网络自动摘要模型 |
WO2020173134A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN112418409A (zh) * | 2020-12-14 | 2021-02-26 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112652291A (zh) * | 2020-12-15 | 2021-04-13 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
-
2021
- 2021-07-10 CN CN202110781210.9A patent/CN113539232B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364632A (zh) * | 2017-12-22 | 2018-08-03 | 东南大学 | 一种具备情感的中文文本人声合成方法 |
WO2020173134A1 (zh) * | 2019-02-27 | 2020-09-03 | 平安科技(深圳)有限公司 | 一种基于注意力机制的语音合成方法及装置 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN111552801A (zh) * | 2020-04-20 | 2020-08-18 | 大连理工大学 | 基于语义对齐的神经网络自动摘要模型 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112418409A (zh) * | 2020-12-14 | 2021-02-26 | 南京信息工程大学 | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 |
CN112652291A (zh) * | 2020-12-15 | 2021-04-13 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360559A (zh) * | 2021-12-17 | 2022-04-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN114596879A (zh) * | 2022-03-25 | 2022-06-07 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
CN114596879B (zh) * | 2022-03-25 | 2022-12-30 | 北京远鉴信息技术有限公司 | 一种虚假语音的检测方法、装置、电子设备及存储介质 |
CN114999447A (zh) * | 2022-07-20 | 2022-09-02 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及训练方法 |
CN114999447B (zh) * | 2022-07-20 | 2022-10-25 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及语音合成方法 |
US11817079B1 (en) | 2022-07-20 | 2023-11-14 | Nanjing Silicon Intelligence Technology Co., Ltd. | GAN-based speech synthesis model and training method |
Also Published As
Publication number | Publication date |
---|---|
CN113539232B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111276120B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN113539232B (zh) | 一种基于慕课语音数据集的语音合成方法 | |
Siuzdak et al. | WavThruVec: Latent speech representation as intermediate features for neural speech synthesis | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN113327580A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN112837669A (zh) | 语音合成方法、装置及服务器 | |
CN113450765A (zh) | 语音合成方法、装置、设备及存储介质 | |
Liu et al. | Multistage deep transfer learning for emIoT-enabled human–computer interaction | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
Xue et al. | Foundationtts: Text-to-speech for asr customization with generative language model | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
Choi et al. | Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN112242134A (zh) | 语音合成方法及装置 | |
CN115359778A (zh) | 基于说话人情感语音合成模型的对抗与元学习方法 | |
CN115359775A (zh) | 一种端到端的音色及情感迁移的中文语音克隆方法 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |