CN114724541A - 一种声音克隆的方法 - Google Patents
一种声音克隆的方法 Download PDFInfo
- Publication number
- CN114724541A CN114724541A CN202210414216.7A CN202210414216A CN114724541A CN 114724541 A CN114724541 A CN 114724541A CN 202210414216 A CN202210414216 A CN 202210414216A CN 114724541 A CN114724541 A CN 114724541A
- Authority
- CN
- China
- Prior art keywords
- speaker
- vector
- network
- text
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000010367 cloning Methods 0.000 title claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 93
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000002950 deficient Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种声音克隆的方法,涉及声音录制应用技术领域。本发明至少包括以下步骤:选择新型说话人编码器,通过语音转换系统进行提取,以达到在空间中连续分布、包含更准确的说话人特点的目的。本发明通过加入说话人编码器,可以大大降低对训练数据的需求量;其次,通过声音转换系统提取的说话人编码,具有空间连续分布的优点,在说话人之间没有明确的界限,包含了更多对于语音合成所需的说话人信息,让模型能良好的理解数据匮乏的说话人的特点;并且,通过将时长信息、基频信息、能量信息等说话人特点相关的模块进行独立表达,并与说话人编码相结合,可以更好的让模型学习到全面而准确的说话人发音特点。
Description
技术领域
本发明涉及声音录制应用技术领域,具体为一种声音克隆的方法。
背景技术
近年来,语音合成技术已经逐渐应用在各个场景中,比如智能机器人、车载导航、有声电子书、AI新闻播报、短视频配音等。但目前的语音合成服务中,通常都是由服务商提供少量的AI主播可供用户选择,这些AI主播都是基于大量录音数据进行制作的,只能满足用户对音色选择上最基本的使用需求,而用户的使用需求,越来越多的需要个性化的AI主播定制能力,一些商业客户需要克隆制作签约艺人的AI主播声音,一些大众用户需要将自己的声音进行克隆,用于自媒体的运营等主要存在的问题如下:
1、普通TTS系统中,都需要较大量的说话人音频数据,进行训练,数据收集难度大,耗时长
2、通过加入说话人查表向量的方式,编码形态相对单一,并且针对同一说话人的不同句子,其查表向量完全一样,导致其在空间分布中非常稀疏离散,难以让模型对数据量匮乏的,以及未在训练集中见过的说话人有良好的学习能力。
3、在类似tacotron+说话人查表向量的系统中,仅通过说话人查表向量来表征发音特点,是不充分的。模型是无法仅通过一组向量学习到充分的说话人发音特点。
4、在类似加入GST全局风格标记的语音合成系统中,GST没有将说话人的发音特点进行拆分,其编码后的向量信息混杂,难以准确表征目标特点。同时由于GST模块不具备独立损失函数,其在训练中只能通过整体损失函数优化,学习能力有一定局限性。
总结来说,不便于通过极少量的样本,良好的模仿目标说话人的音色、口音、声调、语气等多方面的特点。
发明内容
本发明的目的在于提供一种声音克隆的方法,以解决现有的问题:不便于通过极少量的样本,良好的模仿目标说话人的音色、口音、声调、语气等多方面的特点。
为实现上述目的,本发明提供如下技术方案:一种声音克隆的方法,至少包括以下步骤:
选择新型说话人编码器,通过语音转换系统进行提取,以达到在空间中连续分布、包含更准确的说话人特点的目的;
采用TTS语音合成系统框架,TTS系统采用编码器-解码器组合的神经网络架构,主体模块可分为文本编码器、说话人特征预测器、解码器、声码器四大部分;
在TTS合成框架中,增加特征预测器,从而获得高质量的合成和目标说话人音色、风格一致的高质量音频。
优选的,所述说话人编码器的操作过程至少包括以下步骤:
将说话人音频送入说话人编码网络,该编码网络为带有ReLU激活的卷积神经网络,得到说话人编码向量;
同时,将说话人音频送入音频内容编码网络,得到音频内容编码向量,该编码网络为带有实例归一化层的卷积神经网络,通过实例归一化层,可以很好的从音频内容编码网络中将说话人信息进行解耦,确保两个编码网络可以针对性提取出对应的特征信息;
将得到的说话人编码向量和音频内容编码向量送入解码网络,解码网络通过卷积神经网络和自适应实例归一化方法,从编码向量中还原出说话人音频;
利用训练好的音色转换系统,将说话人编码向量进行独立输出,用于后续的语音合成系统。
优选的,构成所述TTS语音合成系统框架过程中至少包括以下步骤:
a.TTS系统的输入为待合成的文本信息,本系统以音素,采用中文拼音及英文音标作为文本输入信息。
b.将音素信息送入文本编码器,文本编码器是由多头注意力机制和卷积神经网络组成,文本编码器将输出固定长度的文本编码向量,该向量表达了文本相关特征。
c.将从音色转换系统中得到的说话人编码向量,和文本编码向量相加,得到组合编码向量。
d.将组合编码向量送入说话人特征预测器,预测器将对说话人特征做更详细的预测分析,并输出更丰富的说话人特征和文本编码相加后的组合向量。
e.将组合向量送入解码器,和编码器类似,解码器由多头注意力机制和卷积神经网络组成,解码器将组合编码向量解码为音频梅尔特征,将音频梅尔特征送入声码器,声码器可以使用各类常见的声码器结构,包括但不限于melgan、hifigan、lpcnet等,声码器将最终输出合成音频,该音频具有和目标说话人一致的音色和说话风格。
优选的,所述特征预测器的使用流程至少包括以下步骤:
a.由文本编码向量和从声音转换系统中提取到的说话人编码向量相加,得到优化前的组合编码向量;
b.将组合编码向量输入到韵律预测网络,该网络由卷积神经网络和循环神经网络组成,输出为代表说话人说话韵律特征的编码向量;
C.将韵律特征向量和文本编码向量同时送入时长预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的每个音素的时长信息;
d.将时长信息和文本编码向量同时送入基频预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的基频特征向量;
e.将基频特征向量和文本编码向量同时送入能量预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的能量特征向量;
f.每一个预测网络的输出都将相加在一起,共同输出为优化之后的组合编码向量。
与现有技术相比,本发明的有益效果是:
1、本发明根据一句常规的录音,通过一种新型的说话人编码器,配合迁移学习、语音合成、语音对齐等一系列技术手段,制作出高相似度、高可懂度、高流畅度的AI主播模型,让大众用户可以方便快捷的创建自己的AI声音,用于音频内容生产、AI智能主力等场景;
2、本发明让TTS模型具备更好的发音特点学习能力,可以仅通过极少量的样本,良好的模仿目标说话人的音色、口音、声调、语气等多方面的特点;
3、本发明通过加入说话人编码器,可以大大降低对训练数据的需求量;其次,通过声音转换系统提取的说话人编码,具有空间连续分布的优点,在说话人之间没有明确的界限,包含了更多对于语音合成所需的说话人信息,让模型能良好的理解数据匮乏的说话人的特点;并且,通过将时长信息、基频信息、能量信息等说话人特点相关的模块进行独立表达,并与说话人编码相结合,可以更好的让模型学习到全面而准确的说话人发音特点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于音色转换系统的说话人编码器的示意图;
图2为本发明的TTS系统整体框架图;
图3为本发明的说话人特征预测器的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-3,一种声音克隆的方法,至少包括以下步骤:
选择新型说话人编码器,通过语音转换系统进行提取,以达到在空间中连续分布、包含更准确的说话人特点的目的;
采用TTS语音合成系统框架,TTS系统采用编码器-解码器组合的神经网络架构,主体模块可分为文本编码器、说话人特征预测器、解码器、声码器四大部分;
在TTS合成框架中,增加特征预测器,从而获得高质量的合成和目标说话人音色、风格一致的高质量音频。
如图1所示:所述说话人编码器的操作过程至少包括以下步骤:
a.将说话人音频送入说话人编码网络,该编码网络为带有ReLU激活的卷积神经网络,得到说话人编码向量;
b.同时,将说话人音频送入音频内容编码网络,得到音频内容编码向量,该编码网络为带有实例归一化层的卷积神经网络,通过实例归一化层,可以很好的从音频内容编码网络中将说话人信息进行解耦,确保两个编码网络可以针对性提取出对应的特征信息;
c.将得到的说话人编码向量和音频内容编码向量送入解码网络,解码网络通过卷积神经网络和自适应实例归一化方法,从编码向量中还原出说话人音频;
d.利用训练好的音色转换系统,将说话人编码向量进行独立输出,用于后续的语音合成系统。
如图2所示:构成所述TTS语音合成系统框架过程中至少包括以下步骤:
a.TTS系统的输入为待合成的文本信息,本系统以音素,采用中文拼音及英文音标作为文本输入信息;
b.将音素信息送入文本编码器,文本编码器是由多头注意力机制和卷积神经网络组成,文本编码器将输出固定长度的文本编码向量,该向量表达了文本相关特征;
c.将从音色转换系统中得到的说话人编码向量,和文本编码向量相加,得到组合编码向量;。
d.将组合编码向量送入说话人特征预测器,预测器将对说话人特征做更详细的预测分析,并输出更丰富的说话人特征和文本编码相加后的组合向量;
e.将组合向量送入解码器,和编码器类似,解码器由多头注意力机制和卷积神经网络组成,解码器将组合编码向量解码为音频梅尔特征,将音频梅尔特征送入声码器,声码器可以使用各类常见的声码器结构,包括但不限于melgan、hifigan、lpcnet等,声码器将最终输出合成音频,该音频具有和目标说话人一致的音色和说话风格。
如图3所示:所述特征预测器的使用流程至少包括以下步骤:
a.由文本编码向量和从声音转换系统中提取到的说话人编码向量相加,得到优化前的组合编码向量;
b.将组合编码向量输入到韵律预测网络,该网络由卷积神经网络和循环神经网络组成,输出为代表说话人说话韵律特征的编码向量;
C.将韵律特征向量和文本编码向量同时送入时长预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的每个音素的时长信息;
d.将时长信息和文本编码向量同时送入基频预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的基频特征向量;
e.将基频特征向量和文本编码向量同时送入能量预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的能量特征向量;
f.每一个预测网络的输出都将相加在一起,共同输出为优化之后的组合编码向量。
整体训练流程:
1.通过大规模多人数据,使用上述框架结构,训练基础模型。在这个过程中,因为训练集中包含大量不同的说话人,经过说话人编码器后,可以得到非常稠密的说话人特征空间分布,从而让基础模型对说话人编码有足够的普适性认知。
2.收集少量,最少可以只收集一句目标说话人的音频数据,可以再以下两种策略中选择一种:
a)使用上述框架结构,将基础模型在目标说话人数据上进行小量迭代加训,得到针对目标发音人的特定模型。
b)不进行迭代加训,直接将目标说话人通过说话人编码器,得到说话人编码向量后,进行语音合成。
以上两种方式中,a的稳定性和最终相似度会更好一些,但方案b可以省掉所有的训练环节,更加灵活便捷。
优化了常见的说话人编码器,通过引入声音转换系统,让说话人编码向量能够包含更准确、更丰富的说话人信息,提升了小样本学习中的效果。
通过说话人特征预测器,详细拆解了说话人发音特征的多个维度,从而强化了说话人信息在语音合成中的作用,让说话人特征能够更好的被学习和表达,提高了合成语音中的表达力。
可以只通过一句话克隆目标说话人的音色信息和发音特点,比现有产品技术更为高效。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (4)
1.一种声音克隆的方法,其特征在于:至少包括以下步骤:
选择新型说话人编码器,通过语音转换系统进行提取,以达到在空间中连续分布、包含更准确的说话人特点的目的;
采用TTS语音合成系统框架,TTS系统采用编码器-解码器组合的神经网络架构,主体模块可分为文本编码器、说话人特征预测器、解码器、声码器四大部分;
在TTS合成框架中,增加特征预测器,从而获得高质量的合成和目标说话人音色、风格一致的高质量音频。
2.根据权利要求1所述的一种声音克隆的方法,其特征在于:所述说话人编码器的操作过程至少包括以下步骤:
将说话人音频送入说话人编码网络,该编码网络为带有ReLU激活的卷积神经网络,得到说话人编码向量;
同时,将说话人音频送入音频内容编码网络,得到音频内容编码向量,该编码网络为带有实例归一化层的卷积神经网络,通过实例归一化层,可以很好的从音频内容编码网络中将说话人信息进行解耦,确保两个编码网络可以针对性提取出对应的特征信息;
将得到的说话人编码向量和音频内容编码向量送入解码网络,解码网络通过卷积神经网络和自适应实例归一化方法,从编码向量中还原出说话人音频;
利用训练好的音色转换系统,将说话人编码向量进行独立输出,用于后续的语音合成系统。
3.根据权利要求1所述的一种声音克隆的方法,其特征在于:构成所述TTS语音合成系统框架过程中至少包括以下步骤:
TTS系统的输入为待合成的文本信息,本系统以音素,采用中文拼音及英文音标作为文本输入信息;
将音素信息送入文本编码器,文本编码器是由多头注意力机制和卷积神经网络组成,文本编码器将输出固定长度的文本编码向量,该向量表达了文本相关特征;
将从音色转换系统中得到的说话人编码向量,和文本编码向量相加,得到组合编码向量;
将组合编码向量送入说话人特征预测器,预测器将对说话人特征做更详细的预测分析,并输出更丰富的说话人特征和文本编码相加后的组合向量;
将组合向量送入解码器,和编码器类似,解码器由多头注意力机制和卷积神经网络组成,解码器将组合编码向量解码为音频梅尔特征,将音频梅尔特征送入声码器,声码器可以使用各类常见的声码器结构,声码器将最终输出合成音频。
4.根据权利要求1所述的一种声音克隆的方法,其特征在于:所述特征预测器的使用流程至少包括以下步骤:
a.由文本编码向量和从声音转换系统中提取到的说话人编码向量相加,得到优化前的组合编码向量;
b.将组合编码向量输入到韵律预测网络,该网络由卷积神经网络和循环神经网络组成,输出为代表说话人说话韵律特征的编码向量
C.将韵律特征向量和文本编码向量同时送入时长预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的每个音素的时长信息;
d.将时长信息和文本编码向量同时送入基频预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的基频特征向量;
e.将基频特征向量和文本编码向量同时送入能量预测网络,该网络由卷积神经网络和层归一化模块组成,输出为符合当前合成文本的能量特征向量;
f.每一个预测网络的输出都将相加在一起,共同输出为优化之后的组合编码向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210414216.7A CN114724541A (zh) | 2022-04-20 | 2022-04-20 | 一种声音克隆的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210414216.7A CN114724541A (zh) | 2022-04-20 | 2022-04-20 | 一种声音克隆的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724541A true CN114724541A (zh) | 2022-07-08 |
Family
ID=82243847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210414216.7A Pending CN114724541A (zh) | 2022-04-20 | 2022-04-20 | 一种声音克隆的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724541A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012040A1 (en) * | 2022-07-15 | 2024-01-18 | Huawei Technologies Co., Ltd. | Method for speech generation and related device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112802448A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
CN113096640A (zh) * | 2021-03-08 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN114255735A (zh) * | 2021-12-08 | 2022-03-29 | 四川启睿克科技有限公司 | 语音合成方法及系统 |
-
2022
- 2022-04-20 CN CN202210414216.7A patent/CN114724541A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112802448A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
CN113096640A (zh) * | 2021-03-08 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN114255735A (zh) * | 2021-12-08 | 2022-03-29 | 四川启睿克科技有限公司 | 语音合成方法及系统 |
Non-Patent Citations (2)
Title |
---|
李德毅: "《中国科协新一代信息技术系列丛书人工智能导论》", 31 August 2018, 中国科学技术出版社, pages: 202 - 203 * |
陈非凡: "基于深度学习的语音克隆技术的研究与应用", 《中国优秀硕士学位论文全文数据库》, 15 February 2022 (2022-02-15), pages 19 - 24 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012040A1 (en) * | 2022-07-15 | 2024-01-18 | Huawei Technologies Co., Ltd. | Method for speech generation and related device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7483832B2 (en) | Method and system for customizing voice translation of text to speech | |
CN107516509B (zh) | 用于新闻播报语音合成的语音库构建方法及系统 | |
WO2021225829A1 (en) | Speech recognition using unspoken text and speech synthesis | |
CN101606190B (zh) | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN111210803B (zh) | 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
CN112037758A (zh) | 一种语音合成方法及装置 | |
Wang et al. | Computer-assisted audiovisual language learning | |
Liu et al. | Modeling prosodic phrasing with multi-task learning in tacotron-based TTS | |
Okamoto et al. | Transformer-based text-to-speech with weighted forced attention | |
CN113327627A (zh) | 一种基于特征解耦的多因素可控的语音转换方法及系统 | |
CN114842825A (zh) | 情感迁移语音合成方法及系统 | |
CN114724541A (zh) | 一种声音克隆的方法 | |
Gong et al. | Zmm-tts: Zero-shot multilingual and multispeaker speech synthesis conditioned on self-supervised discrete speech representations | |
Kang et al. | Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion | |
CN113851140A (zh) | 语音转换相关方法、系统及装置 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN112242134A (zh) | 语音合成方法及装置 | |
Nazir et al. | Deep learning end to end speech synthesis: A review | |
CN116092471A (zh) | 一种面向低资源条件下的多风格个性化藏语语音合成模型 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
CN114822490A (zh) | 语音拼接方法和语音拼接装置 | |
CN111128114B (zh) | 一种语音合成的方法及装置 | |
CN114267325A (zh) | 语音合成模型的训练方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |