CN117711374B - 一种视听一致个性化语音合成系统、合成方法及训练方法 - Google Patents
一种视听一致个性化语音合成系统、合成方法及训练方法 Download PDFInfo
- Publication number
- CN117711374B CN117711374B CN202410139479.0A CN202410139479A CN117711374B CN 117711374 B CN117711374 B CN 117711374B CN 202410139479 A CN202410139479 A CN 202410139479A CN 117711374 B CN117711374 B CN 117711374B
- Authority
- CN
- China
- Prior art keywords
- predicted
- phoneme
- training
- text
- predictor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 71
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 37
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001308 synthesis method Methods 0.000 title abstract description 9
- 239000013598 vector Substances 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 48
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明涉及个性化语音合成领域,尤其涉及一种视听一致个性化语音合成系统、合成方法及训练方法。本发明通过加入说话人的人脸图像进行语音合成,并将参考音频与人脸图像进行结合,使得合成的语音能兼具视觉模态信息和听觉模态信息,有效提高语音合成系统的个性化建模能力;同时采用两个阶段对语音合成系统进行训练,可以充分挖掘语音和人脸图像的特征,并提高模型的准确性和自然度。
Description
技术领域
本发明涉及个性化语音合成领域,尤其涉及一种视听一致个性化语音合成系统、合成方法及训练方法。
背景技术
随着人工智能技术的迅速发展,不断改变人与机器互动的方式,其中,语音合成在于通过合成类人、自然的音频叙述,这使得机器开口成为可能。同时,随着语音合成技术的发展,深度学习和神经网络不断应用在语音合成技术中,使得语音合成技术在自然度和可理解性基本达到应用标准。目前,合成语音在个性化表达方面还无法满足应用需求,在音色选择上不够丰富,无法合成不同特定的说话人身份特征和情感状态的语音。
发明内容
本发明的目的在于提供一种视听一致个性化语音合成系统、合成方法及训练方法,通过深入挖掘语音与说话人视觉特征的相关性,实现视听一致性约束,构建说话人表征,以此生成具有视听一致的较高质量的个性化语音。
为达到上述目的,本发明采用如下技术方案:一种视听一致个性化语音合成系统,包括个性化语音生成模型和声码器,所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器;所述文本编码器用于将给定的音素编码为音素隐藏表示;所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量;所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量;所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示;所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值;所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图;所述声码器用于将梅尔谱图生成输出语音。
具体的,个性化语音生成模型还包括文本对齐器和音高提取器;文本对齐器用于根据给定的音素和梅尔谱图生成注意力对齐;所述音高提取器用于从给定的梅尔谱图中提取音高和能量值,所述文本对齐器和音高提取器用于对解码器进行训练。
进一步的,还包括有鉴别器,所述鉴别器用于对解码器进行辅助训练。
一种视听一致个性化语音合成方法,包括如下步骤:
S01、输入文本、说话人的参考音频和说话人的人脸图像,并将输入文本通过音素
转换得到输入音素,将说话人的参考音频转换为参考梅尔谱图。
S02、将输入音素输入到文本编码器得到音素隐藏表示;将参考梅尔谱图输
入到风格编码器得到音频风格向量;将人脸图像输入到人脸编码器得到人脸风格向量。
S03、将音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量。
S04、将步骤S02中的音素隐藏表示和风格向量输入到持续时间预测器,得到
预测的音素隐藏表示和预测的注意力对齐,并以此生成预测的对齐音素隐藏表
示。
S05、将预测的音素隐藏表示和预测的注意力对齐以及风格向量输
入到韵律预测器得到预测音高和预测能量值。
S06、将预测的对齐音素隐藏表示、增强后视听一体的风格向量、预
测音高和预测能量值输入到解码器输出得到经过持续时间预测和韵律预测后
的梅尔谱图;并将该梅尔谱图输入到声码器中生成
合成语音。
一种视听一致个性化语音合成系统的训练方法,包括如下步骤:
S11、第一阶段:利用如下训练函数对解码器的重构函数进行训练:,其中,为音素经过文本编码器后得到的音
素隐藏表示,为音素和梅尔谱图经过文本对齐器后得到的注意力对齐,为
利用音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量,其中音频风格向
量为将梅尔谱图输入到风格编码器后得到,人脸风格向量为将人脸图像输入到人脸编
码器后得到。
S12、同时利用如下训练函数对文本对齐器进行训练:①;
②,其中,为交叉熵损失函数,为音素中的第i个音素标
记,为文本对齐器输出的第i个预测的音素标记,T为音素中音素的数量,为文本对
齐器输入的注意力对齐,为通过动态规划算法获得的单调硬对齐。
S22、第二阶段:利用如下训练函数对持续时间预测器进行训练:,其中,为真实持续时间,为持续时间预测器输出的预测持续时
间。
S22、利用如下训练函数对韵律预测器进行训练:①,②,其中,为
梅尔谱图的真实音高,为的注意力对齐,为的能量值,为韵律预测器输出
的预测音高,为韵律预测器输出的预测能量值。
S23、利用如下训练函数再次对解码器的重构函数进行训
练:,其中,为增强的梅尔谱图,为为韵律预测器输
出的预测音高,为韵律预测器输出的预测能量值。
具体的,所述第一阶段训练还包括如下步骤:
S13、增加鉴别器并利用如下训练函数对对解码器的重构函数进行训练:①,②,其中,为鉴别
器的处理函数,其具有T层输出特征,为中具有个特征的第i层的输出特征图;
为给定梅尔谱图,为经过解码器重构函数后的梅尔谱图,即,。
具体的,所述第一阶段训练的整体函数使用超参数,第一阶
段训练的整体函数为:。
具体的,第二阶段训练的整体函数使用超参数,第二阶段训练的整体
函数为:。
本发明的有益效果在于:通过加入说话人的人脸图像进行语音合成,并将参考音频与人脸图像进行结合,使得合成的语音能兼具视觉模态信息和听觉模态信息,有效提高语音合成系统的个性化建模能力;同时采用两个阶段对语音合成系统进行训练,可以充分挖掘语音和人脸图像的特征,并提高模型的准确性和自然度。
附图说明
附图1为实施例中个性化语音合成系统及合成方法的原理图。
具体实施方式
实施例1,参照图1,一种视听一致个性化语音合成系统,包括个性化语音生成模型和声码器,所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器;所述文本编码器用于将给定的音素编码为音素隐藏表示;所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量;所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量;所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示;所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值;所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图;所述声码器用于将梅尔谱图生成输出语音。
具体的,个性化语音生成模型还包括文本对齐器和音高提取器;文本对齐器用于根据给定的音素和梅尔谱图生成注意力对齐;所述音高提取器用于从给定的梅尔谱图中提取音高和能量值,所述文本对齐器和音高提取器用于对解码器进行训练。
进一步的,还包括有鉴别器,所述鉴别器用于对解码器进行辅助训练。
一种视听一致个性化语音合成方法,包括如下步骤:
S01、输入文本、说话人的参考音频和说话人的人脸图像,并将输入文本通过音素
转换得到输入音素,将说话人的参考音频转换为参考梅尔谱图。
S02、将输入音素输入到文本编码器得到音素隐藏表示;将参考梅尔谱图输
入到风格编码器得到音频风格向量;将人脸图像输入到人脸编码器得到人脸风格向量。
S03、将音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量。
S04、将步骤S02中的音素隐藏表示和风格向量输入到持续时间预测器,得到
预测的音素隐藏表示和预测的注意力对齐,并以此生成预测的对齐音素隐藏表
示。
S05、将预测的音素隐藏表示和预测的注意力对齐以及风格向量输
入到韵律预测器得到预测音高和预测能量值。
S06、将预测的对齐音素隐藏表示、增强后视听一体的风格向量、预
测音高和预测能量值输入到解码器输出得到经过持续时间预测和韵律预测后
的梅尔谱图;并将该梅尔谱图输入到声码器中生成
合成语音。
一种视听一致个性化语音合成系统的训练方法,包括如下步骤:
S11、第一阶段:利用如下训练函数对解码器的重构函数进行训练:,其中,为音素经过文本编码器后得到的音
素隐藏表示,为音素和梅尔谱图经过文本对齐器后得到的注意力对齐,为
利用音频风格向量和人脸风格向量进行叠加得到视听一体的风格向量,其中音频风格向
量为将梅尔谱图输入到风格编码器后得到,人脸风格向量为将人脸图像输入到人脸编
码器后得到。
S12、同时利用如下训练函数对文本对齐器进行训练:①;
②,其中,为交叉熵损失函数,为音素中的第i个音素标
记,为文本对齐器输出的第i个预测的音素标记,T为音素中音素的数量,为文本对
齐器输入的注意力对齐,为通过动态规划算法获得的单调硬对齐。
S22、第二阶段:利用如下训练函数对持续时间预测器进行训练:,其中,为真实持续时间,为持续时间预测器输出的预测持续时
间。
S22、利用如下训练函数对韵律预测器进行训练:①,②,其中,为
梅尔谱图的真实音高,为的注意力对齐,为的能量值,为韵律预测器输出
的预测音高,为韵律预测器输出的预测能量值。
S23、利用如下训练函数再次对解码器的重构函数进行训
练:,其中,为增强的梅尔谱图,为为韵律预测器输
出的预测音高,为韵律预测器输出的预测能量值。
具体的,所述第一阶段训练还包括如下步骤:
S13、增加鉴别器并利用如下训练函数对对解码器的重构函数进行训练:①,②,其中,为鉴别
器的处理函数,其具有T层输出特征,为中具有个特征的第i层的输出特征图;
为给定梅尔谱图,为经过解码器重构函数后的梅尔谱图,即,。
具体的,所述第一阶段训练的整体函数使用超参数,第一阶
段训练的整体函数为:。
具体的,第二阶段训练的整体函数使用超参数,第二阶段训练的整体
函数为:。
另外,本实施例还对上述语音合成系统、合成方法及训练方法进行实验,具体如下:实验使用PyTorch深度学习框架进行开发与运行,运行在Windows11系统上,硬件支持包括NVIDIA RTX 4070Ti加速。实验使用希尔贝壳中文普通话语音数据库 AISHELL-3,一个大规模、高保真多说话人普通话语音语料库,可用于训练多说话人文本到语音系统。该语料库包含大约85小时的情感中性录音,录制过程在安静室内环境中,使用高保真麦克风(44.1kHz,16bit)。文字内容的话题涉及智能家居语音指令、新闻报道、地理信息等广泛领域,由 218 名以中国普通话为母语的人所说,总共 88035 条话语。他们的辅助属性,如性别、年龄组和本地口音在语料库中被明确标记和提供。同时,汉字级别和拼音级别的文本与录音一起提供。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此语料库音字准确率在98%以上。由于语音数据库 AISHELL-3不包含说话人人脸图像,故本发明在实验时根据AISHELL-3中说话人的性别、年龄属性标签,通过自动匹配和人工校准的方式,为其匹配了相应的人脸图像。
训练集和验证集数据的划分是根据说话人身份随机生成的。在218名说话人中,随机抽取出44名作为训练中未见过的说话人,其余174名说话人用于训练本实施例的语音合成系统。但是,并非训练集中说话人的所有样本都用于模型训练,其中一部分语音被抽取出加入测试集,以验证模型对于训练过的说话人的语音合成效果,所以训练集包含64773条话语,时长约60小时。随机抽取出的44名说话人的全部语音,和训练集中174名说话人的部分语音,构成了验证集。
为了验证本实施例的语音合成系统的改进效果,本发明将StyleTTS模型和FastSpeech2模型分别在AISHELL3数据集上训练,并对不同模型合成的语音进行MOS得分对比。从AISHELL3数据集中随机挑选出5个说话人,进行2次语音合成,共生成10句语音,然后由20名语音信号处理领域的专业人员对这些句子进行评分,并计算MOS得分对合成语音进行客观实验评估,对比结果如下表所示:
模型 | MOS值(95%置信区间) |
AVSyncTTS | 4.591 ± 0.238 |
Styletts | 4.369 ± 0.223 |
FastSpeech2 | 3.303 ± 0.603 |
其中,AVSyncTTS为本实施例的语音合成系统,由此可以看出,本实施例的MOS均分得分高于另外两个常用的模型。
同时,为了验证人脸编码模块的有效性,还设计了两组消融实验,分别是去除人脸图像编码模块实验和个性化编码融合方式实验,实验结果如下表所示:
模型 | MOS值(95%置信区间) |
AVSyncTTS | 4.591 ± 0.238 |
AVSyncTTS w/o image | 4.369 ± 0.223 |
AVSyncTTS w concat | 4.407 ± 0.314 |
其中,AVSyncTTS为本实施例完整的语音合成系统,AVSyncTTS w/o image模型表示AVSyncTTS去除人脸编码模块后在AISHELL3上训练得到的模型,AVSyncTTS w concat模型表示AVSyncTTS模型个性化编码模块中语音的风格向量与人脸图像编码向量的融合方式使用拼接,代替原模型中相加的方法。由此可以看出,无论是去除人脸编码还是改变人脸编码向量与语音的风格向量的结合方式,比起本实施例,MOS得分均分都有所降低。
当然,以上仅为本发明较佳实施方式,并非以此限定本发明的使用范围,故,凡是在本发明原理上做等效改变均应包含在本发明的保护范围内。
Claims (8)
1.一种视听一致的个性化语音合成系统,其特征在于:包括个性化语音生成模型和声码器,所述个性化语音生成模型包括文本编码器、风格编码器、人脸编码器、持续时间预测器、韵律预测器和解码器;所述文本编码器用于将给定的音素编码为音素隐藏表示;所述风格编码器用于将给定的梅尔谱图进行编码得到其音频风格向量;所述人脸编码器用于将给定的人脸图像进行编码得到人脸风格向量;所述持续时间预测器用于从给定的音素隐藏表示和风格向量得到预测的音素隐藏表示和预测的注意力对齐以及对齐音素隐藏表示;所述韵律预测器用于根据预测的音素隐藏表示和预测的注意力对齐以及风格向量得到预测音高和预测能量值;所述解码器用于将对齐音素隐藏表示、风格向量、音高和能量值进行重建得到新的梅尔谱图;所述声码器用于将梅尔谱图生成输出语音;其中,持续时间预测器的训练函数为其中,a为真实持续时间,apred为持续时间预测器输出的预测持续时间;韵律预测器的训练函数为/> 其中,p为梅尔谱图x的真实音高,dalign为x的注意力对齐,||x||为x的能量值,Pp()为韵律预测器输出的预测音高,Pn()为韵律预测器输出的预测能量值。
2.根据权利要求1所述的一种视听一致的个性化语音合成系统,其特征在于:所述个性化语音生成模型还包括文本对齐器和音高提取器;文本对齐器用于对齐给定的音素和梅尔谱图生成注意力对齐;所述音高提取器用于从给定的梅尔谱图中提取音高和能量值,所述文本对齐器和音高提取器用于对解码器进行训练。
3.根据权利要求1所述的一种视听一致个性化语音合成系统,其特征在于:还包括有鉴别器,所述鉴别器用于对解码器进行辅助训练。
4.一种利用如权利要求1-3任一项所述的视听一致个性化语音合成系统进行的个性化语音合成方法,其特征在于,包括如下步骤:
S01、输入文本、说话人的参考音频和说话人的人脸图像,并将输入文本通过音素转换得到输入音素,将说话人的参考音频转换为参考梅尔谱图x;
S02、将输入音素输入到文本编码器得到音素隐藏表示htext;将参考梅尔谱图x输入到风格编码器得到音频风格向量s;将人脸图像输入到人脸编码器得到人脸风格向量a;
S03、将音频风格向量s和人脸风格向量a进行叠加得到视听一体的风格向量s′=s+a;
S04、将步骤S02中的音素隐藏表示htext和风格向量s′输入到持续时间预测器,得到预测的音素隐藏表示hprosody和预测的注意力对齐dpred,并以此生成预测的对齐音素隐藏表示hprosody·dpred
S05、将预测的音素隐藏表示hprosody和预测的注意力对齐dpred以及风格向量s′输入到韵律预测器得到预测音高ppred和预测能量值||x||pred;
S06、将预测的对齐音素隐藏表示hprosody·dpred、增强后视听一体的风格向量s′、预测音高ppred和预测能量值||x||pred输入到解码器输出得到经过持续时间预测和韵律预测后的梅尔谱图x′=G(hprosody·dpred,s',ppred,||x||pred);并将该梅尔谱图x'输入到声码器中生成合成语音。
5.一种如权利要求3所述的视听一致个性化语音合成系统的训练方法,其特征在于,包括如下步骤:
S11、第一阶段:利用如下训练函数对解码器的重构函数G进行训练:其中,htext为音素t经过文本编码器后得到的音素隐藏表示,dalign为音素t和梅尔谱图x经过文本对齐器后得到的注意力对齐,s'=s+a为利用音频风格向量s和人脸风格向量a进行叠加得到视听一体的风格向量,其中音频风格向量s为将梅尔谱图x输入到风格编码器后得到,人脸风格向量a为将人脸图像输入到人脸编码器后得到;
S12、同时利用如下训练函数对文本对齐器进行训练: 其中,CE()为交叉熵损失函数,ti为音素t中的第i个音素标记,/>为文本对齐器输出的第i个预测的音素标记,T为音素t中音素的数量,dalign为文本对齐器输入的注意力对齐,dhard为通过动态规划算法获得的单调硬对齐;
S21、第二阶段:利用如下训练函数对持续时间预测器进行训练:其中,a为真实持续时间,apred为持续时间预测器输出的预测持续时间;
S22、利用如下训练函数对韵律预测器进行训练: dalign)||1],其中,p为梅尔谱图x的真实音高,dalign为x的注意力对齐,||x||为x的能量值,Pp()为韵律预测器输出的预测音高,Pn()为韵律预测器输出的预测能量值;
S23、利用如下训练函数再次对解码器的重构函数G(htext·dalign,s,px,||x||)进行训练:其中,x为增强的梅尔谱图,/>为韵律预测器输出的预测音高,/>为韵律预测器输出的预测能量值。
6.根据权利要求5所述的一种个性化语音合成系统的训练方法,其特征在于,所述第一阶段训练还包括如下步骤:
S13、增加鉴别器并利用如下训练函数对解码器的重构函数G进行训练: 其中,D()为鉴别器的处理函数,其具有T层输出特征,Di()为D()中具有Ni个特征的第i层的输出特征图;x为给定梅尔谱图,/>为经过解码器重构函数后的梅尔谱图,即,/>
7.根据权利要求6所述的一种个性化语音合成系统的训练方法,其特征在于:所述第一阶段训练的整体函数使用超参数λs2s,λmono,λadv,λfm,第一阶段训练的整体函数为:
8.根据权利要求5所述的一种个性化语音合成系统的训练方法,其特征在于:所述第二阶段训练的整体函数使用超参数λdur,λf0,λn,第二阶段训练的整体函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410139479.0A CN117711374B (zh) | 2024-02-01 | 2024-02-01 | 一种视听一致个性化语音合成系统、合成方法及训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410139479.0A CN117711374B (zh) | 2024-02-01 | 2024-02-01 | 一种视听一致个性化语音合成系统、合成方法及训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117711374A CN117711374A (zh) | 2024-03-15 |
CN117711374B true CN117711374B (zh) | 2024-05-10 |
Family
ID=90162714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410139479.0A Active CN117711374B (zh) | 2024-02-01 | 2024-02-01 | 一种视听一致个性化语音合成系统、合成方法及训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117711374B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476269A (zh) * | 2020-03-04 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 均衡样本集构建、翻拍图像识别方法、装置、设备及介质 |
CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
CN115547293A (zh) * | 2022-09-27 | 2022-12-30 | 杭州电子科技大学 | 一种基于分层韵律预测的多语言语音合成方法及系统 |
CN115910026A (zh) * | 2023-02-02 | 2023-04-04 | 澳克多普有限公司 | 一种韵律迁移语音合成方法和系统 |
CN116229932A (zh) * | 2022-12-08 | 2023-06-06 | 维音数码(上海)有限公司 | 一种基于跨域一致性损失的语音克隆方法及系统 |
CN116312476A (zh) * | 2023-02-27 | 2023-06-23 | 京东科技信息技术有限公司 | 语音合成方法和装置、存储介质、电子设备 |
CN116580691A (zh) * | 2023-05-31 | 2023-08-11 | 平安科技(深圳)有限公司 | 语音合成方法、语音合成装置、电子设备及存储介质 |
-
2024
- 2024-02-01 CN CN202410139479.0A patent/CN117711374B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476269A (zh) * | 2020-03-04 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 均衡样本集构建、翻拍图像识别方法、装置、设备及介质 |
CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
CN115547293A (zh) * | 2022-09-27 | 2022-12-30 | 杭州电子科技大学 | 一种基于分层韵律预测的多语言语音合成方法及系统 |
CN116229932A (zh) * | 2022-12-08 | 2023-06-06 | 维音数码(上海)有限公司 | 一种基于跨域一致性损失的语音克隆方法及系统 |
CN115910026A (zh) * | 2023-02-02 | 2023-04-04 | 澳克多普有限公司 | 一种韵律迁移语音合成方法和系统 |
CN116312476A (zh) * | 2023-02-27 | 2023-06-23 | 京东科技信息技术有限公司 | 语音合成方法和装置、存储介质、电子设备 |
CN116580691A (zh) * | 2023-05-31 | 2023-08-11 | 平安科技(深圳)有限公司 | 语音合成方法、语音合成装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117711374A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
Zhang et al. | Transfer learning from speech synthesis to voice conversion with non-parallel training data | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
Zhao et al. | Using phonetic posteriorgram based frame pairing for segmental accent conversion | |
CN112489629A (zh) | 语音转写模型、方法、介质及电子设备 | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
CN115762466A (zh) | 一种合成不同情感音频的方法和装置 | |
CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
Zhang et al. | AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents | |
Tamaru et al. | Generative moment matching network-based random modulation post-filter for DNN-based singing voice synthesis and neural double-tracking | |
Delić et al. | Rapid development of new TTS voices by neural network adaptation | |
Liu et al. | Controllable accented text-to-speech synthesis | |
CN117711374B (zh) | 一种视听一致个性化语音合成系统、合成方法及训练方法 | |
Chung et al. | On-the-fly data augmentation for text-to-speech style transfer | |
Yadav et al. | Generation of emotional speech by prosody imposition on sentence, word and syllable level fragments of neutral speech | |
Othmane et al. | Enhancement of esophageal speech using voice conversion techniques | |
Nazir et al. | Deep learning end to end speech synthesis: A review | |
Petrushin et al. | Whispered speech prosody modeling for TTS synthesis | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
Liu et al. | Controllable Accented Text-to-Speech Synthesis With Fine and Coarse-Grained Intensity Rendering | |
Matsumoto et al. | Speech-like emotional sound generator by WaveNet | |
Nthite et al. | End-to-End Text-To-Speech synthesis for under resourced South African languages | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |