CN112992162A - 一种音色克隆方法、系统、装置及计算机可读存储介质 - Google Patents

一种音色克隆方法、系统、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112992162A
CN112992162A CN202110408975.8A CN202110408975A CN112992162A CN 112992162 A CN112992162 A CN 112992162A CN 202110408975 A CN202110408975 A CN 202110408975A CN 112992162 A CN112992162 A CN 112992162A
Authority
CN
China
Prior art keywords
speaker
network
training
coding
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110408975.8A
Other languages
English (en)
Other versions
CN112992162B (zh
Inventor
黄一鸣
李一夫
陈哲乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN202110408975.8A priority Critical patent/CN112992162B/zh
Publication of CN112992162A publication Critical patent/CN112992162A/zh
Application granted granted Critical
Publication of CN112992162B publication Critical patent/CN112992162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种音色克隆方法、系统、装置及计算机可读存储介质,方法包括以下步骤:制作多说话人数据集并处理;训练对齐模型;制作目标说话人数据集并处理;训练多说话人语音合成模型;训练多说话人声码器模型;获取具有目标说话人音色的目标人语音合成模型;将待合成文本输入至目标人语音合成模型完成语音合成。本发明的有益效果是:目标说话人的风格和音色能够被更好的学习;可以通过指定韵律标签的方式来指定韵律节奏;使用时长预测模型来进行发音序列与频谱序列的对齐,加快语音生成的推理速度;在解码阶段添加音高和能量的预测和编码,目标人语音合成模型添加了音高和能量的预测与编码,有效的提高语音合成的效果。

Description

一种音色克隆方法、系统、装置及计算机可读存储介质
技术领域
本发明属于语音合成领域,尤其涉及一种音色克隆方法、系统、装置及计算机可读存储介质。
背景技术
传统的语音合成方法需要在专业录音设备和环境中采集大量的语音合成数据,才可以得到具有语音合成的能力,数据整体制作时间周期长,数据采集成本高。目前还存在一种录制少量语音合成数据,通过音色克隆的方法进行语音合成的方式,但该方式对目标说话人的音色还原效果差,且对不同的目标说话人均需要训练专门的声纹模型,整个计算和部署流程繁琐,需要大量的成本投入。
发明内容
本发明主要解决了传统的语音方法需要大量采集语音数据或是合成的语音与目标说话人音色差别过大,过程繁琐的问题,提供了一种利用多说话人数据集训练得到多说话人语音合成模型,再利用目标说话人数据集对多说话人语音合成模型进行微调训练得到具备目标说话人音色的目标人语音合成模型,只需采集少量目标人语音数据,目标人语音合成快速,所需成本投入较低的一种音色克隆方法、系统、装置及计算机可读存储介质。
本发明解决其技术问题所采用的技术方案是,一种音色克隆方法,包括以下步骤:
S1:制作多说话人数据集并处理;
S2:利用多说话人数据集训练对齐模型;
S3:制作目标说话人数据集并处理;
S4:利用多说话人数据集训练多说话人声码器模型;
S5:利用多说话人数据集训练多说话人语音合成模型;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;
S7:将待合成文本输入至目标人语音合成模型进行语音合成任务。
利用多说话人数据集进行多说话人语音合成模型的训练,使得多说话人语音合成模型中包含多中音色,在获得目标说话人数据集后,生成的目标人语音合成模型能够更好的学习说话人的风格和音色。
作为上述方案的一种优选方案,所述S1包括以下步骤:
S11:制作录音文本;
S12:选择多个录音人在标准录音环境下根据录音文本进行录音;
S13:基于录音和录音文本进行发音一致性校对,人工标注发音序列,添加韵律标签;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量特征,并对发音序列进行编码。
录音文本从公开文本中筛选得到,包含全部音节及大部分双音节和三音节词汇,覆盖90%以上的汉语常见韵律段,确保训练出来的多说话人语音合成模型能够覆盖绝大多数的音节和韵律;通过提取音高特征和能量特征提高语音合成效果。
作为上述方案的一种优选方案,所述步骤S3包括以下步骤:
S31:录取目标说话人朗读指定文本的音频以及文本对应的人工标注发音序列与韵律标签;
S32:提取音频的梅尔频谱特征、音高特征和能量特征。
S33:使用对齐模型获取发音序列的时长信息。
通过提取音高特征和能量特征提高语音合成效果。
作为上述方案的一种优选方案,所述多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。
作为上述方案的一种优选方案,所述多说话人声码器模型为MultiBandMelgan声码器。
作为上述方案的一种优选方案,所述步骤S4中,对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在Skip Encoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高特征和能量特征,预测得到的音高特征和能量特征由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
在编码时添加韵律信息,让Skip Encoder跳跃编码网络学习到韵律标签对于发音行为的影响,实现通过指定韵律标签的方式来指定韵律节奏;在解码时添加音高和能量的预测和编码,提高语音合成的效果。
作为上述方案的一种优选方案,所述步骤S6中,对多说话人语音合成模型进行finetune微调训练,训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。
通过finetune微调训练对人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络等直接影响音色变化的网络进行训练,使得通过学习目标说话人数据集,使得目标说话人编码信息与其音色对应,最终得到具有目标说话人音色信息的神经网络结构。
对应的,本发明还提供一种音色克隆系统,包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
对应的,本发明还提供一种音色克隆装置,包括:处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时所述处理器执行上述优选方案任一项所述的方法。
对应的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述优选方案任一项所述的方法。
本发明的有益效果是:使用多说话人数据集进行语音合成模型的训练,包含多种音色,通过 finetune 微调训练,目标说话人的风格和音色能够被更好的学习;在编码阶段添加韵律信息,让 Skip Encoder 跳跃编码器学习到韵律标签对于发音行为的影响,从而在使用阶段可以通过指定韵律标签的方式来指定韵律节奏;使用时长预测模型来进行发音序列与频谱序列的对齐,加快语音生成的推理速度;在解码阶段添加音高和能量的预测和编码,目标人语音合成模型添加了音高和能量的预测与编码,将其作为一个单独的预测模块,有效的提高语音合成的效果。
附图说明
图1为实施例中音色克隆方法的一种流程示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步的说明。
实施例:
本实施例一种音色克隆方法,如图1所示:包括以下步骤:
S1:制作多说话人数据集并处理,具体包括以下步骤:
S11:制作录音文本,录音文本从网络公开文本中筛选得到,要求文本包含《新华字典》中的全部音节,覆盖汉语中 90%以上的双音节与三音节词汇,覆盖90%以上的汉语常见韵律段;
S12:选择多个录音人朗读录音文本并录音;在录音时需在专业录音环境下进行,录取的音频应为48kHz;
S13:基于录音和录音文本进行发音序列一致性校对,由人工进行发音序列与音频的一致性;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量特征,并对发音序列进行编码。进行梅尔频谱特征提取时,令
Figure 981652DEST_PATH_IMAGE001
其中,
Figure 625123DEST_PATH_IMAGE002
为长度为
Figure 960290DEST_PATH_IMAGE003
的音频序列,
Figure 761980DEST_PATH_IMAGE004
以浮点数的形式在计算机中进行存储。通过短时傅里叶变换
Figure 840795DEST_PATH_IMAGE005
将原时序序列,转成频域序列,得到其线性频谱
Figure 338772DEST_PATH_IMAGE006
将计算得到的线性谱通过梅尔滤波器
Figure 907157DEST_PATH_IMAGE007
,得到音频序列
Figure 857795DEST_PATH_IMAGE002
对应的梅尔频谱
Figure 818929DEST_PATH_IMAGE008
Figure 171413DEST_PATH_IMAGE009
进行能量特征提取时,将梅尔频谱
Figure 927011DEST_PATH_IMAGE008
的对每一帧求平方和,计算得到能量
Figure 364945DEST_PATH_IMAGE010
Figure 785562DEST_PATH_IMAGE011
为梅尔滤波器中滤波器的个数。
Figure 54870DEST_PATH_IMAGE012
进行音高特征提取时,使用公开算法
Figure 168319DEST_PATH_IMAGE013
算法提取音频中的f0信息。
Figure 93550DEST_PATH_IMAGE014
Figure 396486DEST_PATH_IMAGE015
转换成音高
Figure 457983DEST_PATH_IMAGE016
Figure 742334DEST_PATH_IMAGE017
S2:利用多说话人数据集,使用开源工具 Montreal-forced-aligner训练对齐模型,使用对齐模型,提取多说话人数据集中发音序列对应的发音时长信息。
S3:制作目标说话人数据集并处理,具体包括以下步骤:
S31:录取目标说话人朗读指定文本的音频;录制时,目标说话人在安静环境下,阅读 10 句指定文本,使用手机录制 16kHz 采样率音频;
S32:手工标注文本的发音序列和韵律标签,利用开源工具 Montreal-forced-aligner 加载训练好的对齐模型, 对发音序列的发音时长进行提取,得到与音频对应的对齐信息;提取音频的梅尔频谱特征, 音高特征,能量特征。
S4:利用多说话人数据集训练多说话人语音合成模型,多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在Skip Encoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高特征和能量特征,预测得到的音高特征和能量特征由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
S5:利用多说话人数据集训练多说话人声码器模型,多说话人声码器模型为MultiBandMelgan声码器;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;该步骤采用finetune微调训练, 训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。其中,音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、能量编码网络和音高编码网络为信息编码网络,不参与finetune微调训练,使用多说话人数据集训练得到的参数信息,可保持整体发音效果的稳定性,不会因为目标说话人的小数据样本,导致整体的效果出现较大的波动,过度拟合。Duration时长预测网络直接影响说话人的风格,由于小样本的说话人风格存在较大波动,网络难以学习,所以这部分不参与finetune微调过程,在推理合成阶段,可借助其他在多说话人数据集中的风格特征,或使用默认风格特征。LengthRegulator对齐网络不涉及带梯度的参数,不参与训练过程。说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络直接影响音色的效果变化,这些网络通过学习目标说话人数据集,使得目标说话人编码信息与其音色对于,最终得到具有目标说话人音色信息的神经网络结构
S7:将待合成文本输入至目标人语音合成模型完成语音合成。
对应的本实施例还提供一种音色克隆系统,包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
本实施例还提供一种音色克隆装置,包括但不限于处理器以及存储计算机可执行指令的存储器,计算机可执行指令在被执行时所述处理器执行本实施例中音色克隆方法。
本实施例还提供一种,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-7任一项所述的方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种音色克隆方法,其特征是:包括以下步骤:
S1:制作多说话人数据集并处理;
S2:利用多说话人数据集训练对齐模型;
S3:制作目标说话人数据集并处理;
S4:利用多说话人数据集训练多说话人声码器模型;
S5:利用多说话人数据集训练多说话人语音合成模型;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;
S7:将待合成文本输入至目标人语音合成模型进行语音合成任务。
2.根据权利要求1所述的一种音色克隆方法,其特征是:所述S1包括以下步骤:
S11:制作录音文本;
S12:选择多个录音人在标准录音环境下根据录音文本进行录音;
S13:基于录音和录音文本进行发音一致性校对,人工标注发音序列,添加韵律标签;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量信息,并对发音序列进行编码。
3.根据权利要求1所述的一种音色克隆方法,其特征是:所述步骤S3包括以下步骤:
S31:录取目标说话人朗读指定文本的音频以及文本对应的人工标注发音序列与韵律标签;
S32:提取音频的梅尔频谱特征、音高特征和能量特征;
S33:使用对齐模型获取发音序列的时长信息。
4.根据权利要求1所述的一种音色克隆方法,其特征是:所述多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。
5.根据权利要求1所述的一种音色克隆方法,其特征是:所述多说话人声码器模型为MultiBandMelgan声码器。
6.根据权利要求4所述的一种音色克隆方法,其特征是:所述步骤S4中,对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在SkipEncoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高信息和能量信息,预测得到的音高信息和能量信息由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
7.根据权利要求4所述的一种音色克隆方法,其特征是:所述步骤S6中,对多说话人语音合成模型进行finetune微调训练,训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。
8.一种音色克隆系统,其特征是:包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
9.一种音色克隆装置,其特征是:包括:处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使用所述处理器执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征是:所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-7任一项所述的方法。
CN202110408975.8A 2021-04-16 2021-04-16 一种音色克隆方法、系统、装置及计算机可读存储介质 Active CN112992162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110408975.8A CN112992162B (zh) 2021-04-16 2021-04-16 一种音色克隆方法、系统、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110408975.8A CN112992162B (zh) 2021-04-16 2021-04-16 一种音色克隆方法、系统、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112992162A true CN112992162A (zh) 2021-06-18
CN112992162B CN112992162B (zh) 2021-08-20

Family

ID=76340758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110408975.8A Active CN112992162B (zh) 2021-04-16 2021-04-16 一种音色克隆方法、系统、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112992162B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN114566143A (zh) * 2022-03-31 2022-05-31 北京帝派智能科技有限公司 一种可局部修改内容的语音合成方法及语音合成系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076715A1 (en) * 2015-09-16 2017-03-16 Kabushiki Kaisha Toshiba Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111681639A (zh) * 2020-05-28 2020-09-18 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备
CN112185340A (zh) * 2020-10-30 2021-01-05 网易(杭州)网络有限公司 语音合成方法、语音合成装置、存储介质与电子设备
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112634856A (zh) * 2020-12-10 2021-04-09 苏州思必驰信息科技有限公司 语音合成模型训练方法和语音合成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076715A1 (en) * 2015-09-16 2017-03-16 Kabushiki Kaisha Toshiba Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111681639A (zh) * 2020-05-28 2020-09-18 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备
CN112185340A (zh) * 2020-10-30 2021-01-05 网易(杭州)网络有限公司 语音合成方法、语音合成装置、存储介质与电子设备
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112634856A (zh) * 2020-12-10 2021-04-09 苏州思必驰信息科技有限公司 语音合成模型训练方法和语音合成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436591A (zh) * 2021-06-24 2021-09-24 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN113436591B (zh) * 2021-06-24 2023-11-17 广州酷狗计算机科技有限公司 音高信息生成方法、装置、计算机设备及存储介质
CN114566143A (zh) * 2022-03-31 2022-05-31 北京帝派智能科技有限公司 一种可局部修改内容的语音合成方法及语音合成系统

Also Published As

Publication number Publication date
CN112992162B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN112863483B (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN110148394B (zh) 歌声合成方法、装置、计算机设备及存储介质
CN109817197B (zh) 歌声生成方法、装置、计算机设备和存储介质
CN109036377A (zh) 一种语音合成方法及装置
WO2014046789A1 (en) System and method for voice transformation, speech synthesis, and speech recognition
CN112992162B (zh) 一种音色克隆方法、系统、装置及计算机可读存储介质
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN112908294B (zh) 一种语音合成方法以及语音合成系统
CN112786018A (zh) 语音转换及相关模型的训练方法、电子设备和存储装置
Gudnason et al. Data-driven voice source waveform analysis and synthesis
Jain et al. A text-to-speech pipeline, evaluation methodology, and initial fine-tuning results for child speech synthesis
Kim Singing voice analysis/synthesis
Haque et al. Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech
Hsu Synthesizing personalized non-speech vocalization from discrete speech representations
CN116110369A (zh) 一种语音合成方法和装置
Thomas et al. Data-driven voice soruce waveform modelling
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
Nazir et al. Deep learning end to end speech synthesis: A review
CN114495896A (zh) 一种语音播放方法及计算机设备
CN113555001A (zh) 歌声合成方法、装置、计算机设备及存储介质
i Barrobes Voice Conversion applied to Text-to-Speech systems
Peng et al. Singing Voice Conversion Between Popular Music and Chinese Opera Based on VITS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant