CN111210803A - 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 - Google Patents

一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 Download PDF

Info

Publication number
CN111210803A
CN111210803A CN202010314822.2A CN202010314822A CN111210803A CN 111210803 A CN111210803 A CN 111210803A CN 202010314822 A CN202010314822 A CN 202010314822A CN 111210803 A CN111210803 A CN 111210803A
Authority
CN
China
Prior art keywords
module
training
model
acoustic
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010314822.2A
Other languages
English (en)
Other versions
CN111210803B (zh
Inventor
司马华鹏
龚雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Guiji Intelligent Technology Co ltd
Original Assignee
Nanjing Guiji Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Guiji Intelligent Technology Co ltd filed Critical Nanjing Guiji Intelligent Technology Co ltd
Priority to CN202010314822.2A priority Critical patent/CN111210803B/zh
Publication of CN111210803A publication Critical patent/CN111210803A/zh
Application granted granted Critical
Publication of CN111210803B publication Critical patent/CN111210803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及语音合成、语音识别、声音克隆技术领域,本发明结合语音合成技术、语音识别技术、迁移学习技术,提供一种基于Bottleneck特征(音频的语言特征)的声音克隆实现方案,包含训练系统和训练方法;利用少量样本提供自然度、相似度高的TTS服务,以提供目标用户特性的TTS服务,解决了语音合成技术服务样本量大、制作周期长、人力成本高的问题。训练系统包括:数据采集模块、声学特征提取模块、语音识别模块、韵律模块、多人语音声学模块、语音合成模块;本发明还提供一种基于上述系统训练方法,包括准备训练语料、声学特征提取、各模块训练和微调,以及语音合成。

Description

一种基于Bottleneck特征训练克隆音色及韵律的系统及方法
技术领域
本发明涉及语音合成技术(TTS)、语音识别技术(ASR)、声音克隆技术领域,属于人工智能-智能语音领域。
背景技术
随着电话机器人业务市场的快速发展,智能语音的业务量迅速增加给定制的语音合成技术服务(TTS)带来了极大的困难,一套定制的语音合成技术服务(TTS)需要近万条真实录音样本,从采集样本、数据标注、数据预处理、模型训练到提供服务制作周期将近1个月,并且需要大量的人力成本,这种延时无法满足市场的响应。目前,语音合成技术服务(TTS)主要包含两种技术方案:分阶段语音合成和端到端语音合成。音色及韵律克隆旨在通过有限的训练样本合成具有目标用户语音特性的自然发声的语音,缩短制作周期及时提供服务。
发明内容
为适应电话机器人和智能语音系统的市场发展需求,给用户提供定制化的TTS服务,并且快速响应用户需求,满足市场的时效性,本发明结合语音合成技术、语音识别技术、迁移学习技术提供一种基于Bottleneck特征(音频的语言特征)的声音克隆实现方案,利用少量样本数据提供自然的、高相似度的TTS服务,以满足用户的特性需求。解决的技术问题在于最大可能减少语料数量 (100-200条),缩短制作周期(4小时),及时提供高质量的定制化的TTS服务。
本发明提供一种基于Bottleneck特征训练克隆音色及韵律的系统,包括:
(1)数据采集模块,用于采集语音识别模块(ASR Model)语料、韵律模块(TTB Model)基础TTB模型语料、多人语音声学模块(Multi-speaker Acoustic Model)基础语料,并建立克隆语料;
(2)声学特征提取模块,提取线性预测编码特征(LPC Feature)和梅尔频率倒谱系数(Mfcc)作为声学特征;
(3)语音识别模块(ASR Model),通过语音识别模块语料训练ASR Model,ASR Model通过添加Bottleneck层,以提取Bottleneck特征;
(4)韵律模块(TTB Model,Text To Bottleneck),分为基础TTB模型部分和克隆TTB模型部分,其中,基础TTB模型部分使用韵律模块(TTB Model)基础TTB模型语料训练,克隆TTB模型部分,克隆并使用克隆语料微调基础TTB模型;学习文本(Text)到Bottleneck的映射和该用户的韵律特征,建立文本(Text)到Bottleneck的一种深度映射关系;
(5)多人语音声学模块(Multi-speaker Acoustic Model),分为基础声学模型(Acoustic Model)部分和克隆声学模型部分,其中,基础声学模型(Acoustic Model)部分,使用多人的数据集训练;克隆声学模型部分克隆并使用克隆语料微调基础声学模型(Acoustic Model);
(6)语音合成模块(Vocoder Model),将多人语音声学模块(Multi-speaker AcousticModel)训练调整后提取的线性预测编码特征(LPC Feature)还原成音频,提供服务。
本发明还提供一种基于上述系统的Bottleneck特征训练克隆音色及韵律的训练方法,包括以下步骤:
步骤一:数据采集,准备各模块所需要的训练语料:语音识别模块语料(A语料)、韵律模块(TTB Model)基础TTB模型语料(B语料)、多人语音声学模块(Multi-speaker AcousticModel)基础语料(C语料)、克隆语料(D语料);
步骤二:声学特征提取,提取各语料梅尔频率倒谱系数(Mfcc),以及多人语音声学模块(Multi-speaker Acoustic Model)基础语料(C语料)、克隆语料(D语料)的线性预测编码特征(LPC Feature)作为声学特征;
步骤三:使用语音识别的语料(A语料)训练语音合成模型;
步骤四:使用语音识别模型提取B语料、C语料和、D语料的Bottleneck特征,并通过B语料的Bottleneck特征训练韵律模型;
步骤五:使用线性预测编码特征(LPC Feature)和步骤四提取的C语料Bottleneck特征训练多人语音声学模型(Multi-speaker Acoustic Model);
步骤六:使用D语料的Bottleneck特征和线性预测编码特征(LPC Feature)分别微调韵律模型和多人语音声学模型(Multi-speaker Acoustic Model);
步骤七:语音合成。
本发明提出一种基于Bottleneck特征为基础融合了语音合成技术、语音识别技术、迁移学习的克隆方案。最大可能减少克隆样本,缩短制作周期,及时提供高质量的定制化的TTS服务。该方案有如下技术效果:
1、使用Bottleneck特征表征音频,使其丢失说话者的身份信息,保留了说话者的韵律信息;
2、微调单人的TTB Model,使微调后的TTB 模型保留目标用户的韵律感;
3、微调多人的Acoustic Model(AM 模型),使微调的AM模型保留目标用户的音色信息;
4、最大可能减少语料数量 (100-200条),缩短制作周期(4 小时),及时提供高质量的定制化的TTS服务。
附图说明
图1为本发明系统模块组成图;
图2为本发明数据采集模块工作流程图;
图3为本发明语音识别模块训练流程图;
图4为Mel滤波图;
图5为本发明韵律模块基础TTB训练流程图;
图6为本发明韵律模块训练示意图;
图7为本发明多人语音声学模块训练流程图;
图8为本发明韵律模块、多人语音声学模块微调过程流程图;
图9为本发明语音合成流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供一种基于Bottleneck特征训练克隆音色及韵律的系统,包括:
(1)数据采集模块,用于采集语音识别模块(ASR Model)语料、韵律模块(TTB Model)基础TTB模型语料、多人语音声学模块(Multi-speaker Acoustic Model)语料,克隆语料(目标用户的音频及对应文本);
(2)声学特征提取模块,提取线性预测编码特征(LPC Feature)和梅尔频率倒谱系数(Mfcc)作为声学特征;
(3)语音识别模块(ASR Model),通过ASR Model的语料训练ASR Model,ASR Model通过添加Bottleneck网络层,以提取Bottleneck特征;
(4)韵律模块(TTB Model,Text To Bottleneck),分为基础TTB模型部分和克隆TTB模型部分,其中,基础TTB模型部分使用单人的数据集训练,克隆TTB模型部分,克隆并使用克隆语料微调基础TTB模型;学习Text到Bottleneck的映射和该用户的韵律特征,建立文本(Text)到Bottleneck的一种深度映射关系;
(5)多人语音声学模块(Multi-speaker Acoustic Model),将Bottleneck经训练转化成线性预测编码特征(LPC Feature),分为基础声学模型(Acoustic Model)部分和克隆声学模型部分,其中,基础语音声学模型(Acoustic Model)部分,使用多人的数据集训练;克隆语音声学模型部分克隆并使用克隆语料微调基础语音声学模型(Acoustic Model);
(6)语音合成模块(Vocoder Model),将多人语音声学模块(Multi-speaker AcousticModel)训练调整后提取的线性预测编码特征(LPC Feature)还原成音频,提供服务。
本发明提供一种基于Bottleneck特征训练克隆音色及韵律的系统训练方法,包括以下步骤:
步骤一:数据采集模块,各模块所需要的训练语料:语音识别模块语料(A语料)、韵律模块(TTB Model)基础TTB模型语料(B语料)、多人语音声学语料(C语料)、克隆语料(D语料);
如图2所示,获取基础模型的训练语料,以中文普通话为例,需要建立以下几个样本集:一、语音识别模块语料,可以下载转录比高的开源中文数据集,二、韵律模块(TTB Model)基础TTB模型语料,该训练语料要求比较高,需要由用户根据自己实际需要定制(录制或购买),反复标注,清理,得到干净的Text和对应的音频,三、多人语音声学模块语料(录制或购买);四、克隆语料:由用户录制符合要求的音频100-200条,再降噪(可通过Adobe Audition工具或RNNnoise 模型)、标注,制作标准的语料;
步骤二:声学特征提取模块,提取各语料梅尔频率倒谱系数(Mfcc),以及多人语音声学模块训练语料(C语料)、克隆语料(D语料)的线性预测编码特征(LPC Feature)作为声学特征;
提取Mfcc详细子步骤:
1、预加重:语音信号通过一个高通滤波器:
Figure 602943DEST_PATH_IMAGE001
,μ值一般取0.9-1.0之间,用以提升高频信息;
2、分帧:通过对连续信号的切割,一般采用10-15ms为一帧,25%,50%,75%的重叠率;
3、加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n), n=0,1,…,N-1, N为帧的大小,那么乘上汉明窗后:
Figure 157552DEST_PATH_IMAGE002
,其中,W(n)形式如下:
Figure 775615DEST_PATH_IMAGE003
4、FFT:通过傅里叶变换得到频域上的能量谱分布;
5、Mel滤波:将能量谱通过一组Mel尺度的三角形滤波器组;
6、对数运算:计算每个滤波器组的对数能量;
7、DCT:经过离散余弦变换得到Mfcc特征:
Figure 187005DEST_PATH_IMAGE004
LPC特征,可通过LPCnet模型获取;
步骤三:使用语音识别模块训练语料(A语料)训练语音识别模块;
通过Kaldi工具实现语音识别模块的训练,子步骤如下:
(1)标准的GMM-HMM声学模型的训练
a、单因子模型:训练 单因子模型(monophone model) 是通过 GMM-HMM System 做utterance-level transcriptions(语言级转录),即训练 label-audio(标签-音频)的映射;
b、三音子模型:训练三因子模型(triphone model) 是通过 GMM-HMM System 做phoneme-to-audio aglignments(因素音频累积);
(2)DNN模型训练
以三因子模型为基础,DNN 的输入nodes一般为 39 维的 MFCC 特征,输出的节点(nodes)为相关的标签(labels),训练带有Bottleneck网络层的DNN模型。
步骤四:使用语音识别模块提取B语料、C语料和、D语料的Bottleneck特征,并通过B语料的Bottleneck特征训练韵律模块;
输入音频,提取Mfcc特征,将Mfcc特征输入语音识别模型,模型输出即为Bottleneck;
韵律模块由Encoder(编码)、Decoder(解码)、Attention(注意力)三部分构成一个seq2seq端到端的模型;
音频的文本信息X:
Figure 93781DEST_PATH_IMAGE005
音频的Bottleneck特征Y:
Figure 708872DEST_PATH_IMAGE006
Encoder:是将输入序列 X 通过非线性变换编码成一个指定长度的向量C(中间语义表示),得到C有多种方式如CNN(卷积神经网络),RNN(循环神经网络),自注意机制(self-attention)。C = F
Figure 650283DEST_PATH_IMAGE007
Decoder:是根据向量C(Encoder的输出结果)和之前生成的历史信息
Figure 232574DEST_PATH_IMAGE008
来生成当前时刻的特征
Figure 423384DEST_PATH_IMAGE009
Figure 116533DEST_PATH_IMAGE010
Attention:是在输出的时候,会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分,然后根据关注的区域来产生下一个输出,如此反复。
步骤五:使用线性预测编码特征(LPC Feature)和步骤四提取的C语料Bottleneck特征、韵律模块提取的Bottleneck特征训练多人语音声学模块(Multi-speaker AcousticModel),y=f(x),其中f()为深度神经网络 y为LPC特征,x为Bottleneck特征;
步骤六:使用D语料的Bottleneck特征和线性预测编码特征(LPC Feature)分别微调TTB模型和多人语音声学模块(Multi-speaker Acoustic Model),微调就是使用克隆语料作为模型输入,将学习率设置更小,重新迭代模型;(微调模型如附图8所示)
步骤七:语音合成输入文本到微调后的韵律模块,模型输出Bottleneck特征,将该特征输入到微调后的多人语音声学模块(Multi-speaker Acoustic Model),模型输出线性预测编码特征(LPC Feature),通过LPCnet网络还原成音频,提供服务(语音合成流程见附图9)。
以上所述实施例不能理解为对发明专利范围的限制,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于Bottleneck特征训练克隆音色及韵律的系统,包括:
(1)数据采集模块,用于采集语音识别模块语料、韵律模块基础TTB模型语料、多人语音声学模块基础语料,及克隆语料;
(2)声学特征提取模块,提取线性预测编码特征(LPC Feature)和梅尔频率倒谱系数(Mfcc)作为声学特征;
(3)语音识别模块,通过语言识别模块语料训练语音识别模块,语音识别模块通过添加Bottleneck层,以提取Bottleneck特征;
(4)韵律模块,分为基础TTB模型部分和克隆TTB模型部分,其中,基础TTB模型部分使用韵律模块(TTB Model)基础TTB模型语料训练,克隆TTB模型部分,克隆并使用克隆语料微调基础TTB模型;学习文本(Text)到Bottleneck的映射和用户的韵律特征,建立文本(Text)到Bottleneck的一种深度映射关系;
(5)多人语音声学模块,分为基础声学模型部分和克隆声学模型部分,其中,基础声学模型部分,使用多人语音声学模块基础语料训练;克隆声学模型部分克隆并使用克隆语料微调基础声学模型;
(6)语音合成模块,将多人语音声学模块训练调整后提取的线性预测编码特征(LPCFeature)还原成音频,提供服务。
2.一种基于权利要求1所述系统的基于Bottleneck特征训练克隆音色及韵律的训练方法,其特征在于,包括以下步骤:
步骤一:数据采集模块,准备各模块所需要的训练语料:语音识别模块语料、韵律模块基础TTB模型语料、多人语音声学模块基础语料、克隆语料;
步骤二:声学特征提取模块,提取各语料梅尔频率倒谱系数(Mfcc),以及多人语音声学模块基础语料、克隆语料的线性预测编码特征(LPC Feature)作为声学特征;
步骤三:使用语音识别模块语料训练语音合成模块;
步骤四:语音识别模块提取韵律模块基础TTB模型语料、多人语音声学模块基础语料和、克隆语料的Bottleneck特征,并通过韵律模块基础TTB模型语料的Bottleneck特征训练韵律模块,提取新的Bottleneck特征;
步骤五:使用线性预测编码特征(LPC Feature)和步骤四提取的多人语音声学模块基础语料Bottleneck特征、韵律模块提取的Bottleneck特征训练多人语音声学模块;
步骤六:使用克隆语料的Bottleneck特征和线性预测编码特征(LPC Feature)分别微调韵律模块和多人语音声学模块;
步骤七:语音合成。
3.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法,其特征在于,
步骤二中提取各语料梅尔频率倒谱系数(Mfcc)包括以下子步骤:
1)预加重:语音信号通过一个高通滤波器:
Figure 285330DEST_PATH_IMAGE001
,μ值一般取0.9-1.0之间,用以提升高频信息;
2)分帧:通过对连续信号的切割,一般采用10-15ms为一帧,25%,50%,75%的重叠率;
3)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
4)FFT:通过傅里叶变换得到频域上的能量谱分布;
5)Mel滤波:将能量谱通过一组Mel尺度的三角形滤波器组;
6)对数运算:计算每个滤波器组的对数能量;
7)DCT:经过离散余弦变换得到梅尔频率倒谱系数特征。
4.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法,其特征在于,步骤二中线性预测编码特征通过LPCnet模型获取。
5.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法,其特征在于,步骤三语音识别模块训练通过Kaldi工具实现语音识别模块的训练,包括以下子步骤:
1)标准的GMM-HMM声学模型的训练
使用训练语料分别训练:单因子模型、三音子模型;
2)DNN模型训练
以步骤1)三音子模型为基础,训练具有Bottleneck网络的DNN网络,并以Bottleneck层为特征输出。
6.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法,其特征在于,韵律模块由编码、解码、注意力三部分构成一个端到端的模型;
其中,编码是将输入序列 X 通过非线性变换编码成一个指定长度的向量C,得到C的方式包括卷积神经网络,循环神经网络, 自注意机制;
解码是根据向量C和之前生成的历史信息,来生当前时刻的特征;
注意力:是在输出的时候,产生一个注意力范围来表示输入序列在输出的时候要重点关注的部分,并根据关注的区域来产生下一个输出,如此反复。
7.根据权利要求2所述的一种基于Bottleneck特征训练克隆音色及韵律的训练方法,其特征在于,所述的克隆语料为符合用户要求的音频100-200条。
CN202010314822.2A 2020-04-21 2020-04-21 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法 Active CN111210803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010314822.2A CN111210803B (zh) 2020-04-21 2020-04-21 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010314822.2A CN111210803B (zh) 2020-04-21 2020-04-21 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法

Publications (2)

Publication Number Publication Date
CN111210803A true CN111210803A (zh) 2020-05-29
CN111210803B CN111210803B (zh) 2021-08-03

Family

ID=70784355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010314822.2A Active CN111210803B (zh) 2020-04-21 2020-04-21 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法

Country Status (1)

Country Link
CN (1) CN111210803B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951778A (zh) * 2020-07-15 2020-11-17 天津大学 一种低资源下利用迁移学习进行情感语音合成的方法
CN112037755A (zh) * 2020-11-03 2020-12-04 北京淇瑀信息科技有限公司 一种基于音色克隆的语音合成方法、装置及电子设备
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及系统
CN112992118A (zh) * 2021-05-22 2021-06-18 成都启英泰伦科技有限公司 一种少语料的语音模型训练及合成方法
CN113436607A (zh) * 2021-06-12 2021-09-24 西安工业大学 一种快速语音克隆方法
CN113724718A (zh) * 2021-09-01 2021-11-30 宿迁硅基智能科技有限公司 目标音频的输出方法及装置、系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075432A (zh) * 2006-05-18 2007-11-21 株式会社东芝 语音合成装置和方法
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
US9484016B2 (en) * 2013-05-28 2016-11-01 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
US20170330561A1 (en) * 2015-12-24 2017-11-16 Intel Corporation Nonlinguistic input for natural language generation
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
US20190172243A1 (en) * 2017-12-01 2019-06-06 Affectiva, Inc. Avatar image animation using translation vectors
US20190198007A1 (en) * 2017-12-26 2019-06-27 International Business Machines Corporation Initiating synthesized speech outpout from a voice-controlled device
CN110136691A (zh) * 2019-05-28 2019-08-16 广州多益网络股份有限公司 一种语音合成模型训练方法、装置、电子设备及存储介质
CN110473515A (zh) * 2019-08-29 2019-11-19 郝洁 一种基于WaveRNN的端到端语音合成方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075432A (zh) * 2006-05-18 2007-11-21 株式会社东芝 语音合成装置和方法
US9484016B2 (en) * 2013-05-28 2016-11-01 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
CN106297773A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型训练方法
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
US20170330561A1 (en) * 2015-12-24 2017-11-16 Intel Corporation Nonlinguistic input for natural language generation
US20190172243A1 (en) * 2017-12-01 2019-06-06 Affectiva, Inc. Avatar image animation using translation vectors
US20190198007A1 (en) * 2017-12-26 2019-06-27 International Business Machines Corporation Initiating synthesized speech outpout from a voice-controlled device
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN110136691A (zh) * 2019-05-28 2019-08-16 广州多益网络股份有限公司 一种语音合成模型训练方法、装置、电子设备及存储介质
CN110473515A (zh) * 2019-08-29 2019-11-19 郝洁 一种基于WaveRNN的端到端语音合成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
凌云志: "非平行文本下基于变分自编码模型和瓶颈特征的高质量语音转换研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李德毅 等: "《人工智能导论》", 31 August 2018, 北京:中国科学技术出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951778A (zh) * 2020-07-15 2020-11-17 天津大学 一种低资源下利用迁移学习进行情感语音合成的方法
CN111951778B (zh) * 2020-07-15 2023-10-17 天津大学 一种低资源下利用迁移学习进行情感语音合成的方法
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及系统
CN112037755A (zh) * 2020-11-03 2020-12-04 北京淇瑀信息科技有限公司 一种基于音色克隆的语音合成方法、装置及电子设备
CN112992118A (zh) * 2021-05-22 2021-06-18 成都启英泰伦科技有限公司 一种少语料的语音模型训练及合成方法
CN112992118B (zh) * 2021-05-22 2021-07-23 成都启英泰伦科技有限公司 一种少语料的语音模型训练及合成方法
CN113436607A (zh) * 2021-06-12 2021-09-24 西安工业大学 一种快速语音克隆方法
CN113436607B (zh) * 2021-06-12 2024-04-09 西安工业大学 一种快速语音克隆方法
CN113724718A (zh) * 2021-09-01 2021-11-30 宿迁硅基智能科技有限公司 目标音频的输出方法及装置、系统

Also Published As

Publication number Publication date
CN111210803B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN111210803B (zh) 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法
CN112767958B (zh) 一种基于零次学习的跨语种音色转换系统及方法
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN110534089A (zh) 一种基于音素和韵律结构的中文语音合成方法
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
Syrdal et al. Applied speech technology
CN106057192A (zh) 一种实时语音转换方法和装置
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN111312208A (zh) 一种说话人不相干的神经网络声码器系统
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
Ohnaka et al. Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
Ezzine et al. A comparative study of voice conversion techniques: A review
Zhao et al. Research on voice cloning with a few samples
CN112908293A (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
Nazir et al. Deep learning end to end speech synthesis: A review
CN115862590A (zh) 一种基于特征金字塔的文本驱动语音合成方法
Prasad et al. Backend tools for speech synthesis in speech processing
Hsieh et al. A speaking rate-controlled mandarin TTS system
Xie et al. Pitch transformation in neural network based voice conversion
Koolagudi et al. Spectral features for emotion classification
Chen et al. Phoneme-guided Dysarthric speech conversion With non-parallel data by joint training
Alastalo Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet
CN112992118B (zh) 一种少语料的语音模型训练及合成方法
Mai et al. Design of Vietnamese speech corpus and current status

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant