CN114255735A - 语音合成方法及系统 - Google Patents
语音合成方法及系统 Download PDFInfo
- Publication number
- CN114255735A CN114255735A CN202111512624.8A CN202111512624A CN114255735A CN 114255735 A CN114255735 A CN 114255735A CN 202111512624 A CN202111512624 A CN 202111512624A CN 114255735 A CN114255735 A CN 114255735A
- Authority
- CN
- China
- Prior art keywords
- level
- model
- text
- target
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 114
- 238000001228 spectrum Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 29
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 108010010803 Gelatin Proteins 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229920000159 gelatin Polymers 0.000 description 1
- 239000008273 gelatin Substances 0.000 description 1
- 235000019322 gelatine Nutrition 0.000 description 1
- 235000011852 gelatine desserts Nutrition 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音合成方法,包括:获取目标说话人的目标频谱特征;基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;基于编码模型对待合成文本的处理,获得文本编码向量;基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;基于声码模型对所述预测频谱特征的处理,获得合成音频。可以在少样本个性化语音合成的任务中提升了音质以及自然度。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及一种语音合成方法及系统。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而,少样本的个 性化语音合成即使热点又是难点。在少样本的个性化语音合成中,由于样本数量的 限制在现有的声学模型上往往表现出较低的音质和相似度。
发明内容
本发明的目的在于提供一种语音合成方法及系统。以期解决背景技术中存在的技术问题。
为了实现上述目的,本发明采用以下技术方案:
一种语音合成方法,包括:
获取目标说话人的目标频谱特征;
基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;
基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级 目标声学预测向量;
基于编码模型对待合成文本的处理,获得文本编码向量;
基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编 码向量的处理,得到预测频谱特征;
基于声码模型对所述预测频谱特征的处理,获得合成音频。
在一些实施例中,所述识别模型为机器学习模型,所述识别模型的训练样本包 括多个不同说话人的音频及对应的文本。
在一些实施例中,所述目标频谱特征包括以下至少一种:线性频谱特征、梅尔 频谱特征。
在一些实施例中,待合成文本为经预处理的合成文本,所述预处理包括筛选出 非法音节、进行分词、词性标注。
在一些实施例中,所述预处理还包括:
对所述合成文本进行综合语言学特征提取,并将提取的所述综合语言学特征输入到韵律预测模型,获得停顿级别标注;
将所述合成文本的中文汉字转换为对应的拼音音素。
在一些实施例中,对所述目标频谱特征的处理还包括:通过强制对齐算法获得 频谱特征与待合成文本之间的对齐结果;
根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均;
所述编码模型包括音素级编码模型、音节级编码模型、句子级编码模型;
所述音节级编码模型的输出维度根据音素步长进行扩展且与音素步长保持一致。
在一些实施例中,所述音素级、音节级、句子级目标声学预测向量及所述文本 编码向量输入到解码模型之前先进行以下处理:
通过将所述语音识别向量、文本编码向量以及音素级、音节级、句子级目标声 学预测向量进行相加,结合频谱特征与待合成文本之间的对齐结果对相加后的向量 进行扩帧。
在一些实施例中,所述解码模型包括但不限于CNN、Transformer。
在一些实施例中,所述声码模型包括但不限于WaveNET、WavRNN、MelGAN。
同时,本发明还公开了一种语音合成系统,包括:
获取模块,用于获取目标说话人的目标频谱特征;
识别模块,用于基于识别模型对所述目标频谱特征的处理,获得所述目标说话 人的语音识别向量;
预测模块,用于基于预测模型对所述目标频谱特征的处理,分别获得音素级、 音节级、句子级目标声学预测向量;
编码模块,用于基于编码模型对待合成文本的处理,获得文本编码向量;
解码模块,用于基于解码模型对所述音素级、音节级、句子级目标声学预测向 量及所述文本编码向量的处理,得到预测频谱特征;
声码模块,用于基于声码模型对所述预测频谱特征的处理,获得合成音频。
同时,本发明还公开了一种语音合成装置,所述装置包括处理器以及存储器; 所述存储器用于存储指令,所述指令被所述处理器执行时,导致所述装置实现上述 任一项所述语音合成方法。
同时,本发明还公开了一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机运行上述任一项所述语音合 成方法。
有益效果
本发明与现有技术相比,其显著优点是:
本发明的方案在多说话人语音合成模型的基础上加入了自适应声学信息预测模块,对输入文本进行音素级、音节级、句子级声学编码信息进行预测,通过解码层 对输入的说话人识别向量、文本编码向量及预测声学编码向量得到目标预测频谱, 最后通过声码器将目标预测频谱转化为目标合成音频,提升了少样本个性化语音合 成的音质及相似度。
同时,通过将自适应声学特征预测器得到的音素级、音节级、句子级声学特征 预测向量加入多说话人语音合成模型,在少样本个性化语音合成的任务中提升了音 质以及自然度。
附图说明
图1是本实施例涉及语音合成系统示意图;
图2是本实施例涉及的语音合成方法流程示意图;
图3为本发明实施例的模型的训练流程图;
图4为本发明实施例模型的应用流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释 本申请,并不用于限定本申请。
相反,本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、 修改、等效方法以及方案。进一步,为了使公众对本申请有更好的了解,在下文对 本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没 有这些细节部分的描述也可以完全理解本申请。
以下将结合图1-2对本申请实施例所涉及的一种语音合成方法进行详细说明。 值得注意的是,以下实施例仅仅用于解释本申请,并不构成对本申请的限定。
实施例1
如图1所示,一种语音合成方法,基于多个模型或多个层共同作用实现语音合 成。
本实施例主要说明模型的训练方法:
先获取训练语料,训练语料中包含多说话人的语音,以及不同说话人的音频及 对应的文本。
具体的,获取多说话人的训练语料包括但不限于公开的多说话人语音合成训练数据集或自己录制的多说话人语音合成训练数据集。
然后对获取到的训练语料进行特征提取以提取其真实频谱特征,并对真实频谱特征经预训练的说话人识别模型提取说话人识别向量。
可选的,提取的语音真实频谱特征包括但不限于线性频谱特征、梅尔频谱特征;预训练的说话人识别模型包括但不限于目前的主流说话人识别模型,如:GE2E、 I-Vector等。
接着对不同说话人的语音对应的文本进行预处理,并通过文本编码模型得到文本编码向量。
可选的,预处理可以包括筛选出非法音节,对合法输入进行分词、词性标注等, 并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字 转换为对应的拼音音素;其中,文本编码层包括但不限于CNN网络结构、Transformer 网络结构。
然后将真实频谱特征分别输入音素级、音节级、句子级声学编码层得到音素级、音节级、句子级声学编码向量,同时将真实频谱特征分别通过音素级、音节级、句 子级声学预测器得到音素级、音节级、句子级声学预测向量。
接着再将说话人识别向量、文本编码向量以及音素级、音节级、句子级声学预 测向量共同输入到解码层,得到预测频谱特征。
作为优选的,为了自适应的获得不同层次的声学信息,还可进行以下操作:
通过强制对齐算法获得频谱特征与文本之间的对齐结果;频谱特征输入音素级、音节级声学编码层之前,根据频谱特征与文本之间的对齐结果,分别对频谱特征在 音素级、音节级上对每一帧进行平均;音节级编码层的输出维度根据音素步长进行 扩展,与音素步长保持一致。
其中,音素级、音节级、句子级声学编码层包括但不限于CNN网络结构;句子 级声学编码层网络结构最后一层为池化层,句子级声学编码层的输出维度根据音素 步长进行扩展,与音素步长保持一致;声学预测器与声学编码层网络结构保持一致; 声学预测器的输入为文本编码向量。
进一步的,为了获得预测频谱特征,还包括以下操作:
通过将说话人识别向量、文本编码向量以及音素级、音节级、句子级声学编码 向量进行相加,通过频谱特征与文本之间的对齐结果对相加后的向量进行扩帧后输 入到解码层;解码层网络结构包括但不限于CNN、Transformer等网络结构;预测频 谱特征与真实频谱特征步长一致。
最后,通过真实频谱特征与预测频谱特征之间的损失函数对文本编码层、声学 编码层、解码层参数进行训练,声学编码向量与声学预测向量之间的损失函数对声 学预测器参数进行训练。
具体的,真实频谱特征与预测频谱特征之间的损失函数以及声学编码向量与声学预测向量之间的损失函数包括但不限与均方差损失函数;训练早期阶段固定声学 预测器参数及该部分的梯度,训练后期阶段整个网络一起训练。
实施例2
本实施例主要对如何应用训练好的模型进行说明,具体如下:
首先,对待合成文本进行规范化处理,并对目标说话人音频样本提取真实频谱 特征。
其次,对目标频谱特征输入到经预训练的说话人识别模型得到目标说话人识别向量,同时,目标频谱特征输入到训练好的声学预测器得到音素级、音节级、句子 级目标声学预测向量。
然后,将待合成文本输入到训练好的编码层得到文本编码向量;
接着,将得到的音素级、音节级、句子级声学预测向量以及文本编码向量共同 输入到训练好的解码层,得到预测频谱特征;
其中,语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的文 本的处理方式与训练阶段一致;训练阶段使用真实频谱特征与文本的对齐结果对文 本编码向量、声学编码向量、说话人识别向量进行扩帧,而推理阶段采用时长预测 器预测结果对文本编码向量、声学编码向量、说话人识别向量进行扩帧;推理阶段 不使用声学编码层。
最后,将预测频谱特征经预训练的声码器生成合成音频。
其中,采用的声码器包括但不限于WavNET、WavRNN、MelGAN。
实施例3
一种语音合成系统,包括:
获取模块,用于获取目标说话人的目标频谱特征;
识别模块,用于基于识别模型对所述目标频谱特征的处理,获得所述目标说话 人的语音识别向量;
预测模块,用于基于预测模型对所述目标频谱特征的处理,分别获得音素级、 音节级、句子级目标声学预测向量;
编码模块,用于基于编码模型对待合成文本的处理,获得文本编码向量;
解码模块,用于基于解码模型对所述音素级、音节级、句子级目标声学预测向 量及所述文本编码向量的处理,得到预测频谱特征;
声码模块,用于基于声码模型对所述预测频谱特征的处理,获得合成音频。
实施4
一种用于语音合成的方法,具体包括模型的训练方法及模型的应用方法,其中,如图3及图4所示,模型的整体架构采用编码、解码网络框架;文本编码层以及解 码层采用Transformer网络结构,声学编码层以及声学预测器采用CNN网络结构, 最后通过解码层输出预测频谱特征。
如图2所示,模型训练方法(即训练阶段)包括下述步骤:
S11.获取多说话人的训练语料,包括不同说话人的音频及对应的文本;
可选的,获取多说话人的训练语料包括但不限于公开的多说话人语音合成训练数据集或自己录制的多说话人语音合成训练数据集。
S12.对步骤S11的获取的音频提取真实频谱特征,并对真实频谱特征经预训练 的说话人识别模型提取说话人识别向量;
可选的,提取的语音真实频谱特征包括但不限于线性频谱特征、梅尔频谱特征;预训练的说话人识别模型包括但不限于目前的主流说话人识别模型,如:GE2E、 I-Vector等。
举例说明,对获取的音频提取80维的梅尔频谱特征,使用通过GE2E loss训练 多说话人识别模型;使用训练好的说话人识别模型对梅尔频谱特征提取说话人识别 向量;
S13.对步骤S11获取的文本经规范化处理后,通过文本编码层得到文本编码向量;
可选的,对中文文本进行规范化处理,筛选出非法音节,对合法输入进行分词、 词性标注等,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注; 将中文汉字转换为对应的拼音音素;可选的,文本编码层包括但不限于CNN网络结 构、Transformer网络结构。
举例说明,“九芝堂阿胶补血颗粒,售价180元一盒。”,在本例中首先筛选 出“,”、“。”等非法音节,其中的阿拉伯数字“180”根据情况转换为对应发音 汉字,然后将合法的待合成文本输入韵律预测模型,得到停顿级别标注,再把汉字 转换为拼音标记,即['jiu3','zhi1','tang2','#2','e1','jiao1','#1', 'bu3','xue4','#2','ke1','li4','#1','shou4','jia4','#2','yi1','bai3', 'ba1','shi2','yuan2','#1','yi1','he2','#4'],其中“#”为停顿标注; 再将拼音标注转换为音素标注,得到“j iou3 zh iii1 t ang2#2 e1j iao1#1 b u3 x ve4#2 k e1 l i4#1 sh ou4 j ia4#2 i1 b ai3 b a1 sh iii2 van2#1i1 h e2#4”;文本编码层采用CNN结构,将规范化后的文本序列输入到文本编码层得 到文本编码向量。
S14.对步骤S12提取的真实频谱特征分别输入音素级、音节级、句子级声学编 码层得到音素级、音节级、句子级声学编码向量,同时将步骤S12提取的频谱特征 分别通过音素级、音节级、句子级声学预测器得到音素级、音节级、句子级声学预 测向量;
可理解的是,为了获得音素级、音节级、句子级的声学编码向量并且加入到文 本编码向量中,需要保持音素级、音节级、句子级的声学编码向量的维度与文本编 码向量(即音素步长)一致,可选的,通过强制对齐算法获得频谱特征与文本之间 的对齐结果;频谱特征输入音素级、音节级声学编码层之前,根据频谱特征与文本 之间的对齐结果,分别对频谱特征在音素级、音节级上对每一帧进行平均;音节级 编码层的输出维度根据音素步长进行扩展,与音素步长保持一致;可选的,音素级、 音节级、句子级声学编码层均采用CNN网络结构;句子级声学编码层网络结构最后 一层为池化层,句子级声学编码层的输出维度根据音素步长进行扩展,与音素步长 保持一致;声学预测器与声学编码层网络结构保持一致;可理解的是,声学预测器 的输入为文本编码向量。
具体的,声学编码向量以及声学预测向量的提取过程如图2所示。
S15.将步骤S12得到的说话人识别向量、步骤S13得到的文本编码向量以及步 骤S14得到的音素级、音节级、句子级声学编码向量共同输入到解码层,得到预测 频谱特征。
可理解的,通过将说话人识别向量、文本编码向量以及音素级、音节级、句子 级声学编码向量进行相加,通过频谱特征与文本之间的对齐结果对相加后的向量进 行扩帧后输入到解码层;解码层网络结构包括但不限于CNN、Transformer等网络结 构;预测频谱特征与真实频谱特征步长一致。
其中,文本编码层包括但不限于CNN网络结构、Transformer网络结构;说话 人识别模块包括但不限于GE2E等说话人识别模型;采用的声码器包括但不限于 WaveNET、WavRNN、MelGAN。
如图2所示,模型的应用方法(即推理阶段)包括以下步骤:
S21.对待合成文本进行规范化处理,并对目标说话人音频样本提取真实频谱特征;
S22.对步骤S21提取的目标频谱特征输入到步骤S12中的预训练说话人识别模 型得到目标说话人识别向量,将步骤S21提取的目标频谱特征输入到S14中训练好 的声学预测器得到音素级、音节级、句子级目标声学预测向量;
S23.将步骤S21得到的文本输入到步骤S13训练好的编码层得到文本编码向 量;
S24.将步骤S22得到的音素级、音节级、句子级声学预测向量以及S23得到的 文本编码向量共同输入到步骤S15训练好的解码层,得到预测频谱特征;
S25.将步骤S24得到的预测频谱特征经预训练的声码器生成合成音频;
可理解的是,推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的文本的处理方式与训练阶段一致;训练阶段使用真实频谱特征与文 本的对齐结果对文本编码向量、声学编码向量、说话人识别向量进行扩帧,而推理 阶段采用时长预测器预测结果对文本编码向量、声学预测向量、说话人识别向量进 行扩帧;推理阶段不使用声学编码层。
同时,本发明还公开了一种语音合成装置,所述装置包括处理器以及存储器; 所述存储器用于存储指令,所述指令被所述处理器执行时,导致所述装置实现上述 任一项所述语音合成方法。
同时,本发明还公开了一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机运行上述任一项所述语音合 成方法。
综上可知,本申请的技术方案通过将自适应声学特征预测器得到的音素级、音 节级、句子级声学特征预测向量加入多说话人语音合成模型,在少样本个性化语音 合成的任务中提升了音质以及自然度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的 精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范 围之内。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取目标说话人的目标频谱特征;
基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;
基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;
基于编码模型对待合成文本的处理,获得文本编码向量;
基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;
基于声码模型对所述预测频谱特征的处理,获得合成音频。
2.根据权利要求1所述的方法,其特征在于,所述识别模型为机器学习模型,所述识别模型的训练样本包括多个不同说话人的音频及对应的文本。
3.根据权利要求1所述的方法,其特征在于,所述目标频谱特征包括以下至少一种:线性频谱特征、梅尔频谱特征。
4.根据权利要求1所述的方法,其特征在于,待合成文本为经预处理的合成文本,所述预处理包括筛选出非法音节、进行分词、词性标注。
5.根据权利要求4所述的方法,其特征在于,所述预处理还包括:
对所述合成文本进行综合语言学特征提取,并将提取的所述综合语言学特征输入到韵律预测模型,获得停顿级别标注;
将所述合成文本的中文汉字转换为对应的拼音音素。
6.根据权利要求1所述的方法,其特征在于,对所述目标频谱特征的处理还包括:通过强制对齐算法获得频谱特征与待合成文本之间的对齐结果;
根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均;
所述编码模型包括音素级编码模型、音节级编码模型、句子级编码模型;
所述音节级编码模型的输出维度根据音素步长进行扩展且与音素步长保持一致。
7.根据权利要求6所述的方法,其特征在于,所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量输入到解码模型之前先进行以下处理:
通过将所述语音识别向量、文本编码向量以及音素级、音节级、句子级目标声学预测向量进行相加,结合频谱特征与待合成文本之间的对齐结果对相加后的向量进行扩帧。
8.根据权利要求1-7中任一所述的方法,其特征在于,所述解码模型包括但不限于CNN、Transformer。
9.根据权利要求1-7中任一所述的方法,其特征在于,所述声码模型包括但不限于WaveNET、WavRNN、MelGAN。
10.一种语音合成系统,其特征在于,包括:
获取模块,用于获取目标说话人的目标频谱特征;
识别模块,用于基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;
预测模块,用于基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;
编码模块,用于基于编码模型对待合成文本的处理,获得文本编码向量;
解码模块,用于基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;
声码模块,用于基于声码模型对所述预测频谱特征的处理,获得合成音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111512624.8A CN114255735A (zh) | 2021-12-08 | 2021-12-08 | 语音合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111512624.8A CN114255735A (zh) | 2021-12-08 | 2021-12-08 | 语音合成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255735A true CN114255735A (zh) | 2022-03-29 |
Family
ID=80791927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111512624.8A Pending CN114255735A (zh) | 2021-12-08 | 2021-12-08 | 语音合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255735A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724541A (zh) * | 2022-04-20 | 2022-07-08 | 杭州倒映有声科技有限公司 | 一种声音克隆的方法 |
-
2021
- 2021-12-08 CN CN202111512624.8A patent/CN114255735A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724541A (zh) * | 2022-04-20 | 2022-07-08 | 杭州倒映有声科技有限公司 | 一种声音克隆的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7500020B2 (ja) | 多言語テキスト音声合成方法 | |
CN112863483B (zh) | 支持多说话人风格、语言切换且韵律可控的语音合成装置 | |
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
US5682501A (en) | Speech synthesis system | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
US5905972A (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
CN109313891B (zh) | 用于语音合成的系统和方法 | |
KR100391243B1 (ko) | 음조언어(tonallanguage)인식을위해콘텍스트의존형(contextdependent)부음절(sub-syllable)모델을생성하고사용하기위한시스템및방법 | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
Lu et al. | Implementing prosodic phrasing in chinese end-to-end speech synthesis | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN104217713A (zh) | 汉藏双语语音合成方法及装置 | |
CN112151005A (zh) | 一种中英文混合的语音合成方法及装置 | |
CN112786018A (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
CN112581963A (zh) | 一种语音意图识别方法及系统 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112309367A (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN115762466A (zh) | 一种合成不同情感音频的方法和装置 | |
CN113593522A (zh) | 一种语音数据标注方法和装置 | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
CN114255738A (zh) | 语音合成方法、装置、介质及电子设备 | |
CN114255735A (zh) | 语音合成方法及系统 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |