CN112802448A - 一种新音色生成的语音合成方法和系统 - Google Patents
一种新音色生成的语音合成方法和系统 Download PDFInfo
- Publication number
- CN112802448A CN112802448A CN202110007023.5A CN202110007023A CN112802448A CN 112802448 A CN112802448 A CN 112802448A CN 202110007023 A CN202110007023 A CN 202110007023A CN 112802448 A CN112802448 A CN 112802448A
- Authority
- CN
- China
- Prior art keywords
- speaker
- text
- phoneme
- frequency spectrum
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 58
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 58
- 238000001228 spectrum Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract 2
- 239000013598 vector Substances 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 abstract description 2
- 230000002457 bidirectional effect Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种新音色生成的语音合成方法和系统,属于语音合成领域。首先从文本和音频中提取音素发音的时长和梅尔频谱作为训练集,学习出与梅尔频谱长度对齐的文本编码表示;同时将说话人标签经过Embedding嵌入层生成说话人编码表示;再对说话人编码和文本编码表示进行组合,经过解码器输出合成的梅尔频谱,最后由声码器合成出语音。本发明对说话人编码信息进行线性组合能够得到多样性的新的说话人编码,从而合成出新音色的语音。节约了录制语音训练数据库的周期和成本,能够实现对新生成的音色进行调控;并且降低了模型的复杂度,使加入了音色生成功能的语音合成模型可以布置在低计算资源的硬件上,有利于在更多场景上的广泛应用。
Description
技术领域
本发明属于语音合成领域,涉及音色生成的语音合成方法及其系统。
背景技术
近年来随着深度学习的发展,语音合成技术也得到了很大程度上的提高。语音合成从传统的参数法和拼接法走向了端到端的方式。通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成:要生成当前数据点,必须生成时间序列里前面的所有数据点作为模型输入,像Taoctron,Taoctron 2,Deep voice 3,Clarinet,Tansformer TTS。尽管自回归的模型能够生成令人满意的结果,但是如果Attention产生的注意力不够好,则可能会导致合成的语音中有重复或者漏字的现象。
语音合成技术发展的同时,人们对音色的多样化需求也越来越多,一方面目前语音合成模型由于其复杂的网络结构,对计算资源的要求较高,不能在低计算资源的硬件上使用,而具备多说话人的语音合成模型相比普通的语音合成网络复杂度更大。另一方面是,新音色的产生一般要依赖于音库,但定制新的发音人音库工序较为复杂,存在周期长、费用高的问题,花费的人力和资源都比较多,现有技术中存在一些为了避免制定新音库而设计的对传统神经网络进行分批训练、组合声学参数的方式,由于传统神经网络对声学特征的提取信息十分有限,简单叠加声学参数来对音色的调控是不精确的,并且训练过程极其复杂,并未克服传统语音合成模型的缺陷。
发明内容
本发明的目的在于解决现有技术中针对多说话人的语音合成模型复杂度高,且对对语音合成的数据音色进行操作生成的方法过于依赖音库的问题,本发明提供了一种新音色生成的语音合成方法和系统,通过调控语音合成模型中的少量说话人向量,可以生成更多新的音色,十分方便对合成语音的音色进行控制。此外,本发明优化了语音合成模型的结构,降低了传统复杂的语音模型对计算资源的要求,克服了自回归网络结构的缺陷,提高了语音合成的自然度。
为了实现上述目的,本发明所采用的具体技术方案是:
本发明的一个目的在于提供一种新音色生成的语音合成方法,包括以下步骤:
1)获取样本文本及对应的真实语音音频、说话人标签,将真实语音音频转化为真实梅尔频谱,将样本文本处理得到音素序列,并提取文本对应音素的发音时长;
2)构建新音色生成的语音合成模型,包括说话人Embedding嵌入层、神经网络编码器、时长预测模块和解码器,所述的神经网络编码器由音素Embedding嵌入层、CBHG模块构成;
3)采用音素序列和说话人标签对构建的新音色生成的语音合成模型进行训练,具体为:
3.1)将说话人标签经过说话人Embedding嵌入层后得到说话人向量;
3.2)将音素序列依次经过音素Embedding嵌入层和CBHG模块处理后得到文本编码信息,所述文本编码信息经过时长预测模块获得预测发音时长;
3.3)针对文本编码信息及预测的发音时长信息,经过时长调节后和说话人编码信息一起作为解码器的输入,得到预测梅尔频谱;
3.4)根据预测的发音时长和真实的发音时长计算时长的损失,根据预测的梅尔频谱和真实的梅尔频谱计算梅尔频谱的损失;多种损失函数结合对新音色生成的语音合成模型进行端到端训练;
4)针对待合成的文本,经预处理后和指定的说话人标签一起作为训练好的新音色生成的语音合成模型的输入,得到预测梅尔频谱,再经声码器合成语音输出。
本发明的另一个目的在于提供一种用于实现上述方法的语音合成系统,包括:
文本预处理模块:用于将文本转化为音素序列,并且在语音合成系统处于训练模式时,还要根据文本对应的真实语音音频输出梅尔频谱和时长;
神经网络编码器:用于对音素序列进行编码,编码器内部配置有音素Embedding嵌入层、CBHG模块;
说话人标签库:存储有样本文本对应的真实语音音频的说话人标签;
说话人信息调控模块:用于从说话人标签库中选择说话人标签并转化为说话人向量,其中在训练模式下,将样本文本对应的真实语音音频的说话人标签作为对象;在预测模式下,从说话人标签库中选择指定的说话人标签、或者对若干个指定的说话人标签进行加权组合形成新的标签作为对象;
时长预测模块:用于对神经网络编码器输出的文本编码信息进行时长预测,输出预测时长;
对齐模块:将神经网络编码器输出的文本编码信息通过预测时长进行对齐,在训练模式下,需要达到和真实梅尔频谱的长度一致;在预测模式下,根据训练好的时长预测模块输出每一个单词的预测时长,根据预测时长对每一个单词进行长度扩充,扩充后得到经过时长调节后的文本编码信息;
解码器:用于对经过时长调节后的文本编码信息和说话人向量进行组合,并对组合后的编码信息进行解码,获得预测梅尔频谱;
声码器:在混合语音合成系统处于语音合成模式时开启,自动读取解码器输出的预测梅尔频谱,并转化为声音信号进行语音播放。
与现有技术相比,本发明具备的有益效果是:
(1)相对于传统的新音色合成模型需要将语音模型和音色控制模型分开构造和训练的方法,本发明能够直接从说话人标签经过说话人Embedding嵌入层后得到说话人向量,并将说话人向量组合到编码器生成的编码信息中再进行共同解码,将说话人向量引入到了模型的端对端训练中,通过调节说话人向量即可实现音色的控制。
(2)本发明的对新音色的生成采用已有音色的线性组合运算,生成新音色的方式灵活多样,还可以通过改变组合音色加权的权重系数实现音色的精确调控。
(3)本发明通过引入时长预测模块,简化了语音合成模型训练的复杂度,由于传统的端到端语音合成模型采用注意力模块动态对齐文本和音频的过程需要大量的计算资源消耗以及时间消耗,而本发明避免了通过自回归注意力的形式进行文本和音频的对齐过程,从而降低了对计算资源的要求,节约了模型的计算成本,这样使得加入了音色生成功能的语音合成模型依然可以布置在低计算资源的硬件上,快速对目标语音进行合成,提高了该模型的应用前景。
附图说明
图1是本发明的一种新音色生成的语音合成方法的示意图;
图2是本发明的时长预测模块的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
本发明针对于文本和从音频中提取的音素发音的时长和梅尔频谱作为训练集,相比于一般的新音色生成的语音合成解决方案,本发明利用说话人Embedding来实现新音色生成,不需要对多个说话人分阶段进行训练。
如图1所示,本发明的一种新音色生成的语音合成方法包括如下步骤:
步骤一、获取样本文本及对应的真实语音音频、说话人标签,将真实语音音频转化为真实梅尔频谱,将样本文本处理得到音素序列,并提取文本对应音素的发音时长;
步骤二、构建新音色生成的语音合成模型,包括说话人Embedding嵌入层、神经网络编码器、时长预测模块和解码器,所述的神经网络编码器由音素Embedding嵌入层、CBHG模块构成;
步骤三、采用音素序列和说话人标签对构建的新音色生成的语音合成模型进行训练;
步骤四、针对待合成的文本,经预处理后和指定的说话人标签一起作为训练好的新音色生成的语音合成模型的输入,得到预测梅尔频谱,再经声码器合成语音输出。
在本发明的一项具体实施中,本发明采用的新音色生成的语音合成模型首先利用神经网络编码器、时长预测模块对文本进行处理,再利用说话人Embedding嵌入层对说话人信息进行处理,将文本结果和说话信息组合后通过解码器进行解码。所述的神经网络编码器由音素Embedding嵌入层、CBHG模块。
输入的文本在新音色生成的模型的传输和处理过程为:
1)构建音素字典,针对文本转成对应的发音音素,采用音素字典将音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度,wi表示文本中的第i个单词对应的音素信息。
2)针对说话人标签构建说话人标签库,用于存储说话人标签s1,s2,…,sk,其中k为说话人的个数。说话人标签经过说话人Embedding嵌入层转化为说话人向量序列Si;
3)对于序列化的文本数据(音素序列w1,w2,…,wU)经过音素Embedding嵌入层转化为音素向量序列x1,x2,…,xU。
x1,x2,…,xU=Embedding(w1,w2,…,wU);
xi表示文本中的第i个单词对应的音素向量,Embedding(·)表示嵌入处理。
4)对于转化的音素向量序列x1,x2,…,xU输入到CBHG模块,产生的结果经过时长预测模块生成预测的时长;本实施例采用的CBHG模块包含一个一维卷积滤波器组,这些卷积核对当前以及上下文信息有效建模。后接一个多层高速公路网络,用以提取更高级别的特征。最后通过一个双向门控循环单元GRU、循环神经网络RNN,用于提取序列的上下文特征。
通过公式表示为:
t1,t2,…,tU=CBHG(x1,x2,…,xu)
其中,ti为文本中第i个音素的编码信息;
5)将文本编码信息t1,t2,…,tU结合时长预测模块进行长度扩充,长度扩充的标准为:在训练阶段,需要达到和真实梅尔频谱的长度一致;在预测阶段,根据训练好的时长预测模块输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充;扩充后得到经过时长调节后的文本编码信息t1,t2,…,tT,T为提取的真实梅尔频谱的帧数。
时长预测模块的网络结构:三个一维卷积层和正则化层用于特征分离;一个双向的GRU学习前后音素特征之间的关系;最后经过一个线性仿射变换对时长进行预测。
t1,t2,…,tT=State_Expand(t1,t2,…,tu,)
6)对说话人向量序列Si与文本编码信息t1,t2,…,tT进行组合文本编码特征E1,E2,…,ET;
E1,E2,…,ET=t1,t2,…,tT+Si
其中,E1,E2,…,ET为组合后的文本编码信息,t1,t2,…,tT为经过时长调节后的文本编码信息,在模型的训练阶段,Si为训练集中某个说话人的向量序列,在模型的推理阶段生成新的说话人向量,n为说话人数量,wk是Sk的权重。
7)针对文本编码特征E1,E2,…,ET进行解码,生成预测的梅尔频谱;
最后生成的梅尔频谱经过一般的声码器合成出音色可控的语音。
在本发明的一项具体实施中,如图2所示,所述时长预测模块由三个一维卷积层和正则化层、一个双向门控循环单元GRU和一个线性仿射变换构成。
相比于传统的将多种数据分开进行训练的方法,本发明采用直接从文本到声学特征的方式,采用端到端的训练方式,根据根据预测时长和真实时长计算时长损失,根据预测梅尔频谱和真实梅尔频谱计算梅尔频谱损失;结合多种损失值对模型进行端到端训。
本发明还公开了一种新音色生成的语音合成系统,包括:
文本预处理模块(前端):用于将文本转化为音素序列,并且在系统处于训练模式时,还要根据文本对应的标准语音音频输出真实梅尔频谱和真实时长。
神经网络编码器:用于对音素序列进行编码,编码器内部配置有音素Embedding嵌入层、CBHG模块。
说话人标签库:存储有样本文本对应的真实语音音频的说话人标签;
说话人信息调控模块:用于从说话人标签库中选择说话人标签并转化为说话人向量,其中在训练模式下,将样本文本对应的真实语音音频的说话人标签作为对象;在预测模式下,从说话人标签库中选择指定的说话人标签、或者对若干个指定的说话人标签进行加权组合形成新的标签作为对象。
时长预测模块:用于对神经网络编码器输出的文本编码信息进行时长预测,输出预测时长。该模块的引入避免了通过自回归注意力的形式进行文本和音频的对齐过程,从而降低了对计算资源的要求,节约了模型的计算成本,使得加入了音色生成功能的语音合成模型依然可以布置在低计算资源的硬件上,快速实现目标音色下语音的合成。
对齐模块:将编码器输出的文本编码信息通过预测时长进行对齐,在训练阶段,需要达到和真实梅尔频谱的长度一致;在预测阶段,根据训练好的时长预测模块输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充;扩充后得到经过时长调节后的文本编码信息t1,t2,…,tT,T为提取的真实梅尔频谱的帧数。
解码器:用于对经过时长调节后的文本编码信息和说话人向量进行组合,并对组合后的编码信息进行解码,获得语音梅尔频谱;
声码器:在混合语音合成系统处于语音合成模式时开启,自动读取解码器输出的语音梅尔频谱,并转化为声音信号进行语音播放。
所述的新音色生成的语音合成系统在使用之前需要先完成训练,训练过程需要根据预测时长和真实时长计算时长损失,根据预测梅尔频谱和真实梅尔频谱计算梅尔频谱损失;结合多种损失值对模型进行端到端训练。
具体的,文本预处理模块(前端)主要功能是接收文本数据,并对文本进行规范化,解析XML标签,将规范文本利用音素字典将音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度。
具体的,编码器的主要功能是训练学习出当前样本的音素序列的文本特征,从而能够将音素序列转化为能够代表文本特征的固定维度向量。
具体的,所述的时长预测模块和对齐模块用于将编码器输出的编码信息进行长度扩充,时长预测模块的引入简化了语音合成模型训练的复杂度。
具体的,所述的解码器相比于传统的解码器结构简单,仅由一个双向的LSTM和一个线性仿射变换组成,大大提高了解码速度。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在包含了8个说话人46500条音频和相应的文本数据集上进行测试。本发明对于数据集进行如下预处理:
1)提取音素文件与相应的音频,利用开源工具Montreal-forced-aligner对音素的发音时长进行提取。
2)对于每一个音频提取梅尔频谱,其中窗口大小为50毫秒,帧移的大小为12.5毫秒,维度为80维。
3)对于从音频中提取出的梅尔频谱进行在维度上的求和得到梅尔频谱的能量。
在对模型进行训练的过程中,将文本信息作为神经网络编码器的输入进行编码,将该文本对应的音频说话人标签作为说话人Embedding嵌入层的输入,将说话人向量和时长调节后的文本编码信息拼接,共同作为解码器的输入,以标准梅尔频谱为目标进行训练。通过将说话人向量引入到了模型的端对端训练中,得到了音色可控的语音合成模型。在模型处于预测模式下时,通过调节说话人向量即可实现音色的控制,在本实施例中,通过将8个说话人标签进行加权组合,通过改变组合音色加权的权重系数来精确调控合成语音的实现,生成新音色的方式灵活多样,不在依赖于原始音库。
本发明的新音色生成的系统实现了语音合成过程的说话人音色的可控操作;除了支持多个已有的说话人外;实现了新的说话人的生成,有利于语音合成系统在更多场景的广泛应用。
以上实施例的各种技术特征可以任意组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行详细的描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
Claims (10)
1.一种新音色生成的语音合成方法,其特征在于,包括以下步骤:
1)获取样本文本及对应的真实语音音频、说话人标签,将真实语音音频转化为真实梅尔频谱,将样本文本处理得到音素序列,并提取文本对应音素的发音时长;
2)构建新音色生成的语音合成模型,包括说话人Embedding嵌入层、神经网络编码器、时长预测模块和解码器,所述的神经网络编码器由音素Embedding嵌入层、CBHG模块构成;
3)采用音素序列和说话人标签对构建的新音色生成的语音合成模型进行训练,具体为:
3.1)将说话人标签经过说话人Embedding嵌入层后得到说话人向量;
3.2)将音素序列依次经过音素Embedding嵌入层和CBHG模块处理后得到文本编码信息,所述文本编码信息经过时长预测模块获得预测发音时长;
3.3)针对文本编码信息及预测的发音时长信息,经过时长调节后和说话人编码信息一起作为解码器的输入,得到预测梅尔频谱;
3.4)根据预测的发音时长和真实的发音时长计算时长的损失,根据预测的梅尔频谱和真实的梅尔频谱计算梅尔频谱的损失;多种损失函数结合对新音色生成的语音合成模型进行端到端训练;
4)针对待合成的文本,经预处理后和指定的说话人标签一起作为训练好的新音色生成的语音合成模型的输入,得到预测梅尔频谱,再经声码器合成语音输出。
2.根据权利要求1所述的一种新音色生成的语音合成方法,其特征在于,步骤1)所述的将样本文本处理得到音素序列,具体为:构建音素字典,将文本转成对应的发音音素;采用音素字典将音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度。
3.根据权利要求1所述的一种新音色生成的语音合成方法,其特征在于,所述的步骤3.1)具体为:对于说话人标签si,i=1,2,3,...,经过说话人Embedding嵌入层转化为说话人向量Si。
4.根据权利要求1所述的一种新音色生成的语音合成方法,其特征在于,所述的步骤3.2)具体为:
3.2.1)对于音素序列w1,w2,…,wU,经过音素Embedding嵌入层转化为音素向量序列x1,x2,…,xU;
3.2.2)将转化的音素向量序列作为CBHG模块的输入,生成文本编码信息t1,t2,…,tU,将CBHG模块的输出结果经过时长预测模块生成预测的发音时长。
5.根据权利要求4所述的一种新音色生成的语音合成方法,其特征在于,步骤3.3)所述的时长调节具体为:将文本编码信息t1,t2,…,tU结合时长预测模块进行长度扩充,长度扩充的标准为:在训练阶段,需要达到和真实梅尔频谱的长度一致;在预测阶段,根据训练好的时长预测模块输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充;扩充后得到经过时长调节后的文本编码信息t1,t2,…,tT,T为提取的真实梅尔频谱的帧数。
6.根据权利要求5所述的一种新音色生成的语音合成方法,其特征在于,将时长调节后的文本编码信息t1,t2,…,tT和说话人向量Si进行拼接,拼接后作为步骤3.3)中的解码器的输入。
7.根据权利要求1所述的一种新音色生成的语音合成方法,其特征在于,所述解码器由一个双向的LSTM和一个线性仿射变换组成。
8.根据权利要求1所述的一种新音色生成的语音合成方法,其特征在于,所述时长预测模块由三个一维卷积层和正则化层、一个双向门控循环单元GRU和一个线性仿射变换构成。
9.根据权利要求1所述的一种新音色生成的语音合成方法,其特征在于,步骤4)所述的指定的说话人标签为训练数据中的其中一个说话人标签,或者是训练数据中的若干个说话人标签加权组合而成的标签。
10.一种基于权利要求1所述新音色生成的语音合成方法的语音合成系统,其特征在于,包括:
文本预处理模块:用于将文本转化为音素序列,并且在语音合成系统处于训练模式时,还要根据文本对应的真实语音音频输出梅尔频谱和时长;
神经网络编码器:用于对音素序列进行编码,编码器内部配置有音素Embedding嵌入层、CBHG模块;
说话人标签库:存储有样本文本对应的真实语音音频的说话人标签;
说话人信息调控模块:用于从说话人标签库中选择说话人标签并转化为说话人向量,其中在训练模式下,将样本文本对应的真实语音音频的说话人标签作为对象;在预测模式下,从说话人标签库中选择指定的说话人标签、或者对若干个指定的说话人标签进行加权组合形成新的标签作为对象;
时长预测模块:用于对神经网络编码器输出的文本编码信息进行时长预测,输出预测时长;
对齐模块:将神经网络编码器输出的文本编码信息通过预测时长进行对齐,在训练模式下,需要达到和真实梅尔频谱的长度一致;在预测模式下,根据训练好的时长预测模块输出每一个单词的预测时长,根据预测时长对每一个单词进行长度扩充,扩充后得到经过时长调节后的文本编码信息;
解码器:用于对经过时长调节后的文本编码信息和说话人向量进行组合,并对组合后的编码信息进行解码,获得预测梅尔频谱;
声码器:在混合语音合成系统处于语音合成模式时开启,自动读取解码器输出的预测梅尔频谱,并转化为声音信号进行语音播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110007023.5A CN112802448B (zh) | 2021-01-05 | 2021-01-05 | 一种新音色生成的语音合成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110007023.5A CN112802448B (zh) | 2021-01-05 | 2021-01-05 | 一种新音色生成的语音合成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802448A true CN112802448A (zh) | 2021-05-14 |
CN112802448B CN112802448B (zh) | 2022-10-11 |
Family
ID=75808209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110007023.5A Active CN112802448B (zh) | 2021-01-05 | 2021-01-05 | 一种新音色生成的语音合成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802448B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327575A (zh) * | 2021-05-31 | 2021-08-31 | 广州虎牙科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
CN113327580A (zh) * | 2021-06-01 | 2021-08-31 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN113421571A (zh) * | 2021-06-22 | 2021-09-21 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
CN113488021A (zh) * | 2021-08-09 | 2021-10-08 | 杭州小影创新科技股份有限公司 | 一种提高语音合成自然度的方法 |
CN113707127A (zh) * | 2021-08-30 | 2021-11-26 | 中国科学院声学研究所 | 一种基于线性自注意力的语音合成方法及系统 |
CN113763924A (zh) * | 2021-11-08 | 2021-12-07 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
CN113921024A (zh) * | 2021-09-28 | 2022-01-11 | 平安科技(深圳)有限公司 | 发音特征的提取方法、装置、设备及存储介质 |
CN114220414A (zh) * | 2021-10-29 | 2022-03-22 | 广州虎牙科技有限公司 | 语音合成方法以及相关装置、设备 |
CN114724541A (zh) * | 2022-04-20 | 2022-07-08 | 杭州倒映有声科技有限公司 | 一种声音克隆的方法 |
CN115240630A (zh) * | 2022-07-22 | 2022-10-25 | 山东大学 | 一种中文文本到个性化语音转换方法及系统 |
WO2022252904A1 (zh) * | 2021-06-03 | 2022-12-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 |
WO2022257454A1 (zh) * | 2021-06-09 | 2022-12-15 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN116092474A (zh) * | 2023-04-07 | 2023-05-09 | 北京边锋信息技术有限公司 | 一种语音合成方法、装置 |
CN117496944A (zh) * | 2024-01-03 | 2024-02-02 | 广东技术师范大学 | 一种多情感多说话人语音合成方法和系统 |
CN118116363A (zh) * | 2024-04-26 | 2024-05-31 | 厦门蝉羽网络科技有限公司 | 基于时间感知位置编码的语音合成方法及其模型训练方法 |
CN118430512A (zh) * | 2024-07-02 | 2024-08-02 | 厦门蝉羽网络科技有限公司 | 一种提升音素发音时长准确性的语音合成方法、装置 |
CN118430512B (zh) * | 2024-07-02 | 2024-10-22 | 厦门蝉羽网络科技有限公司 | 一种提升音素发音时长准确性的语音合成方法、装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成系统及其实现方法 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
KR20190085882A (ko) * | 2018-01-11 | 2019-07-19 | 네오사피엔스 주식회사 | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
CN110473515A (zh) * | 2019-08-29 | 2019-11-19 | 郝洁 | 一种基于WaveRNN的端到端语音合成方法 |
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111292719A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111508511A (zh) * | 2019-01-30 | 2020-08-07 | 北京搜狗科技发展有限公司 | 实时变声方法及装置 |
CN111583944A (zh) * | 2019-01-30 | 2020-08-25 | 北京搜狗科技发展有限公司 | 变声方法及装置 |
CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
CN112151005A (zh) * | 2020-09-28 | 2020-12-29 | 四川长虹电器股份有限公司 | 一种中英文混合的语音合成方法及装置 |
-
2021
- 2021-01-05 CN CN202110007023.5A patent/CN112802448B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成系统及其实现方法 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
KR20190085882A (ko) * | 2018-01-11 | 2019-07-19 | 네오사피엔스 주식회사 | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN111508511A (zh) * | 2019-01-30 | 2020-08-07 | 北京搜狗科技发展有限公司 | 实时变声方法及装置 |
CN111583944A (zh) * | 2019-01-30 | 2020-08-25 | 北京搜狗科技发展有限公司 | 变声方法及装置 |
CN110473515A (zh) * | 2019-08-29 | 2019-11-19 | 郝洁 | 一种基于WaveRNN的端到端语音合成方法 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111292719A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN112151005A (zh) * | 2020-09-28 | 2020-12-29 | 四川长虹电器股份有限公司 | 一种中英文混合的语音合成方法及装置 |
CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
Non-Patent Citations (2)
Title |
---|
JAEJIN CHO等: "Learning Speaker Embedding from Text-to-Speech", 《ARXIV》 * |
RJ SKERRY-RYAN等: "Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron", 《ARXIV》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327575A (zh) * | 2021-05-31 | 2021-08-31 | 广州虎牙科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
CN113327575B (zh) * | 2021-05-31 | 2024-03-01 | 广州虎牙科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
CN113327580A (zh) * | 2021-06-01 | 2021-08-31 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
WO2022252904A1 (zh) * | 2021-06-03 | 2022-12-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 |
WO2022257454A1 (zh) * | 2021-06-09 | 2022-12-15 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN113421571A (zh) * | 2021-06-22 | 2021-09-21 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
CN113488021A (zh) * | 2021-08-09 | 2021-10-08 | 杭州小影创新科技股份有限公司 | 一种提高语音合成自然度的方法 |
CN113707127A (zh) * | 2021-08-30 | 2021-11-26 | 中国科学院声学研究所 | 一种基于线性自注意力的语音合成方法及系统 |
CN113707127B (zh) * | 2021-08-30 | 2023-12-15 | 中国科学院声学研究所 | 一种基于线性自注意力的语音合成方法及系统 |
CN113921024A (zh) * | 2021-09-28 | 2022-01-11 | 平安科技(深圳)有限公司 | 发音特征的提取方法、装置、设备及存储介质 |
CN114220414A (zh) * | 2021-10-29 | 2022-03-22 | 广州虎牙科技有限公司 | 语音合成方法以及相关装置、设备 |
CN113763924B (zh) * | 2021-11-08 | 2022-02-15 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
CN113763924A (zh) * | 2021-11-08 | 2021-12-07 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
CN114724541A (zh) * | 2022-04-20 | 2022-07-08 | 杭州倒映有声科技有限公司 | 一种声音克隆的方法 |
CN115240630A (zh) * | 2022-07-22 | 2022-10-25 | 山东大学 | 一种中文文本到个性化语音转换方法及系统 |
CN116092474A (zh) * | 2023-04-07 | 2023-05-09 | 北京边锋信息技术有限公司 | 一种语音合成方法、装置 |
CN117496944A (zh) * | 2024-01-03 | 2024-02-02 | 广东技术师范大学 | 一种多情感多说话人语音合成方法和系统 |
CN117496944B (zh) * | 2024-01-03 | 2024-03-22 | 广东技术师范大学 | 一种多情感多说话人语音合成方法和系统 |
CN118116363A (zh) * | 2024-04-26 | 2024-05-31 | 厦门蝉羽网络科技有限公司 | 基于时间感知位置编码的语音合成方法及其模型训练方法 |
CN118430512A (zh) * | 2024-07-02 | 2024-08-02 | 厦门蝉羽网络科技有限公司 | 一种提升音素发音时长准确性的语音合成方法、装置 |
CN118430512B (zh) * | 2024-07-02 | 2024-10-22 | 厦门蝉羽网络科技有限公司 | 一种提升音素发音时长准确性的语音合成方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112802448B (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112802448B (zh) | 一种新音色生成的语音合成方法和系统 | |
CN112863483B (zh) | 支持多说话人风格、语言切换且韵律可控的语音合成装置 | |
CN112802450B (zh) | 一种韵律可控的中英文混合的语音合成方法及其系统 | |
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
CN112687259B (zh) | 一种语音合成方法、装置以及可读存储介质 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN110534089A (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
CN106971709A (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
CN117831574A (zh) | 一种基于文本情感的中文情感语音合成方法、系统、设备及介质 | |
Zhao et al. | Research on voice cloning with a few samples | |
CN112242134B (zh) | 语音合成方法及装置 | |
CN114783410B (zh) | 语音合成方法、系统、电子设备和存储介质 | |
CN110347426A (zh) | 一种智能发布app平台系统及其方法 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
Xie et al. | A new high quality trajectory tiling based hybrid TTS in real time | |
CN111063335A (zh) | 一种基于神经网络的端到端声调识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |