CN112820266B - 一种基于跳跃编码器的并行端到端语音合成方法 - Google Patents
一种基于跳跃编码器的并行端到端语音合成方法 Download PDFInfo
- Publication number
- CN112820266B CN112820266B CN202011599744.1A CN202011599744A CN112820266B CN 112820266 B CN112820266 B CN 112820266B CN 202011599744 A CN202011599744 A CN 202011599744A CN 112820266 B CN112820266 B CN 112820266B
- Authority
- CN
- China
- Prior art keywords
- encoder
- skip
- method based
- text
- synthesis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及语音合成技术领域,具体涉及一种基于跳跃编码器的并行端到端语音合成方法,包括以下步骤:步骤一:将文本与韵律标记一起输入到编码器模块;步骤二:将编码器的输出输入到跳跃编码器,跳过输出序列中韵律标记对应时间步的特征,保留文本内容对应的隐特征;步骤三:通过FastSpeech的时长模型对得到的文本隐特征进行扩充;步骤四:将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码,得到合成语音的频谱特征;步骤五:使用声码器将频谱特征映射为声音波形,得到合成的语音。本发明的基于跳跃编码器的并行端到端语音合成方法,引入了跳跃编码器,同时实现了语音合成系统中高效率以及高自然度的要求。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及一种基于跳跃编码器的并行端到端语音合成方法。
背景技术
Text-to-speech语音合成是将输入的文本转换为标准流畅的人类语音的任务。语音合成系统的质量评价一般分为以下几个方面,自然度,鲁棒性以及生成语音的准确性。在实际的应用场景下,整个系统的延迟,计算复杂度以及合成耗时等也都是需要考虑的因素。
传统的语音合成技术包括连接法以及统计参数法。其中,连接法通过事先录制好大量的语音,合成时根据文本内容选取大量的基本单元连接成流畅的语音,然而这种方法对录制的语音有较高覆盖率的要求,所建立的数据库也较为庞大,实际在设备上使用时往往会受到设备容量的限制;统计参数法则是根据统计模型来建立文本特征到声学特征的映射,再用这些声学特征还原成波形,此类方法不需要事先录制语音,但是合成语音的质量偏低。这些传统方法都是基于声学特征的分析以及合成来实现,这些方法由于具备鲁棒性强以及准确性强的特点,在工业界被较为广泛地使用。然而,这些方法共通的缺点是合成的语音在自然度上缺陷较大。
近些年来,随着深度学习的发展,端到端的语音合成方法越来越多,比起传统方法,端到端的语音合成能得到更具备自然度的语音,同时因为直接建模文本信息到频谱的映射,大幅简化了合成的流程。现阶段,主流的端到端的语音合成方法有两类。一类是基于Google提出的Tacotron 2。Tacotron 2基于sequence-to-sequence模型进行设计,分为编码器和解码器两个模块,其中编码器主要由双向LSTM组成,负责将文本内容编码为蕴含上下文信息的隐特征,解码器部分则是自回归的形式,同样以LSTM单元为主,在每一个时间步考虑上一时间步的频谱输出,同时使用注意力机制对编码器输出的隐特征进行加权求和,综合得到当前时间步的频谱输出;另一类是基于微软浙大联合提出的FastSpeech,同样主要由编码器和解码器两个模块构成,两个模块均使用了Transformer的结构,由多个堆叠的自注意力层组成,特别地,解码器部分为非自回归结构,通过时长模型对齐编码器输出与解码器输入,实现了并行解码。两类模型在结构上的差异导致了效率效果的差异,基于Tacotron 2的方法由于自回归的结构,合成语音在自然度上更好,但是难以实现计算的并行,导致合成的效率较低;基于FastSpeech的方法由于非自回归的结构,在GPU环境下合成效率能提升两个数量级,然而语音的自然度不如基于Tacotron 2的方法。
韵律,指的是文本中蕴含的除文本内容之外的信息,包括语调、重音、节奏以及说话的风格。在中文text-to-speech语音合成系统中,韵律对自然度有很大的影响。因此,在中文的合成系统中,除了文本信息之外,往往还会在文本之间插入表示韵律词,韵律短语,语调短语的标记,让合成的语音更具备韵律感。在中文语音合成的场景中应用上述两类方法时会面临一些问题。中国专利CN111739508A公开了一种基于DNN-HMM双模态对齐网络的端到端语音合成方法及系统,该方法为基于Tacotron2的方法,可以学习到较好的韵律,但是无法实现计算的并行;而基于FastSpeech的方法则因为无法对韵律标记应用时长模型,导致合成语音韵律感较差。
发明内容
为了克服现有技术所存在的缺陷,本发明提供了一种基于跳跃编码器的并行端到端语音合成方法,引入了跳跃编码器,同时实现了语音合成系统中高效率以及高自然度的要求。
为解决上述技术问题,本发明提供以下技术方案:
一种基于跳跃编码器的并行端到端语音合成方法,包括以下步骤:
步骤一:将文本与韵律标记一起输入到编码器模块;
步骤二:将编码器的输出输入到跳跃编码器,跳过输出序列中韵律标记对应时间步的特征,保留文本内容对应的隐特征;
步骤三:通过FastSpeech的时长模型对得到的文本隐特征进行扩充;
步骤四:将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码,得到合成语音的频谱特征;
步骤五:使用声码器将频谱特征映射为声音波形,得到合成的语音。
进一步的,包括以下流程:
S1、获取训练样本;
S2、进行模型训练阶段;
S3、进行模型预测阶段;
S4、根据实际应用场景与合成语音的效果,对各个模块的参数进行调整,使语音质量符合要求。
进一步的,在流程S1中,所述样本形式为文本、时长和频谱。
进一步的,文本中带有韵律标记,不同韵律标记的符号按实际情况确定,韵律标记为标注或使用韵律模型生成,时长部分由标注得到或者使用音字对齐模型获取。
进一步的,所述韵律标记包括韵律词、韵律短语以及语调短语。
进一步的,在流程S2中,还包括以下流程:
S21、初始化模型各模块的参数,文本经过前端模块转化为带韵律标记的音素序列,计算得到编码后的隐特征,接着经过跳跃编码器,内部通过掩码操作过滤不参与解码的隐特征,得到实际参与解码的文本对应的隐特征;
S22、使用训练数据中的时长特征对隐特征进行扩增,与目标频谱进行对齐;
S23、生成频谱;
S24、据实际需要设计误差函数与更新策略,训练至模型收敛。
进一步的,在流程S21中,文本经过前端模块转化为带韵律标记的音素序列,经过基于LSTM或者Transformer的编码器计算得到编码后的隐特征。
进一步的,在流程S23中,经过FastSpeech的解码器生成频谱。
进一步的,在流程S3中,主要流程内容为:扩增隐特征所需要的时长,由训练好的时长模型进行预测,其余流程与模型训练阶段相同,得到生成的频谱后使用预训练的声码器模型或相位恢复算法得到最终的合成语音。
进一步的,在步骤一中,所述编码器模块为Tacotron2的编码器模块或FastSpeech的编码器模块。
与现有技术相比,本发明具有以下有益效果:
1、相比基于Tacotron 2的方法,由于采用了基于FastSpeech方法中并行计算的解码器,本发明在合成效率上有了两个数量级的提升;
2、相比基于FastSpeech的方法,通过引入跳跃编码器,使得合成语音的自然度有了明显的改善;
3、本发明引入的跳跃编码器的计算复杂度低,不影响整个语音合成系统的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据附图获得其他的附图。
图1为本发明的一种基于跳跃编码器的并行端到端语音合成方法的流程图;
图2为本发明的一种基于跳跃编码器的并行端到端语音合成方法的跳跃编码器的操作原理图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例包括:
实施例1:
一种基于跳跃编码器的并行端到端语音合成方法,包括以下步骤:
步骤一:将文本与韵律标记一起输入到编码器模块;
步骤二:将编码器的输出输入到跳跃编码器,跳过输出序列中韵律标记对应时间步的特征,保留文本内容对应的隐特征;
步骤三:通过FastSpeech的时长模型对得到的文本隐特征进行扩充;
步骤四:将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码,得到合成语音的频谱特征;
步骤五:使用声码器将频谱特征映射为声音波形,得到合成的语音。
如图1所示,具体包括以下流程:
S1、获取训练样本;
S2、进行模型训练阶段;
S3、进行模型预测阶段;
S4、根据实际应用场景与合成语音的效果,对各个模块的参数进行调整,使语音质量符合要求。
在本实施例中,在流程S1中,样本形式为文本、时长和频谱。
在本实施例中,文本中带有韵律标记,不同韵律标记的符号按实际情况确定,韵律标记为标注或使用韵律模型生成,时长部分由标注得到或者使用音字对齐模型获取。
在本实施例中,韵律标记包括韵律词、韵律短语以及语调短语。
在本实施例中,在流程S2中,还包括以下流程:
S21、初始化模型各模块的参数,文本经过前端模块转化为带韵律标记的音素序列,计算得到编码后的隐特征,接着经过跳跃编码器,跳跃编码器操作如图2所示,内部通过掩码操作过滤不参与解码的隐特征,得到实际参与解码的文本对应的隐特征;
S22、使用训练数据中的时长特征对隐特征进行扩增,与目标频谱进行对齐;
S23、生成频谱;
S24、据实际需要设计误差函数与更新策略,训练至模型收敛。
在本实施例中,在流程S21中,文本经过前端模块转化为带韵律标记的音素序列,经过基于LSTM或者Transformer的编码器计算得到编码后的隐特征。
在本实施例中,在流程S23中,经过FastSpeech的解码器生成频谱。
在本实施例中,在流程S3中,主要流程内容为:扩增隐特征所需要的时长,由训练好的时长模型进行预测,其余流程与模型训练阶段相同,得到生成的频谱后使用预训练的声码器模型或相位恢复算法得到最终的合成语音。
在本实施例中,在步骤一中,编码器模块为Tacotron2的编码器模块或FastSpeech的编码器模块。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于跳跃编码器的并行端到端语音合成方法,其特征在于,包括以下步骤:
步骤一:将文本与韵律标记一起输入到编码器模块;
步骤二:将编码器的输出输入到跳跃编码器,跳过输出序列中韵律标记对应时间步的特征,保留文本内容对应的隐特征;
步骤三:通过FastSpeech的时长模型对得到的文本隐特征进行扩充;
步骤四:将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码,得到合成语音的频谱特征;
步骤五:使用声码器将频谱特征映射为声音波形,得到合成的语音。
2.根据权利要求1所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,包括以下流程:
S1、获取训练样本;
S2、进行模型训练阶段;
S3、进行模型预测阶段;
S4、根据实际应用场景与合成语音的效果,对各个模块的参数进行调整,使语音质量符合要求。
3.根据权利要求2所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S1中,所述样本形式为文本、时长和频谱。
4.根据权利要求3所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,文本中带有韵律标记,不同韵律标记的符号按实际情况确定,韵律标记为标注或使用韵律模型生成,时长部分由标注得到或者使用音字对齐模型获取。
5.根据权利要求4所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,所述韵律标记包括韵律词、韵律短语以及语调短语。
6.根据权利要求5所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S2中,还包括以下流程:
S21、初始化模型各模块的参数,文本经过前端模块转化为带韵律标记的音素序列,计算得到编码后的隐特征,接着经过跳跃编码器,内部通过掩码操作过滤不参与解码的隐特征,得到实际参与解码的文本对应的隐特征;
S22、使用训练数据中的时长特征对隐特征进行扩增,与目标频谱进行对齐;
S23、生成频谱;
S24、据实际需要设计误差函数与更新策略,训练至模型收敛。
7.根据权利要求6所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S21中,文本经过前端模块转化为带韵律标记的音素序列,经过基于LSTM或者Transformer的编码器计算得到编码后的隐特征。
8.根据权利要求7所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S23中,经过FastSpeech的解码器生成频谱。
9.根据权利要求8所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S3中,主要流程内容为:扩增隐特征所需要的时长,由训练好的时长模型进行预测,其余流程与模型训练阶段相同,得到生成的频谱后使用预训练的声码器模型或相位恢复算法得到最终的合成语音。
10.根据权利要求1至9中任一项所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在步骤一中,所述编码器模块为Tacotron2的编码器模块或FastSpeech的编码器模块。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202011599744.1A CN112820266B (zh) | 2020-12-29 | 2020-12-29 | 一种基于跳跃编码器的并行端到端语音合成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202011599744.1A CN112820266B (zh) | 2020-12-29 | 2020-12-29 | 一种基于跳跃编码器的并行端到端语音合成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN112820266A CN112820266A (zh) | 2021-05-18 |
| CN112820266B true CN112820266B (zh) | 2023-11-14 |
Family
ID=75855253
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202011599744.1A Active CN112820266B (zh) | 2020-12-29 | 2020-12-29 | 一种基于跳跃编码器的并行端到端语音合成方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN112820266B (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113781995B (zh) * | 2021-09-17 | 2024-04-05 | 上海喜马拉雅科技有限公司 | 语音合成方法、装置、电子设备及可读存储介质 |
| CN114255736B (zh) * | 2021-12-23 | 2024-08-23 | 思必驰科技股份有限公司 | 韵律标注方法及系统 |
| CN116416966B (zh) * | 2023-04-07 | 2025-09-30 | 平安科技(深圳)有限公司 | 文本到语音合成方法、装置、设备和存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111653266A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
| WO2020222909A1 (en) * | 2019-04-29 | 2020-11-05 | Tencent America LLC | Duration informed attention network for text-to-speech analysis |
| CN112102811A (zh) * | 2020-11-04 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种合成语音的优化方法、装置及电子设备 |
| CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
-
2020
- 2020-12-29 CN CN202011599744.1A patent/CN112820266B/zh active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020222909A1 (en) * | 2019-04-29 | 2020-11-05 | Tencent America LLC | Duration informed attention network for text-to-speech analysis |
| CN111653266A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
| CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
| CN112102811A (zh) * | 2020-11-04 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种合成语音的优化方法、装置及电子设备 |
Non-Patent Citations (1)
| Title |
|---|
| 以人工智能构建可持续发展新常态;本刊编辑部;;张江科技评论(04);全文 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN112820266A (zh) | 2021-05-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2024510679A (ja) | 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ | |
| JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
| CN109979429A (zh) | 一种tts的方法及系统 | |
| CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
| CN115497449B (zh) | 基于音频解耦和融合的零样本语音克隆方法及装置 | |
| CN112820266B (zh) | 一种基于跳跃编码器的并行端到端语音合成方法 | |
| CN107464559A (zh) | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 | |
| WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
| CN111326170B (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
| CN106128450A (zh) | 一种汉藏双语跨语言语音转换的方法及其系统 | |
| Ahmad et al. | Planning the development of text-to-speech synthesis models and datasets with dynamic deep learning | |
| CN106057192A (zh) | 一种实时语音转换方法和装置 | |
| CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
| CN115424604A (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
| CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
| CN116682413A (zh) | 一种基于Conformer和MelGAN的蒙古语语音合成方法 | |
| CN121922102A (zh) | 一种方言情感语音合成方法 | |
| CN101887719A (zh) | 语音合成方法、系统及具有语音合成功能的移动终端设备 | |
| CN120599998A (zh) | 一种基于情感增强的语音克隆方法、装置及相关介质 | |
| CN105474307A (zh) | 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法 | |
| CN115985289B (zh) | 一种端到端语音合成方法和装置 | |
| Rao et al. | SFNet: A computationally efficient source filter model based neural speech synthesis | |
| CN120600001A (zh) | 语音生成方法、装置、计算机可读存储介质和电子设备 | |
| Wu et al. | VStyclone: Real-time Chinese voice style clone | |
| CN113178186B (zh) | 一种方言语音合成方法、装置、电子设备和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |