CN117351930A - 一种中文高保真语音合成音色定制方法 - Google Patents
一种中文高保真语音合成音色定制方法 Download PDFInfo
- Publication number
- CN117351930A CN117351930A CN202311389786.6A CN202311389786A CN117351930A CN 117351930 A CN117351930 A CN 117351930A CN 202311389786 A CN202311389786 A CN 202311389786A CN 117351930 A CN117351930 A CN 117351930A
- Authority
- CN
- China
- Prior art keywords
- text
- tone
- training
- speech synthesis
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及语音合成技术领域,特别是涉及一种中文高保真语音合成音色定制方法,包括S1、单独训练语音合成模型的文本编码器模块,并将文本编码器与BERT的特征空间进行对齐;S2、在具有多个发音人的数据集上训练一个基础语音合成模型;S3、利用动态规划算法进行最优录音语料的选取;S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;S6、完成音色定制。本发明方案采用动态规划进行最优的语料选取,使用户的录音样本包含更全面的发音信息;本发明通过预训练BERT语言模型使合成出来的语音停顿更加自然,通过引入对抗网络,使训练出的音色更加符合定制角色的特点,实现高保真效果。
Description
技术领域
本发明涉及语音合成技术领域,特别是涉及一种中文高保真语音合成音色定制方法。
背景技术
语音合成(Text to Speech,TTS)是将语言文字内容转化成语音的过程。而音色定制是在此基础上,根据用户提供的少量录音样本,使合成出来的任意语音都具有该用户的音色特点。与本发明方案最相近的技术是一种被称为语音克隆(Voice Clone,VC)的技术。目前该技术主要有以下两个难题:1.合成出来的语音存在不自然的停顿现象,韵律欠佳,难以保留原始发音的韵律;2.当用户提供的语音样本时长较短时,由于语料(文字)较少,涵盖的发音信息相应也较少,会给定制的音色带来不利的影响。
发明内容
本发明目的是针对背景技术中存在的问题,提出一种中文高保真语音合成音色定制方法,通过预训练BERT语言模型使合成出来的语音停顿更加符合定制角色的特点,实现高保真的定制效果;针对用户录音语料较少的问题,本发明方案采用动态规划的方法进行最优的语料选取,使用户的录音样本包含更全面的发音信息。
本发明的技术方案,一种中文高保真语音合成音色定制方法,包括以下具体步骤:
S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐;
S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模;
S3、利用动态规划算法进行最优录音语料的选取;
S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;
S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;
S6、完成音色定制。
S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为:
S2中还包括以下步骤:
S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调;
S22、通过文本编码器得到文本的语言特征vlang;
S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。
S23还包括以下步骤:
S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长;
S232、通过与S231相同的方式,得到梅尔频谱特征zm,并采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm;
S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。
通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
通过MAS单调对齐搜索算法计算音素的发音时长损失:
其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。
S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
底模训练的损失函数为以上各项损失之和:
文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。
S3中利用背包算法选择K个句子的最优句子索引,并得到用于微调音色的语料T′={Ti|i∈IdxList}。
S4中用户根据指定的语料进行文字朗读,并在每句话之间停顿1秒以上;
在收到用户录制好的语音样本,根据预先指定的停顿时间将音频切分为若干条较短的样本,并与语料的每句话相对应,够建微调所使用的训练集。
与现有技术相比,本发明具有如下有益的技术效果:
1、本发明先单独训练语音合成的文本编码器,将其特征空间与BERT进行对齐,然后再训练其它模块,这样模型具有比较好的韵律,且与现有的音色定制技术所采用的预训练的BERT语言模型进行文本特征的提取的方式相比,不会降低推理速度。
2、本发明采用动态规划的方法进行最优的语料选取,使用户的录音样本包含更全面的发音信息,定制后与原音色相似性较高。
附图说明
图1为本发明音色定制方法的流程图;
图2为本发明多发音人底模训练流程图。
具体实施方式
实施例1
本发明提出的一种中文高保真语音合成音色定制方法,包括以下具体步骤:
S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐,损失函数为:
S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模;
S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调;
S22、通过文本编码器得到文本的语言特征vlang;
S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。
S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长;
S232、通过与S231相同的方式,得到梅尔频谱特征zm,采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm;
S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。
通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
通过MAS单调对齐搜索算法计算音素的发音时长损失:
其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。
S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
底模训练的损失函数为以上各项损失之和:
S3、针对录音语料进行动态规划的选取;
S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;
S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;
S6、完成音色定制。
在一个可选的实施例中,文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。
在本实施例中,由于音色的定制是根据用户提供的少量录音样本来进行的,为了保证音色定制的效果,本发明针对录音语料进行一定的优化;具体来说,假设有文本数据库T={Ti|i=1,2,...,N},其中Ti表示第i个句子,每个句子所包含的音素为Pi={Pij|j=1,2,...,M}。我们的目标是从这N个句子中,选出K(N>>K,且K为常数,本发明方案的一个实施例中,K取200)个句子,使得所包含的音素最丰富。这可以通过动态规划中经典的背包问题算法来求解。利用背包算法选择K个最优句子的算法python伪代码如下:
得到最优的句子索引后,就可以得到用于微调音色的语料T′={Tili∈IdxList}。
在本实施例中,在完成多发音人TTS的底模训练和用于定制音色的语料选取之后,接下来就是用户根据选取的语料录制自己的声音,再对底模的参数进行微调。具体来说,用户根据S4中所指定的语料进行文字朗读,并在每句话之间停顿1秒以上。在收到用户录制好的语音样本(约10-20分钟)后,根据预先指定的停顿时间将音频切分为若干条较短的(约3-10秒)样本,并与语料的每句话相对应,这样就够建好了微调所使用的训练集。
不同的发音人其发音区别主要在音色和讲话快慢程度上,而讲话的快慢程度决定了音色的韵律。因此,本发明方案在进行模型微调时,将与音色和讲话快慢无关的模型参数冻结,如文本编码器;仅仅调整音素时长预测模块和生成对抗网络的参数,损失函数同S1相同。
本发明提出的一种中文高保真语音合成音色定制方法。与已有的方法相比,本专利所提出的方法只需要少量录音样本,即可实现高保真的音色定制,且合成的语音停顿较为自然,具有较好的韵律。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于此,在所属技术领域的技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下还可以作出各种变化。
Claims (10)
1.一种中文高保真语音合成音色定制方法,其特征在于,包括以下具体步骤:
S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐;
S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模;
S3、利用动态规划算法进行最优录音语料的选取;
S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;
S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;
S6、完成音色定制。
2.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为:
3.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S2中还包括以下步骤:
S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调;
S22、通过文本编码器得到文本的语言特征vlang;
S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。
4.根据权利要求3所述的一种中文高保真语音合成音色定制方法,其特征在于,S23还包括以下步骤:
S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长;
S232、通过与S231相同的方式,得到梅尔频谱特征zm,并采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm;
S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。
5.根据权利要求4所述的一种中文高保真语音合成音色定制方法,其特征在于,通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
6.根据权利要求5所述的一种中文高保真语音合成音色定制方法,其特征在于,通过MAS单调对齐搜索算法计算音素的发音时长损失:
其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。
7.根据权利要求6所述的一种中文高保真语音合成音色定制方法,其特征在于,S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
底模训练的损失函数为以上各项损失之和:
8.根据权利要求2所述的一种中文高保真语音合成音色定制方法,其特征在于,文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。
9.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S3中利用背包算法选择K个句子的最优句子索引,并得到用于微调音色的语料T'={Ti|i∈IdxList}。
10.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S4中用户根据指定的语料进行文字朗读,并在每句话之间停顿1秒以上;
在收到用户录制好的语音样本,根据预先指定的停顿时间将音频切分为若干条较短的样本,并与语料的每句话相对应,够建微调所使用的训练集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311389786.6A CN117351930A (zh) | 2023-10-25 | 2023-10-25 | 一种中文高保真语音合成音色定制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311389786.6A CN117351930A (zh) | 2023-10-25 | 2023-10-25 | 一种中文高保真语音合成音色定制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351930A true CN117351930A (zh) | 2024-01-05 |
Family
ID=89366400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311389786.6A Pending CN117351930A (zh) | 2023-10-25 | 2023-10-25 | 一种中文高保真语音合成音色定制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351930A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
-
2023
- 2023-10-25 CN CN202311389786.6A patent/CN117351930A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111048062B (zh) | 语音合成方法及设备 | |
CN101578659B (zh) | 音质转换装置及音质转换方法 | |
CN109147758A (zh) | 一种说话人声音转换方法及装置 | |
CN111210803B (zh) | 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法 | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
CN117351930A (zh) | 一种中文高保真语音合成音色定制方法 | |
CN112992162B (zh) | 一种音色克隆方法、系统、装置及计算机可读存储介质 | |
CN113012678A (zh) | 一种免标注的特定说话人语音合成方法及装置 | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
CN116229932A (zh) | 一种基于跨域一致性损失的语音克隆方法及系统 | |
CN116524898A (zh) | 有声视频生成方法、装置、电子设备及存储介质 | |
Zhang et al. | AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents | |
CN110459201A (zh) | 一种产生新音色的语音合成方法 | |
JPH08248994A (ja) | 声質変換音声合成装置 | |
CN116913244A (zh) | 一种语音合成方法、设备及介质 | |
CN113314109B (zh) | 一种基于循环生成网络的语音生成方法 | |
CN116469369A (zh) | 虚拟声音合成方法、装置及相关设备 | |
CN115273806A (zh) | 歌曲合成模型的训练方法和装置、歌曲合成方法和装置 | |
JPH09319391A (ja) | 音声合成方法 | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
Suyanto et al. | Automatic segmented-Syllable and deep learning-based Indonesian Audiovisual speech recognition | |
CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 | |
Kulkarni et al. | Layer adaptation for transfer of expressivity in speech synthesis | |
CN117711374B (zh) | 一种视听一致个性化语音合成系统、合成方法及训练方法 | |
Jayasinghe | Machine Singing Generation Through Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |