CN117351930A - 一种中文高保真语音合成音色定制方法 - Google Patents

一种中文高保真语音合成音色定制方法 Download PDF

Info

Publication number
CN117351930A
CN117351930A CN202311389786.6A CN202311389786A CN117351930A CN 117351930 A CN117351930 A CN 117351930A CN 202311389786 A CN202311389786 A CN 202311389786A CN 117351930 A CN117351930 A CN 117351930A
Authority
CN
China
Prior art keywords
text
tone
training
speech synthesis
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311389786.6A
Other languages
English (en)
Inventor
杨帆
孙宇飞
郝强
潘鑫淼
胡建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoshi Technology Jiangsu Co ltd
Original Assignee
Xiaoshi Technology Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaoshi Technology Jiangsu Co ltd filed Critical Xiaoshi Technology Jiangsu Co ltd
Priority to CN202311389786.6A priority Critical patent/CN117351930A/zh
Publication of CN117351930A publication Critical patent/CN117351930A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及语音合成技术领域,特别是涉及一种中文高保真语音合成音色定制方法,包括S1、单独训练语音合成模型的文本编码器模块,并将文本编码器与BERT的特征空间进行对齐;S2、在具有多个发音人的数据集上训练一个基础语音合成模型;S3、利用动态规划算法进行最优录音语料的选取;S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;S6、完成音色定制。本发明方案采用动态规划进行最优的语料选取,使用户的录音样本包含更全面的发音信息;本发明通过预训练BERT语言模型使合成出来的语音停顿更加自然,通过引入对抗网络,使训练出的音色更加符合定制角色的特点,实现高保真效果。

Description

一种中文高保真语音合成音色定制方法
技术领域
本发明涉及语音合成技术领域,特别是涉及一种中文高保真语音合成音色定制方法。
背景技术
语音合成(Text to Speech,TTS)是将语言文字内容转化成语音的过程。而音色定制是在此基础上,根据用户提供的少量录音样本,使合成出来的任意语音都具有该用户的音色特点。与本发明方案最相近的技术是一种被称为语音克隆(Voice Clone,VC)的技术。目前该技术主要有以下两个难题:1.合成出来的语音存在不自然的停顿现象,韵律欠佳,难以保留原始发音的韵律;2.当用户提供的语音样本时长较短时,由于语料(文字)较少,涵盖的发音信息相应也较少,会给定制的音色带来不利的影响。
发明内容
本发明目的是针对背景技术中存在的问题,提出一种中文高保真语音合成音色定制方法,通过预训练BERT语言模型使合成出来的语音停顿更加符合定制角色的特点,实现高保真的定制效果;针对用户录音语料较少的问题,本发明方案采用动态规划的方法进行最优的语料选取,使用户的录音样本包含更全面的发音信息。
本发明的技术方案,一种中文高保真语音合成音色定制方法,包括以下具体步骤:
S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐;
S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模;
S3、利用动态规划算法进行最优录音语料的选取;
S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;
S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;
S6、完成音色定制。
S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为:
S2中还包括以下步骤:
S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调;
S22、通过文本编码器得到文本的语言特征vlang
S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。
S23还包括以下步骤:
S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长;
S232、通过与S231相同的方式,得到梅尔频谱特征zm,并采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm
S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。
通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
通过MAS单调对齐搜索算法计算音素的发音时长损失:
其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。
S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
底模训练的损失函数为以上各项损失之和:
文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。
S3中利用背包算法选择K个句子的最优句子索引,并得到用于微调音色的语料T′={Ti|i∈IdxList}。
S4中用户根据指定的语料进行文字朗读,并在每句话之间停顿1秒以上;
在收到用户录制好的语音样本,根据预先指定的停顿时间将音频切分为若干条较短的样本,并与语料的每句话相对应,够建微调所使用的训练集。
与现有技术相比,本发明具有如下有益的技术效果:
1、本发明先单独训练语音合成的文本编码器,将其特征空间与BERT进行对齐,然后再训练其它模块,这样模型具有比较好的韵律,且与现有的音色定制技术所采用的预训练的BERT语言模型进行文本特征的提取的方式相比,不会降低推理速度。
2、本发明采用动态规划的方法进行最优的语料选取,使用户的录音样本包含更全面的发音信息,定制后与原音色相似性较高。
附图说明
图1为本发明音色定制方法的流程图;
图2为本发明多发音人底模训练流程图。
具体实施方式
实施例1
本发明提出的一种中文高保真语音合成音色定制方法,包括以下具体步骤:
S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐,损失函数为:
S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模;
S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调;
S22、通过文本编码器得到文本的语言特征vlang
S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。
S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长;
S232、通过与S231相同的方式,得到梅尔频谱特征zm,采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm
S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。
通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
通过MAS单调对齐搜索算法计算音素的发音时长损失:
其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。
S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
底模训练的损失函数为以上各项损失之和:
S3、针对录音语料进行动态规划的选取;
S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;
S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;
S6、完成音色定制。
在一个可选的实施例中,文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。
在本实施例中,由于音色的定制是根据用户提供的少量录音样本来进行的,为了保证音色定制的效果,本发明针对录音语料进行一定的优化;具体来说,假设有文本数据库T={Ti|i=1,2,...,N},其中Ti表示第i个句子,每个句子所包含的音素为Pi={Pij|j=1,2,...,M}。我们的目标是从这N个句子中,选出K(N>>K,且K为常数,本发明方案的一个实施例中,K取200)个句子,使得所包含的音素最丰富。这可以通过动态规划中经典的背包问题算法来求解。利用背包算法选择K个最优句子的算法python伪代码如下:
得到最优的句子索引后,就可以得到用于微调音色的语料T′={Tili∈IdxList}。
在本实施例中,在完成多发音人TTS的底模训练和用于定制音色的语料选取之后,接下来就是用户根据选取的语料录制自己的声音,再对底模的参数进行微调。具体来说,用户根据S4中所指定的语料进行文字朗读,并在每句话之间停顿1秒以上。在收到用户录制好的语音样本(约10-20分钟)后,根据预先指定的停顿时间将音频切分为若干条较短的(约3-10秒)样本,并与语料的每句话相对应,这样就够建好了微调所使用的训练集。
不同的发音人其发音区别主要在音色和讲话快慢程度上,而讲话的快慢程度决定了音色的韵律。因此,本发明方案在进行模型微调时,将与音色和讲话快慢无关的模型参数冻结,如文本编码器;仅仅调整音素时长预测模块和生成对抗网络的参数,损失函数同S1相同。
本发明提出的一种中文高保真语音合成音色定制方法。与已有的方法相比,本专利所提出的方法只需要少量录音样本,即可实现高保真的音色定制,且合成的语音停顿较为自然,具有较好的韵律。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于此,在所属技术领域的技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下还可以作出各种变化。

Claims (10)

1.一种中文高保真语音合成音色定制方法,其特征在于,包括以下具体步骤:
S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐;
S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模;
S3、利用动态规划算法进行最优录音语料的选取;
S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;
S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;
S6、完成音色定制。
2.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为:
3.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S2中还包括以下步骤:
S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调;
S22、通过文本编码器得到文本的语言特征vlang
S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。
4.根据权利要求3所述的一种中文高保真语音合成音色定制方法,其特征在于,S23还包括以下步骤:
S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长;
S232、通过与S231相同的方式,得到梅尔频谱特征zm,并采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm
S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。
5.根据权利要求4所述的一种中文高保真语音合成音色定制方法,其特征在于,通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失:
6.根据权利要求5所述的一种中文高保真语音合成音色定制方法,其特征在于,通过MAS单调对齐搜索算法计算音素的发音时长损失:
其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。
7.根据权利要求6所述的一种中文高保真语音合成音色定制方法,其特征在于,S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失:
底模训练的损失函数为以上各项损失之和:
8.根据权利要求2所述的一种中文高保真语音合成音色定制方法,其特征在于,文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。
9.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S3中利用背包算法选择K个句子的最优句子索引,并得到用于微调音色的语料T'={Ti|i∈IdxList}。
10.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S4中用户根据指定的语料进行文字朗读,并在每句话之间停顿1秒以上;
在收到用户录制好的语音样本,根据预先指定的停顿时间将音频切分为若干条较短的样本,并与语料的每句话相对应,够建微调所使用的训练集。
CN202311389786.6A 2023-10-25 2023-10-25 一种中文高保真语音合成音色定制方法 Pending CN117351930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311389786.6A CN117351930A (zh) 2023-10-25 2023-10-25 一种中文高保真语音合成音色定制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311389786.6A CN117351930A (zh) 2023-10-25 2023-10-25 一种中文高保真语音合成音色定制方法

Publications (1)

Publication Number Publication Date
CN117351930A true CN117351930A (zh) 2024-01-05

Family

ID=89366400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311389786.6A Pending CN117351930A (zh) 2023-10-25 2023-10-25 一种中文高保真语音合成音色定制方法

Country Status (1)

Country Link
CN (1) CN117351930A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117727290A (zh) * 2024-02-18 2024-03-19 厦门她趣信息技术有限公司 一种语音合成方法、装置、设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117727290A (zh) * 2024-02-18 2024-03-19 厦门她趣信息技术有限公司 一种语音合成方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111048062B (zh) 语音合成方法及设备
CN101578659B (zh) 音质转换装置及音质转换方法
CN109147758A (zh) 一种说话人声音转换方法及装置
CN111210803B (zh) 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
CN117351930A (zh) 一种中文高保真语音合成音色定制方法
CN112992162B (zh) 一种音色克隆方法、系统、装置及计算机可读存储介质
CN113012678A (zh) 一种免标注的特定说话人语音合成方法及装置
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
CN116229932A (zh) 一种基于跨域一致性损失的语音克隆方法及系统
CN116524898A (zh) 有声视频生成方法、装置、电子设备及存储介质
Zhang et al. AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents
CN110459201A (zh) 一种产生新音色的语音合成方法
JPH08248994A (ja) 声質変換音声合成装置
CN116913244A (zh) 一种语音合成方法、设备及介质
CN113314109B (zh) 一种基于循环生成网络的语音生成方法
CN116469369A (zh) 虚拟声音合成方法、装置及相关设备
CN115273806A (zh) 歌曲合成模型的训练方法和装置、歌曲合成方法和装置
JPH09319391A (ja) 音声合成方法
CN114005428A (zh) 语音合成方法、装置、电子设备、存储介质和程序产品
Suyanto et al. Automatic segmented-Syllable and deep learning-based Indonesian Audiovisual speech recognition
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质
Kulkarni et al. Layer adaptation for transfer of expressivity in speech synthesis
CN117711374B (zh) 一种视听一致个性化语音合成系统、合成方法及训练方法
Jayasinghe Machine Singing Generation Through Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination