CN113488021A - 一种提高语音合成自然度的方法 - Google Patents
一种提高语音合成自然度的方法 Download PDFInfo
- Publication number
- CN113488021A CN113488021A CN202110906779.3A CN202110906779A CN113488021A CN 113488021 A CN113488021 A CN 113488021A CN 202110906779 A CN202110906779 A CN 202110906779A CN 113488021 A CN113488021 A CN 113488021A
- Authority
- CN
- China
- Prior art keywords
- duration
- phonemes
- phoneme
- text
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种提高语音合成自然度的方法。它包括如下步骤:将文本通过字形到音素的工具得到与文本对应的音素,所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,由CBHG模块对表征的特征进行编码;将文本编码的结果作为输入,对每个音素的持续时间进行预测,预测结果与真实的标签作比对,对时长模型进行优化;将经过时长模型扩充后的特征进行解码,解码出的结果组合成一个复数的特征,解码出的复数特征经原始音频中短时傅里叶逆变换,还原为语音波形。本发明的有益效果是:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
Description
技术领域
本发明涉及语音合成相关技术领域,尤其是指一种提高语音合成自然度的方法。
背景技术
由于深度学习的发展及在各领域的应用,语音合成也得到了很多的受益。语音合成大致也可以分为两个阶段:1.拼接法和参数法。拼接法是指在比较大的语料中寻找语音片段,然后根据要合成的文字,去搜索相应的语音片段组合起来。这样合成出的语音虽然是真人的声音,但是在一些全局的特征上表现会受到限制,比如说话的语气,韵律等。同时拼接法还需要比较大的语料,对数据集要求比较高。参数法是指根据统计模型建立文本参数与声学参数之间的映射模型。缺点是合成的语音有机械感不自然,参数调节很麻烦。2.基于深度学习的研究。基于深度学习的语音合成在往端到端方向上发展。合成的质量也越来越好,但是目前真正端到端的模型很少,基本都是通过梅尔频谱在文本与语音之间建立桥梁。这造成了合成语音自然度的损失。
现有的语音合成技术,首先文本会由一个正则化模块将文本处理成音素作为输入,然后经过一个嵌入层网络,对文本或音素进行表征,再将表征的特征通过一些特征提取网络进行编码。编码后特征的长度还是和输入的音素长度一致,只是维度由一维升到高维。根据文本编码的结果去预测文本或音素的发音时长。对预测的发音时长进行取整,这些时长的个数也是和音素的长度一致的。然后根据取整的时长对编码后的特征进行调节,最后可以得到与从真实语音中提取的梅尔频谱的长度一致的文本编码结果。将时长模型调节的结果通过深度学习网络进行特征的解码,与从真实语音中提取的梅尔频谱计算损失。将从真实语音中提取的梅尔频谱作为输入,利用神经网络模型比如:WaveNet,ParallelWaveNet,HifiGan等去预测真实的语音波形。在合成阶段的输入是解码出的梅尔频谱,并不是真实的梅尔频谱作为输入。现有的技术线路是由文本去预测梅尔频谱,然后由声码器根据预测的梅尔频谱去预测语音波形。并且这两个过程所计算的目标函数也不是一致的。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种能够减少计算量的提高语音合成自然度的方法。
为了实现上述目的,本发明采用以下技术方案:
一种提高语音合成自然度的方法,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
由于本发明的目标优化函数是针对合成的语音波形和预测的音素发音时长,可以直接从原始的音频中学习到发音人的说话特征,包括:语气,停顿,说话方式等特性。所以相较于其他的语音合成系统合成出的语音更加自然。本发明避开了现有技术的缺点,由文本直接预测波形,减少了中间过程,合成出更加自然的语音。本发明的优势是提出了一种端到端的语音合成系统,这个系统相较于其他的语音合成系统:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
作为优选,在步骤(2)中,所述CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。
作为优选,在步骤(4)中,具体为:在获取音素的发音时长后,针对编码后的音素根据时长的数值进行扩充。
本发明的有益效果是:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所述的实施例中,一种提高语音合成自然度的方法,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;具体为:在获取音素的发音时长后,针对编码后的音素根据时长的数值进行扩充。观察如图1中的长度调节器前后的输入和输出,具体来说就是假如有三个音素a,b,c,预测的时长分别是2,3,4,那么扩充之后就是aabbbcccc。
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;2层的双向长短期记忆网络一般指的是双向的lstm,复数特征是区别于一般的特征,一般的都是实数域下的特征,复数域比实数域多了一部分,也就是特征由两部分组成,实部和虚部;短时傅里叶变换是一种数学上的一般运算,stft,也可以是用神经网络实现的短时傅里叶变换;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
由于本发明的目标优化函数是针对合成的语音波形和预测的音素发音时长,可以直接从原始的音频中学习到发音人的说话特征,包括:语气,停顿,说话方式等特性。所以相较于其他的语音合成系统合成出的语音更加自然。本发明避开了现有技术的缺点,由文本直接预测波形,减少了中间过程,合成出更加自然的语音。本发明的优势是提出了一种端到端的语音合成系统,这个系统相较于其他的语音合成系统:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
Claims (3)
1.一种提高语音合成自然度的方法,其特征是,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
2.根据权利要求1所述的一种提高语音合成自然度的方法,其特征是,在步骤(2)中,所述CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。
3.根据权利要求1所述的一种提高语音合成自然度的方法,其特征是,在步骤(4)中,具体为:在获取音素的发音时长后,针对编码后的音素根据时长的数值进行扩充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906779.3A CN113488021A (zh) | 2021-08-09 | 2021-08-09 | 一种提高语音合成自然度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906779.3A CN113488021A (zh) | 2021-08-09 | 2021-08-09 | 一种提高语音合成自然度的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113488021A true CN113488021A (zh) | 2021-10-08 |
Family
ID=77946052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110906779.3A Pending CN113488021A (zh) | 2021-08-09 | 2021-08-09 | 一种提高语音合成自然度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488021A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN112802448A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
CN112802450A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种韵律可控的中英文混合的语音合成方法及其系统 |
CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
WO2021127821A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
-
2021
- 2021-08-09 CN CN202110906779.3A patent/CN113488021A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021127821A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN112802448A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种新音色生成的语音合成方法和系统 |
CN112802450A (zh) * | 2021-01-05 | 2021-05-14 | 杭州一知智能科技有限公司 | 一种韵律可控的中英文混合的语音合成方法及其系统 |
CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | DurIAN: Duration Informed Attention Network for Speech Synthesis. | |
Kleijn et al. | Wavenet based low rate speech coding | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN113112995B (zh) | 词声学特征系统、词声学特征系统的训练方法及系统 | |
CN112489629A (zh) | 语音转写模型、方法、介质及电子设备 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN114464162B (zh) | 语音合成方法、神经网络模型训练方法、和语音合成模型 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
US20240127832A1 (en) | Decoder | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN114678032B (zh) | 一种训练方法、语音转换方法及装置和电子设备 | |
CN113327578A (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN113436607B (zh) | 一种快速语音克隆方法 | |
CN113782042A (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
Zhao et al. | Research on voice cloning with a few samples | |
US11915714B2 (en) | Neural pitch-shifting and time-stretching | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 | |
CN113488021A (zh) | 一种提高语音合成自然度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211008 |