CN114495894A - 一种基于Tacotron2改进的语音合成方法 - Google Patents

一种基于Tacotron2改进的语音合成方法 Download PDF

Info

Publication number
CN114495894A
CN114495894A CN202111570359.9A CN202111570359A CN114495894A CN 114495894 A CN114495894 A CN 114495894A CN 202111570359 A CN202111570359 A CN 202111570359A CN 114495894 A CN114495894 A CN 114495894A
Authority
CN
China
Prior art keywords
speech synthesis
steps
text
following
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111570359.9A
Other languages
English (en)
Inventor
于�玲
周骁群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN202111570359.9A priority Critical patent/CN114495894A/zh
Publication of CN114495894A publication Critical patent/CN114495894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于Tacotron2改进的语音合成方法,属于语音合成技术领域,提供了一种基于Tacotron2改进的语音合成方法。本方法的特征是将文本输入标点恢复模块,对文本进行分割,将分割好的文本按照对应规则转化为拼音与声调的字符序列,输入编码器以及解码器预测合成语音的梅尔谱图,最后利用Wavenet声码器将梅尔频谱特征表达还原成合成的语音。实验证明本发明算法性能良好,最大化的利用了模型的性能,能够有效合成高质量的语音。

Description

一种基于Tacotron2改进的语音合成方法
技术领域
本发明属于利用语音合成及标点符号恢复语音技术领域,具体是一种基于Tacotron2(端到端文本转语音深度神经网络模型)改进的语音合成方法,涉及到深度神经网络的模型,特别涉及到利用深度神经网络合成高质量语音的方法。
背景技术
原始的Tacotron2是将整段语音预测后全部输出,然而模型中使用的RNN(卷积神经网络)在应对长文本问题时总会产生失真严重及重复等问题。为了解决该问题,研究工作者用Waveglow(Wavenet改进的基于流的文本转语音网络模型)声码器替代Wavenet(用于文本转语音的网络模型)声码器,Waveglow声码器是基于流的生成模型,它有效的估计了密度,确保了快速高效的采样,但在一定程度上牺牲了语音合成的质量。因此,本发明首先提出了在语音合成模型之前附加标点符号恢复模块,通过标点符号对文本进行适当的分割,从而最大化的利用了模型的性能,合成高质量的语音。
发明内容
本发明的主要目的是为了解决现有技术问题,提供一种基于Tacotron2改进的语音合成方法。
基于Tacotron2改进的语音合成方法,包括以下步骤:
A.文本预处理。
A1.使用数据库预训练标点符号的预测模型,然后将文本输入标点恢复模块,对标点符号进行预测。
A2.根据标点符号的预测对文本进行切分,并将分割好的文本按次序输入。
A3.将分割好的文本按照对应规则转化为拼音与声调的字符序列。
B.输入编码器以及解码器预测合成语音的梅尔谱图。
B1.将拼音与声调的字符序列输入3层卷积神经网络及双向LSTM(长短时记忆网络)网络组成的编码器。
B2.通过加性注意力机制将编码器的输出送入解码器中进行预测。
C.利用Wavenet声码器还原语音。
C1.通过三层卷积层获得梅尔频谱特征。
C2.梅尔频谱特征表达逆变换为时域波形样本。
其优点在于:
本发明首先将文本输入标点恢复模块,对文本进行分割,将分割好的文本按照对应规则转化为拼音与声调的字符序列,输入编码器以及解码器预测合成语音的梅尔谱图,最后利用Wavenet声码器将梅尔频谱特征表达还原成合成的语音。
这种方法通过标点符号对文本进行适当的分割,简化了注意力模型,从而最大化的利用了模型的性能,合成高质量的语音。
附图说明
附图1是本发明中的语音合成的总体流程图。
附图2是本发明中的语音合成系统的具体流程图。
附图3是本发明中的语音合成系统的中间表征梅尔谱图(图3左边是中间表征梅尔谱图,右边是标尺,单位:梅尔)。
附图4是本发明中合成语音与真实语音的频域比较图。
附图5是本发明中合成语音与真实语音的时域比较图。
具体实施方式
为使本发明实施例的目的、技术方案及其优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述,整体算法流程图如图1所示:
A.文本预处理。
所述步骤A具体包含以下步骤:
A1.首先,预训练标点符号的预测模型,训练集由python(爬虫,一种编程语言)的Gensim(用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达的开源工具包)库以及OpenCC(中文繁简体转换的开源工具包)库对维基百科最新数据库(2020-12-01)进行处理,筛选并最终获得1.2万条语句,并将每一个标点符号标注在语句中(例:’,COMMA’或’。PERIOD’),训练集:验证集:测试集的比例为7:2:1,相关参数为batch_size=100,epoch=10,learning_rate=0.1,hidden_size=600,projection_size=100。
然后将文本输入由LSTM网络组成的标点符号预测网络,对标点符号进行预测,并输出由文本以及符号合并的文本。
A2.根据标点符号的预测对文本进行切分,规则为每遇到一个标点符号进行一次分割,并将分割好的文本按次序输入。
A3.将分割好的文本按照对应规则转化为拼音与声调的字符序列,每个字的序列由三部分组成,声母、韵母以及声调,声母与韵母之间有空格分隔,韵母及声调之间不加空格,韵母及声调与下一个声母之间有空格分隔(例:语音会被转化为’y u3 y in1’)。
B.输入编码器以及解码器预测合成语音的梅尔谱图。
所述步骤B具体包含以下步骤:
B1.将拼音与声调的字符序列输入3层卷积神经网络及双向LSTM网络组成的编码器。采用的数据集为标贝科技的BZNSYP(中文合成语音数据库)数据集,由于后期实验需要,我们又增加了1000条自录制数据,共计11000条语音及对应的已标注文本。标注文本的规则与上文步骤A3中将文本转化为拼音与声调的字符序列的规则时一致的。
B2.通过加性注意力机制将编码器的输出送入解码器中进行预测。其中,编码器和解码器的重要参数如下:batch_size=32,epoch=10,learning_rate=0.001,zoneout_rate=0.1,dropout_rate=0.5,adam_beta1=0.9,adam_beta2=0.999,adam_eplison=1e-6。
C.利用Wavenet声码器还原语音。
C1.通过三层卷积层获得梅尔频谱特征。Wavenet声码器的相关参数为learning_rate=0.001,batch_size=32,epoch=10。
C2.梅尔频谱特征表达逆变换为时域波形样本使用的是短时傅里叶变换,短时傅里叶变换的公式为
Figure BDA0003423485920000041
其中x(n)表示时间为n时的输入信号,w(n)表示窗长,R表示步长。

Claims (4)

1.一种基于Tacotron2改进的语音合成方法,其特征在于包括下列步骤:
A.语音预处理;
B.输入编码器以及解码器预测合成语音的梅尔谱图;
C.利用Wavenet声码器还原语音。
2.根据权利要求1所述的一种基于Tacotron2改进的语音合成方法,其特征在于包括下列步骤:所述步骤A具体包含以下步骤:
A1.使用数据库预训练标点符号的预测模型,然后将文本输入标点恢复模块,对标点符号进行预测;
A2.根据标点符号对文本进行切分,并将分割好的文本按次序输入;
A3.将分割好的文本按照对应规则转化为拼音与声调的字符序列。
3.根据权利要求1所述的一种基于Tacotron2改进的语音合成方法,其特征在于包括下列步骤:所述步骤B具体包含以下步骤:
B1.将拼音与声调的字符序列输入3层卷积神经网络及双向LSTM网络组成的编码器;
B2.通过加性注意力机制将编码器的输出送入解码器中进行预测。
4.根据权利要求1所述的一种基于Tacotron2改进的语音合成方法,其特征在于包括下列步骤:所述步骤C具体包含以下步骤:
C1.通过三层卷积层获得梅尔频谱特征;
C2.梅尔频谱特征表达逆变换为时域波形样本。
CN202111570359.9A 2021-12-21 2021-12-21 一种基于Tacotron2改进的语音合成方法 Pending CN114495894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111570359.9A CN114495894A (zh) 2021-12-21 2021-12-21 一种基于Tacotron2改进的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111570359.9A CN114495894A (zh) 2021-12-21 2021-12-21 一种基于Tacotron2改进的语音合成方法

Publications (1)

Publication Number Publication Date
CN114495894A true CN114495894A (zh) 2022-05-13

Family

ID=81495088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111570359.9A Pending CN114495894A (zh) 2021-12-21 2021-12-21 一种基于Tacotron2改进的语音合成方法

Country Status (1)

Country Link
CN (1) CN114495894A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974208A (zh) * 2022-06-20 2022-08-30 青岛大学 一种中文语音合成方法、装置、电子设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974208A (zh) * 2022-06-20 2022-08-30 青岛大学 一种中文语音合成方法、装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
Tan et al. A survey on neural speech synthesis
Wang et al. Tacotron: A fully end-to-end text-to-speech synthesis model
Van Den Oord et al. Wavenet: A generative model for raw audio
Oord et al. Wavenet: A generative model for raw audio
Liu et al. Mongolian text-to-speech system based on deep neural network
JP2020034883A (ja) 音声合成装置及びプログラム
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Fujimoto et al. Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
Fahmy et al. A transfer learning end-to-end arabic text-to-speech (tts) deep architecture
CN113450761A (zh) 一种基于变分自编码器的并行语音合成方法和装置
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
Yang et al. Adversarial feature learning and unsupervised clustering based speech synthesis for found data with acoustic and textual noise
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Amrouche et al. Dnn-based arabic speech synthesis
Jalin et al. Text to speech synthesis system for tamil using HMM
KR102401243B1 (ko) 유사 발음열을 이용한 콜미 서비스의 음성 합성 장치 및 방법
CN114495894A (zh) 一种基于Tacotron2改进的语音合成方法
Chomphan et al. Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis
Vainio et al. Emphasis, word prominence, and continuous wavelet transform in the control of HMM-based synthesis
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Sangeetha et al. Syllable based text to speech synthesis system using auto associative neural network prosody prediction
Naderi et al. Persian speech synthesis using enhanced tacotron based on multi-resolution convolution layers and a convex optimization method
Wen et al. Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning
JP7357518B2 (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination