CN108899009B - 一种基于音素的中文语音合成系统 - Google Patents

一种基于音素的中文语音合成系统 Download PDF

Info

Publication number
CN108899009B
CN108899009B CN201810938392.4A CN201810938392A CN108899009B CN 108899009 B CN108899009 B CN 108899009B CN 201810938392 A CN201810938392 A CN 201810938392A CN 108899009 B CN108899009 B CN 108899009B
Authority
CN
China
Prior art keywords
phoneme
audio
sequence
text
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810938392.4A
Other languages
English (en)
Other versions
CN108899009A (zh
Inventor
陈宏�
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baizhuo Network Technology Co ltd
Original Assignee
Baizhuo Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baizhuo Network Technology Co ltd filed Critical Baizhuo Network Technology Co ltd
Priority to CN201810938392.4A priority Critical patent/CN108899009B/zh
Publication of CN108899009A publication Critical patent/CN108899009A/zh
Application granted granted Critical
Publication of CN108899009B publication Critical patent/CN108899009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

本发明公开了一种基于音素的中文语音合成方法,其特征在于,包括如下步骤:步骤1,对文本与音频进行预处理;步骤2,构造音素集;步骤3,利用one‑hot将音素序列转化为字ID,训练生成转词向量,通过基于encoder‑decoder的Seq2Seq的结构生成频谱序列特征;步骤4,结合频谱序列与音频的语音信息,由声码器合成语音;步骤5,合成的音频分别去除尾部静音,按一定顺序将音频进行拼接。本方法合成的语音更加贴近于真人发音,以及在区分多音字与确定停顿位置上较传统的都有很大提升,最主要的是合成的准确率可以达到95%以上。

Description

一种基于音素的中文语音合成系统
技术领域
本发明涉及信息处理领域,特别是涉及一种基于音素的中文语音合成方法。
背景技术
语音合成(Text-To-Speech,简称TTS)是指将用户输入的文字,转换成流畅自然的语音输出,也即让机器像人一样开口说话,它打破了传统文字式人机交互方式,让人机沟通更自然。当前,语音合成涉及多个学科技术,如:声学、语言学、数字信号处理、计算机科学等,它是中文信息处理领域的一项前沿技术。
国内外对语音合成技术的研究已有几十年的历史,随着深度学习与英文语音合成技术的成熟,已经可以做到模拟人发声的特点合成高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是基于拼接与参数的语音合成机制;后来随着深度学习的发展,百度推出Deep Voice3全卷积注意机制TTS系统,利用更简单的特征、更少的组成合成更高质量的语音;另外,谷歌推出一个直接从文本到语音的神经网络结构Tacotron2,Tacotron2结合了WaveNet声学模型和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。
基于拼接的语音合成系统,利用语言学标注系统(包含音素级别、音节级别、单词级别等语音信息)对输入文本进行预处理,得到了一串语言学标注。之后会在语音库里进行匹配,匹配在语言学特征与声学特征上类似的音素波形。如果库里存在,则会将语音单元进行拼接;如果找不到,系统会选取退而求其次的音素,按照这种方式,合成语音。该方法的缺点,如果库里的音素切分与语言学标注出错,那显然它最后会匹配错;优点是,真人发音。
基于参数的语音合成系统,它其实是一个文本抽象成语音学特征,再利用统计学模型学习出语音学特征和声学特征的对应关系,再从预测出来的声学特征还原成波形的过程。预测声学特征目前主流是用神经网络做的,然后用声码器(vocoder)生成波形,实现特征到波形这最后一步。这种思路的缺点是,声码器合成的声音,会有损失,听起来不自然;优点是,对于语音库里的标注错误不敏感。
2017年百度发布Deep Voice3,提出了一个全卷积的特征到频谱的架构,它能够对一个序列所有元素进行并行计算,并且使用递归单元使训练速度相比于类似的架构提高很多。在声码器部分,比较了多个信号合成方法合成单个说话人语音的质量,包括WORLD、Griffin-Lim与WaveNet,最终根据MOS(语音质量的评测标准)评分,选取了WaveNet作为声学输出。百度语音合成的不足在于:1.声音机械;2。声音过渡不自然;3.支持发音人数量较少。
Google推出Tacotron用神经网络直接学习文本端到声学特征这一端的对应关系,不需要语言学标注系统标注文本,由编码、解码输出特征序列,经过Griffin-Lim相位重构算法还原波形。17年年底,Google推出Tacotron2,Tacotron2系统包括一个循环序列到序列特征预测网络(把字符嵌入映射到梅尔标度谱图)以及一个改良的WaveNet模型(作为声码器以从这些谱图中合成时域波形)。经过评测,该模型取得了4.53的MOS(语音质量的评测标准)值。Google的语音合成系统只是针对英文的合成,其它国家语种合成出语音语调都是建立在英文的语音语调之上。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于音素的中文语音合成方法。
为解决上述技术问题,本发明提供一种基于音素的中文语音合成方法,其特征在于,包括如下步骤:
步骤1,对文本与音频进行预处理;
步骤2,构造音素集,将常用汉字、词转化为对应的音素组合,做成映射,使每个字词都有可以参照的音素组合;
步骤3,利用one-hot将音素序列转化为字ID,再将字ID训练生成转词向量,经过encoder,将文本序列特征转换为内部学习表征,再经过decoder,生成频谱序列特征;
步骤4,结合频谱序列与音频的语音信息,由声码器合成语音;
步骤5,合成的音频分别去除尾部静音,按一定顺序将音频进行拼接。
所述步骤1中,把文本先分词,再转化成音素组合形式,将音频文件去除首尾部分的静音,输出为.npy文件,然后再在训练时将.npy文件采用队列的形式,一次读入一个batch的数据传给GPU。
所述步骤2中,构造音素集,音素集是由23个声母、39个韵母以及声调构成,是所有汉字音素表示的集合,在语料库中(语料库分为文本数据库与语音数据库),将文本数据库参照音素集将文本转化为音素组合形式,具体是将中文汉字转化为由声、韵母及声调的组合形式。
所述步骤3中,将转化了的音素序列生成对应的字ID,通过character embeddings训练生成词向量,并将词向量带入到Seq2Seq结构(基于encoder-decoder的Seq2Seq的结构)生成频谱序列。
所述步骤4中,通过基于encoder-decoder的Seq2Seq模型输出序列以及提取的音频信号来预测功率谱幅度值,再结合Griffin_Lim相位重构算法获取最优相位,生成waveform,即语音。
所述步骤5中,开多线程进行并行运算,将合成后的音频利用ffmpeg音频处理工具,去除尾部静音,再将去除静音的音频拼接起来;模型合成的音频格式为wav格式,利用ffmpeg工具去除wav格式音频的静音,再将处理后的音频按顺序合并起来,最后统一将wav格式转化为mp3格式。
本发明所达到的有益效果:本方法合成的语音更加贴近于真人发音,以及在区分多音字与确定停顿位置上较传统的都有很大提升,最主要的是合成的准确率可以达到90%以上。
附图说明
图1为本发明的示例性实施例的方法流程简图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,具体步骤如下:
步骤1,对文本与音频进行预处理,把文本先分词,再转化成音素组合形式,将音频文件去除首尾部分的静音,输出为.npy文件,然后再在训练时将.npy文件采用队列的形式,一次读入一个batch的数据传给GPU,这样训练速度相比对音频进行训练提升20%左右。
步骤2,构造音素集,将常用汉字、词转化为对应的音素组合,做成映射,使每个字词都有可以参照的音素组合。所述语料库分为文本数据库与语音数据库,将文本数据库参照音素集将文本转化为音素组合形式,具体是将中文汉字转化为由声、韵母及声调的组合形式。我们的中文语料总共15万条,在语音与文本数据库中,囊括大量的多音字,而这些多音字以及断词会在训练中起到很重要作用。
步骤3,利用one-hot将音素序列转化为字ID,再将字ID训练生成转词向量,经过encoder,将文本序列特征转换为内部学习表征,再经过decoder,生成频谱序列特征。将转化了的音素序列生成对应的字ID,由于字与字之间是有关联的,通过characterembeddings训练生成词向量,并将词向量带入到Seq2Seq结构(基于encoder-decoder的Seq2Seq的结构,一般情况我们输入的文本长度不是固定的,对于绝大多数模型而言,输入的特征通常是一个固定大小的矩阵,这就限制了我们输入文本长度必须一致。但在语音合成模型中很难保证,而Seq2Seq结构很好地解决了这个问题,它的输入序列和输出序列的长度是不固定的。)生成频谱序列特征;
步骤4,结合频谱序列与音频的语音信息,由声码器合成语音;经过decoder输出后并没有直接输出音频文件,而是在此基础上添加后处理网络,在后处理网络中预测功率谱幅度值,通过基于encoder-decoder的Seq2Seq模型输出序列以及提取的音频信号来预测功率谱幅度值,再结合Griffin_Lim相位重构算法合成waveform,即语音;
步骤5,为了提升模型性能,开多线程进行并行运算,将合成后的音频利用ffmpeg音频处理工具,去除尾部静音,代码如下:
ffmpeg-y-i xx.wav-af silenceremove=1:0:-100dB:-1:0:-100dB yy.wav;
将去除静音的音频拼接起来,代码如下:
Figure BDA0001768436690000041
Figure BDA0001768436690000051
模型合成的音频格式为wav格式,利用ffmpeg工具去除wav格式音频的静音,再将处理后的音频按顺序合并起来,最后统一将wav格式转化为mp3格式(mp3格式的音频所占用存储相对于wav格式的音频更小一些)。
本发明主要用于提供一种基于音素的中文语音合成方法,合成的语音更加贴近于真人发音,以及在区分多音字与确定停顿位置上较传统的都有很大提升,最主要的是合成的准确率可以达到95%以上。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (6)

1.一种基于音素的中文语音合成方法,其特征在于,包括如下步骤:
步骤1,对文本与音频进行预处理;
步骤2,构造音素集,将常用汉字、词转化为对应的音素组合,做成映射,使每个字词都有可以参照的音素组合;
步骤3,利用one-hot将音素序列转化为字ID,再将字ID训练生成转词向量,经过encoder,将文本序列特征转换为内部学习表征,再经过decoder,生成频谱序列特征;
步骤4,结合频谱序列与音频的语音信息,由声码器合成语音;
步骤5,合成的音频分别去除尾部静音,按一定顺序将音频进行拼接。
2.如权利要求1所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤1中,把文本先分词,再转化成音素组合形式,将音频文件去除首尾部分的静音,输出为.npy文件,然后再在训练时将.npy文件采用队列的形式,一次读入一个batch的数据传给GPU。
3.如权利要求2所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤2中,构造音素集,音素集是由23个声母、39个韵母以及声调构成,是所有汉字音素表示的集合,在语料库中,语料库分为文本数据库与语音数据库,将文本数据库参照音素集将文本转化为音素组合形式,具体是将中文汉字转化为由声、韵母及声调的组合形式。
4.如权利要求3所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤3中,将转化了的音素序列生成对应的字ID,通过character embeddings训练生成词向量,并将词向量带入到基于encoder-decoder的Seq2Seq的结构生成频谱序列。
5.如权利要求4所述的一种基于音素的中文语音合成方法,其特征在于:所述步骤4中,通过基于encoder-decoder的Seq2Seq模型输出序列以及提取的音频信号来预测功率谱幅度值,再结合Griffin_Lim相位重构算法获取最优相位,生成waveform,即语音。
6.如权利要求5所述的一种基于音素的中文语音合成方法,其特征在于,所述步骤5中,开多线程进行并行运算,将合成后的音频利用ffmpeg音频处理工具,去除尾部静音,再将去除静音的音频拼接起来;模型合成的音频格式为wav格式,利用ffmpeg工具去除wav格式音频的静音,再将处理后的音频按顺序合并起来,最后统一将wav格式转化为mp3格式。
CN201810938392.4A 2018-08-17 2018-08-17 一种基于音素的中文语音合成系统 Active CN108899009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810938392.4A CN108899009B (zh) 2018-08-17 2018-08-17 一种基于音素的中文语音合成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810938392.4A CN108899009B (zh) 2018-08-17 2018-08-17 一种基于音素的中文语音合成系统

Publications (2)

Publication Number Publication Date
CN108899009A CN108899009A (zh) 2018-11-27
CN108899009B true CN108899009B (zh) 2020-07-03

Family

ID=64354534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810938392.4A Active CN108899009B (zh) 2018-08-17 2018-08-17 一种基于音素的中文语音合成系统

Country Status (1)

Country Link
CN (1) CN108899009B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及系统
CN112786001B (zh) * 2019-11-11 2024-04-09 北京地平线机器人技术研发有限公司 语音合成模型训练方法、语音合成方法和装置
CN111312228A (zh) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 一种基于端到端的应用于电力企业客服的语音导航方法
CN110797002B (zh) * 2020-01-03 2020-05-19 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN113450756A (zh) * 2020-03-13 2021-09-28 Tcl科技集团股份有限公司 一种语音合成模型的训练方法及一种语音合成方法
CN111564153B (zh) * 2020-04-02 2021-10-01 湖南声广科技有限公司 广播电台智能主播音乐节目系统
CN112365878B (zh) * 2020-10-30 2024-01-23 广州华多网络科技有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN112542159B (zh) * 2020-12-01 2024-04-09 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
CN112652291B (zh) * 2020-12-15 2024-04-05 携程旅游网络技术(上海)有限公司 基于神经网络的语音合成方法、系统、设备及存储介质
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
CN1924994B (zh) * 2005-08-31 2010-11-03 中国科学院自动化研究所 一种嵌入式语音合成方法及系统
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
CN107871495A (zh) * 2016-09-27 2018-04-03 晨星半导体股份有限公司 文字转语音方法及系统
CN108364632B (zh) * 2017-12-22 2021-09-10 东南大学 一种具备情感的中文文本人声合成方法

Also Published As

Publication number Publication date
CN108899009A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN108899009B (zh) 一种基于音素的中文语音合成系统
JP7355306B2 (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
JP7445267B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
CN108573693B (zh) 文本到语音系统和方法以及其存储介质
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
JP2022527970A (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
TWI721268B (zh) 用於語音合成的系統和方法
CN115485766A (zh) 使用bert模型的语音合成韵律
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN115101046A (zh) 一种特定说话人语音合成方法和装置
Dua et al. Spectral warping and data augmentation for low resource language ASR system under mismatched conditions
CN113450760A (zh) 一种文本转语音的方法、装置及电子设备
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
JP7357518B2 (ja) 音声合成装置及びプログラム
CN113628609A (zh) 自动音频内容生成
Zhang et al. Chinese speech synthesis system based on end to end
JP3552200B2 (ja) 音声信号伝送装置および音声信号伝送方法
Pagarkar et al. Language Independent Speech Compression using Devanagari Phonetics
CN115662390A (zh) 模型训练方法、韵律边界预测方法、装置及电子设备
CN116129858A (zh) 语音合成方法、语音后验概率生成模型的训练方法及装置
Desai et al. Development of a personalized integrated voice recognition and synthesis system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant