CN110534089B - 一种基于音素和韵律结构的中文语音合成方法 - Google Patents
一种基于音素和韵律结构的中文语音合成方法 Download PDFInfo
- Publication number
- CN110534089B CN110534089B CN201910621398.3A CN201910621398A CN110534089B CN 110534089 B CN110534089 B CN 110534089B CN 201910621398 A CN201910621398 A CN 201910621398A CN 110534089 B CN110534089 B CN 110534089B
- Authority
- CN
- China
- Prior art keywords
- prosodic
- model
- prosody
- text
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 47
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000033764 rhythmic process Effects 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种基于音素和韵律结构的中文语音合成方法,该方法分为训练阶段和合成阶段;根据语言学知识,从待处理文本中的韵律标注信息中提取出韵律结构特征,基于韵律结构特征训练韵律模型;对待处理文本和音频进行预处理,得到包含韵律信息的拼音序列及对应的声学特征,然后训练声学模型,将训练好的韵律模型和声学模型部署到后台;根据韵律模型获得与输入文本对应的包含其韵律信息的文本;再转换为带有韵律信息的拼音序列后输入到声学模型得到其线性频谱;将线性频谱转换为音频。可以使合成的声音更加自然,特别是对于较长的分句,也能确定出停顿位置,另外在合成阶段将模型部署到后台,省去模型加载的时间,这样可以加快语音合成的速度。
Description
技术领域
本发明属于人工智能领域,具体涉及一种基于音素和韵律结构的中文语音合成方法。
背景技术
语音合成又叫文语转换(Text to Speech),简称TTS,是一项将文本转换为声音的AI技术,在人机交互中起着至关重要的作用。无论是语音助手、地图导航、娱乐教育等应用软件,还是空调、音箱、电视等硬件设备,都能看到语音合成的影子。而随着智能家居、自动驾驶、智慧医疗等与人发生交互的场景越来越多,用户对人机交互的体验也提出了全新的要求——合成的声音更自然,更像真人,这些都使得语音合成技术成为一个日益火热的研究方向。
传统的语音合成技术主要分为统计参数和波形拼接两种。统计参数合成方法利用韵律模型和声学模型得到声学参数,然后通过声码器将声学参数转换为声音。波形拼接方法根据一定的挑选规则从语音库中挑选出音节、词、短语等语音单元,然后将语音单元拼接成语音。传统的语音合成方法具有一定的局限性,统计参数合成方法的信息丢失大,合成的声音不够清晰、自然,而波形拼接合成方法需要人工介入制定出许多挑选规则,并且对语音库的依赖较强。
传统语音合成系统的缺陷促使了端到端语音合成系统的发展,研究者希望利用深度神经网络构建出端到端的语音合成系统,实现输入文本,直接输出声音,尽可能减少人工干预和对相关背景知识的要求。WaveNet(2016)是基于条件自回归的语音合成模型,但是它依赖于文本前端的语言学信息,因此不是端到端的。Char2Wav(2017)输出的仍然是声学参数,因此需要一个声码器来将声学参数转化为声音。
目前比较流行的端到端语音合成模型是基于编码器-解码器框架所建立的带有注意力机制的Seq2Seq模型。2017年Google推出的Tacotron模型是第一个真正意义上实现端到端的语音合成模型,可以实现输入文本或注音串,输出线性频谱,再经过Griffin-Lim算法将线性频谱转换为音频。2018年谷歌又推出Tacotron2模型,该模型是对Tacotron模型进行了改进,去掉了复杂的CBHG结构和GRU单元,转而用LSTM和卷积层来替代,模型输出梅尔语谱,然后通过WaveNet将梅尔语谱转换为音频。
英文方面的端到端语音合成技术已经相对成熟,但是中文方面的相关研究还相对较少,而中文语音合成技术又有着巨大的应用市场,所以我们对Tacotron2模型进行了改进,提出一种基于音素和韵律结构的中文语音合成方法。陈宏等人公开的“一种基于音素的中文语音合成系统”中所用的音素集合由23个声母、39个韵母以及声调构成,且没有考虑韵律特征,会导致合成的声音听起来机械感较强;李昊等人公开的“语音合成方法和装置”,其模型输出为声学参数,声学参数的过平滑问题以及声码器对音质的损伤会使合成的声音不够自然。
发明内容
为了解决了现有技术中存在的问题,本发明提供一种基于音素和韵律结构的中文语音合成法,用以解决合成的声音不够自然、机械感较强以及合成速度慢的问题。
为达到上述目的,本发明采用的技术方案为:一种基于音素和韵律结构的中文语音合成方法,包括训练和合成两个阶段;训练阶段包括如下步骤:
步骤1,根据语言学知识,从待处理文本中的韵律标注信息中提取出韵律结构特征,基于所述韵律结构特征训练韵律模型;
步骤2,对待处理文本和音频进行预处理,得到包含韵律信息的拼音序列及对应的声学特征;
步骤3,基于步骤2所得包含韵律信息的拼音序列和声学特征训练声学模型;
在合成阶段,包括如下步骤:
步骤4,将步骤1训练好的韵律模型和步骤3所得声学模型部署到后台;
步骤5,根据步骤4部署到后台的韵律模型获得与输入文本对应的包含其韵律信息的文本;
步骤6,将步骤5所得包含其韵律信息的文本转换为带有韵律信息的拼音序列;
步骤7,将步骤6所得带有韵律信息的拼音序列输入到步骤4部署在后台的声学模型得到其线性频谱;
步骤8,通过声码器将步骤7所得线性频谱转换为音频。
在所述步骤1中,从韵律标注中的“#1”、“#2”、“#3”和“#4”四个停顿等级提取出词边界、短语边界以及语调短语边界三个韵律结构特征,以文本为输入,以词边界、短语边界及语调短语边界为输出,训练一个基于Encoder-Decoder框架所构建的Seq2Seq模型,模型组件包括Word Embedding、BiLSTM、LSTM、attention以及FC(Fully Connected)。
步骤1中,将待处理文本中的每个句子处理成样本和标签的形式,所述样本为不包含韵律标注信息的中文字符串;所述标签包含三组:韵律词边界、韵律短语边界以及韵律语调短语边界,每组标签的长度与样本的长度相同,每组标签中的每个元素为N或者B,N代表该位置不是边界,B代表该位置是边界;基于所述样本和标签训练韵律模型。
在所述步骤2中,从待处理文本中提取包含韵律信息的拼音序列,利用MFCC中的分帧、加窗、预加重、短时傅里叶变换以及梅尔滤波器技术对音频进行预处理得到线性频谱和梅尔语谱两个声学特征。
在所述步骤3中,以包含韵律信息的拼音序列为输入,以线性频谱和梅尔语谱为输出,基于Encoder-Decoder框架训练一个带有注意力机制的Seq2Seq模型,模型组件包括Character Embedding、CNN、BiLSTM、LSTM、attention、FC以及CBHG模块;其中,Encoder包括Character Embedding、CNN以及BiLSTM;Decoder包括LSTM、attention以及FC;CBHG模块包括2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN。
在所述步骤4中,利用Docker和TensorFlow Serving实现韵律模型和声学模型的后台部署。
在所述步骤5中,通过IP端口访问经步骤4部署在后台的韵律模型,得到输入文本的“#1”、“#2”#3和“#4”四个停顿等级的韵律标注信息。
在所述步骤6中,对拼音转换工具进行扩展,将转换错误的拼音添加到拼音字典,并补充数字转拼音模块,利用拼音转换工具将带韵律信息的文本转换为带韵律信息的拼音序列。
步骤7中,通过IP端口访问经步骤4部署在后台的声学模型,输入包含韵律信息的拼音序列,得到所述拼音序列对应的线性频谱。
在所述步骤8中,以Griffin-Lim算法作为声码器,即迭代地进行短时傅里叶变换和短时傅里叶逆变换,恢复出语音信号的相位信息,从而实现将线性频谱转换为音频。
与现有技术相比,本发明至少具有以下有益效果,本发明提供的一种基于音素和韵律结构的中文语音合成方法,由于在文本前端引入预训练的韵律模型,所以后端声学模型的输入不仅仅包括拼音,还包括韵律标注信息,可以使得合成的声音更加自然,更像真人;本发明所提供的中文语音合成方法,在声音音质和合成效率方面都有一定改善;相对于采用声母和韵母粒度的音素,本发明所述音素集合由26个拼音字母和五个声调组成,所需音素集简单。
进一步的,在合成阶段,将训练好的韵律模型和声学模型都部署在后台,通过IP端口进行访问,省去模型加载的时间,所以在一定程度上提高了合成的速度。
附图说明
图1为本发明提供的语音合成方法示例性实施例的流程图;
图2为本发明提供的语音合成方法示例性实施例的韵律模型的示意图;
图3为本发明提供的语音合成方法示例性实施例的声学模型的示意图。
具体实施方式
下面将结合附图对示例性实施例进行详细说明:
如图1所示,基于音素和韵律结构的中文语音合成方法分为训练阶段和合成阶段。在训练阶段,步骤如下:
步骤1,从待处理文本的韵律标注信息中提取韵律结构特征
韵律标注信息包含“#1”、“#2”、“#3”、“#4”四个停顿等级,其停顿程度依次增大,韵律结构分为韵律词(PW)、韵律短语(PPH)、语调短语(IPH)三个层级,三者具有一定的包含关系,韵律词边界包含韵律短语边界,韵律短语边界包含韵律语调短语边界,句子中出现任何一个停顿的位置为韵律词边界,句子中出现“#2”、“#3”或“#4”的位置为韵律短语边界,句子中出现“#3”或“#4”的位置为韵律语调短语边界;将待处理文本中的每个句子处理成样本和标签的形式,所述样本为不包含韵律标注信息的中文字符串;所述标签包含三组:韵律词边界、韵律短语边界以及韵律语调短语边界,每组标签的长度与样本的长度相同,每组标签中的每个元素为N或者B,N代表该位置不是边界,B代表该位置是边界。
构建词表和处理变长句子:
对所述样本中的字去创建词表,所述词表中词的ID从1开始编号;对标所述签创建词表,词表中仅有N和B两个词,编号分别为1和2,通过查找词表分别将样本和标签转换为数值序列,以每个batch中的最长序列为标准,分别对样本和标签用数值0来补齐。
基于所述样本和标签,训练韵律模型:
如图2所示,每个batch的样本经过Word Embedding将每个字的编码ID转化为对应的词向量,该Word Embedding矩阵的行数为样本词表中字的个数加1;将词向量输入双向LSTM中,进行编码,得到输入样本比较鲁棒的隐状态表示;以双向LSTM最后时刻的隐状态作为Decoder的初始状态进行循环解码,每次解码先通过注意力机制计算一个语义向量,然后将所述语义向量与双向LSTM在该时刻的输出拼接起来一起输入到LSTM中;LSTM的输出经过reshape后输入到一个全连接层,该全连接层的单元个数为3,以全连接层的输出和词边界的交叉熵作为韵律词的损失函数;全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测韵律短语边界,以全连接层的输出和韵律短语标签的交叉熵作为韵律短语的损失函数;全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测语调短语边界,以全连接层的输出和语调短语标签的交叉熵作为语调短语的损失函数;韵律词的损失函数、韵律短语的损失函数、语调短语的损失函数之和为韵律模型的总损失函数;利用反向传播算法对所述总损失函数进行优化,得到训练好的韵律模型。
步骤2,从待处理文本中提取包含韵律标注信息的拼音序列及对应的声学特征
待处理文本中已经包含中文和对应的拼音,中文中具有“#1”、“#2”、“#3”、“#4”的韵律标注信息,将韵律标注信息添加到拼音中的对应位置,并且“#1”、“#2”、“#3”、“#4”分别用“①”、“②”、“③”,“④”表示,例如对于待处理文本中这样一句话:
中文#1语音#1合成#2系统#3
zhong1wen2yu3yin1he2cheng2xi4tong3
从中提取到包含韵律标注信息的拼音序列为:
zhong1wen2①yu3yin1①he2cheng2②xi4tong3③
音频读入计算机后为离散数字信号,对所述离散数字信号进行分帧、加窗、预加重以及短时傅里叶变换得到线性频谱,然后再利用梅尔滤波器组将频率标度转换为梅尔标度,并且对信息进行过滤,得到梅尔语谱;所述线性频谱和所述梅尔语谱即为音频预处理获得的声学特征。
步骤3,基于步骤2所得包含韵律信息的拼音序列和声学特征,训练声学模型。
如图3所示,拼音序列通过查找词表获得数值序列,然后输入到CharacterEmbedding层,实现将每个字母、数字、韵律符号和标点符号转化为对应的词向量,后接3层卷积网,将卷积网的输出输入到一层双向LSTM,得到拼音序列的隐状态表示;在解码过程中,上一步的解码结果作为输入经过2层全连接组成的Pre-Net模块,然后与注意力机制计算的语义向量拼接起来一起输入到2层LSTM中进行解码,解码得到的序列经过线性投影得到Stop Token序列和声学特征序列,其中Stop Token序列中的每个元素代表该元素对应位置是否为句子终点;
声学特征序列经过5层卷积网组成的Post-Net模块和残差连接,得到梅尔语谱;将所述梅尔语谱输入到CBHG模块获得线性频谱,其中CBHG模块由2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN组成;
声学模型的损失函数包括四部分:输出Stop Token序列与真实Stop Token序列的交叉熵、线性投影得到的声学特征序列与真实梅尔语谱的均方误差、输出梅尔语谱与真实梅尔语谱的均方误差、输出线性频谱与真实线性频谱的均方误差;利用反向传播算法对所述声学模型的损失函数进行优化,得到训练好的声学模型。
在合成阶段,步骤如下:
步骤4,部署模型
利用Docker和TensorFlow Serving将步骤1训练好的韵律模型和步骤3训练好的声学模型部署到后台。
在Docker中拉取TensorFlow Serving镜像,获得TensorFlow Serving环境。将训练好的韵律模型和声学模型分别保存成TensorFlow Serving支持的模型格式,在Docker中开启一个容器,并且利用TensorFlow Serving镜像将两个模型都挂载在该容器。
步骤5通过访问韵律模型获得与输入文本对应的包含其韵律信息的文本
利用IP端口如“http://localhost:8501/v1/models/ProsodyModel:predict”访问韵律模型,获得输入文本如“中文语音合成系统”包含韵律的文本:“中文#1语音#1合成#2系统#3”。
步骤6,将包含其韵律信息的文本转换为包含韵律信息的拼音序列。
对拼音转换工具pypinyin进行扩展,将转换错误的拼音添加到拼音字典,补充数字转换模块,然后利用pypinyin将包含韵律信息的文本如“中文#1语音#1合成#2系统#3”转换为包含韵律信息的拼音序列如“zhong1wen2①yu3yin1①he2cheng2②xi4tong3③”。
步骤7,将步骤6所得包含韵律信息的拼音序列输入到步骤3所得声学模型得到其线性频谱
利用IP端口如“http://localhost:8501/v1/models/AcousticModel:predict”访问声学模型,输入包含韵律信息的拼音序列,得到对应的线性频谱,输出线性频谱能较大程度减少信息的损失。
步骤8,通过声码器将步骤7所得线性频谱转换为音频
利用Griffin-Lim算法作为声码器,迭代地进行短时傅里叶变换和短时傅里叶逆变换,恢复出相位信息,实现从线性频谱转换为音频并输出。
最后应说明的是:以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进和应用,都属于本发明的保护范围。
Claims (7)
1.一种基于音素和韵律结构的中文语音合成方法,其特征在于,包括训练和合成两个阶段;训练阶段包括如下步骤:
步骤1,根据语言学知识,从待处理文本中的韵律标注信息中提取出韵律结构特征,基于所述韵律结构特征训练韵律模型;
步骤2,对待处理文本和音频进行预处理,得到包含韵律信息的拼音序列及对应的声学特征;
步骤3,基于步骤2所得包含韵律信息的拼音序列和声学特征训练声学模型;
在合成阶段,包括如下步骤:
步骤4,将步骤1训练好的韵律模型和步骤3所得声学模型部署到后台;
步骤5,根据步骤4部署到后台的韵律模型获得与输入文本对应的包含其韵律信息的文本;
步骤6,将步骤5所得包含其韵律信息的文本转换为带有韵律信息的拼音序列;
步骤7,将步骤6所得带有韵律信息的拼音序列输入到步骤4部署在后台的声学模型得到其线性频谱;
步骤8,通过声码器将步骤7所得线性频谱转换为音频;在所述步骤1中,从韵律标注中的“#1”、“#2”、“#3”和“#4”四个停顿等级提取出韵律词边界、韵律短语边界以及韵律语调短语边界三个韵律结构特征,以文本为输入,以韵律词边界、韵律短语边界及韵律语调短语边界为输出,训练一个基于Encoder-Decoder框架所构建的Seq2Seq模型,模型组件包括WordEmbedding、BiLSTM、LSTM、attention以及FC;
将待处理文本中的每个句子处理成样本和标签的形式,所述样本为不包含韵律标注信息的中文字符串;所述标签包含三组:韵律词边界、韵律短语边界以及韵律语调短语边界,每组标签的长度与样本的长度相同,每组标签中的每个元素为N或者B,N代表该位置不是边界,B代表该位置是边界,即得到韵律结构特征;
对所述样本中的字去创建词表,所述词表中词的ID从1开始编号;对所述标签创建词表,词表中仅有N和B两个词,编号分别为1和2,通过查找词表分别将样本和标签转换为数值序列,以每个batch中的最长序列为标准,分别对样本和标签用数值0来补齐;
每个batch的样本经过Word Embedding 将每个字的编码ID转化为对应的词向量,该Word Embedding 矩阵的行数为样本词表中字的个数加1;将词向量输入双向LSTM中,进行编码,得到输入样本比较鲁棒的隐状态表示;以双向LSTM最后时刻的隐状态作为Decoder的初始状态进行循环解码,每次解码先通过注意力机制计算一个语义向量,然后将所述语义向量与双向LSTM在该时刻的输出拼接起来一起输入到LSTM中;LSTM的输出经过reshape后输入到一个全连接层,该全连接层的单元个数为3,以全连接层的输出和韵律词边界的交叉熵作为韵律词的损失函数;全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测韵律短语边界,以全连接层的输出和韵律短语标签的交叉熵作为韵律短语的损失函数;全连接层的输出与Word Embedding的输出拼接起来一起输入到双向LSTM中来预测韵律语调短语边界,以全连接层的输出和语调短语标签的交叉熵作为韵律语调短语的损失函数;韵律词的损失函数、韵律短语的损失函数、韵律语调短语的损失函数之和为韵律模型的总损失函数;利用反向传播算法对所述总损失函数进行优化,得到训练好的韵律模型;
在所述步骤3中,以包含韵律信息的拼音序列为输入,以线性频谱和梅尔语谱为输出,基于Encoder-Decoder框架训练一个带有注意力机制的Seq2Seq模型,模型组件包括Character Embedding、CNN、BiLSTM、LSTM、attention、FC以及CBHG模块;其中,Encoder包括Character Embedding、CNN以及BiLSTM;Decoder包括LSTM、attention以及FC;CBHG模块包括2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN;
拼音序列对应的数值序列输入到Character Embedding层,将每个字母、数字、韵律符号和标点符号转化为对应的词向量,后接3层卷积网,将卷积网的输出输入到一层双向LSTM,得到拼音序列的隐状态表示;在解码过程中,上一步的解码结果作为输入经过2层全连接组成的Pre-Net模块,然后与注意力机制计算的语义向量拼接起来一起输入到2层LSTM中进行解码,解码得到的序列经过线性投影得到Stop Token序列和声学特征序列,其中Stop Token序列中的每个元素代表该元素对应位置是否为句子终点;
声学特征序列经过5层卷积网组成的Post-Net模块和残差连接,得到梅尔语谱;将所述梅尔语谱输入到CBHG模块获得线性频谱,其中CBHG模块由2层卷积网、1层池化层、4层高速公路网络和一层GRU单元构成的双向RNN组成;
声学模型的损失函数包括四部分:输出Stop Token序列与真实Stop Token序列的交叉熵、线性投影得到的声学特征序列与真实梅尔语谱的均方误差、输出梅尔语谱与真实梅尔语谱的均方误差、输出线性频谱与真实线性频谱的均方误差;利用反向传播算法对所述声学模型的损失函数进行优化,得到训练好的声学模型。
2.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法,其特征在于,在所述步骤2中,从待处理文本中提取包含韵律信息的拼音序列,利用MFCC中的分帧、加窗、预加重、短时傅里叶变换以及梅尔滤波器技术对音频进行预处理得到线性频谱和梅尔语谱两个声学特征。
3.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法,其特征在于,在所述步骤4中,利用Docker和TensorFlow Serving实现韵律模型和声学模型的后台部署。
4.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法,其特征在于,在所述步骤5中,通过IP端口访问经步骤4部署在后台的韵律模型,得到输入文本的“#1”、“#2”#3和“#4”四个停顿等级的韵律标注信息。
5.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法,其特征在于,在所述步骤6中,对拼音转换工具进行扩展,将转换错误的拼音添加到拼音字典,并补充数字转拼音模块,利用拼音转换工具将带韵律信息的文本转换为带韵律信息的拼音序列。
6.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法,其特征在于,步骤7中,通过IP端口访问经步骤4部署在后台的声学模型,输入包含韵律信息的拼音序列,得到所述拼音序列对应的线性频谱。
7.根据权利要求1所述的基于音素和韵律结构的中文语音合成方法,其特征在于,在所述步骤8中,以Griffin-Lim算法作为声码器,即迭代地进行短时傅里叶变换和短时傅里叶逆变换,恢复出语音信号的相位信息,从而实现将线性频谱转换为音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621398.3A CN110534089B (zh) | 2019-07-10 | 2019-07-10 | 一种基于音素和韵律结构的中文语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621398.3A CN110534089B (zh) | 2019-07-10 | 2019-07-10 | 一种基于音素和韵律结构的中文语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110534089A CN110534089A (zh) | 2019-12-03 |
CN110534089B true CN110534089B (zh) | 2022-04-22 |
Family
ID=68659644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621398.3A Active CN110534089B (zh) | 2019-07-10 | 2019-07-10 | 一种基于音素和韵律结构的中文语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534089B (zh) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508466A (zh) * | 2019-09-12 | 2020-08-07 | 马上消费金融股份有限公司 | 一种文本处理方法、装置、设备及计算机可读存储介质 |
CN113066476B (zh) * | 2019-12-13 | 2024-05-31 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
CN112069805A (zh) * | 2019-12-20 | 2020-12-11 | 北京来也网络科技有限公司 | 结合rpa与ai的文本标注方法、装置、设备及存储介质 |
WO2021134581A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 基于韵律特征预测的语音合成方法、装置、终端及介质 |
CN113129863B (zh) * | 2019-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 语音时长预测方法、装置、设备及可读存储介质 |
CN110797006B (zh) * | 2020-01-06 | 2020-05-19 | 北京海天瑞声科技股份有限公司 | 端到端的语音合成方法、装置及存储介质 |
CN111292719A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111292720B (zh) * | 2020-02-07 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111326138A (zh) * | 2020-02-24 | 2020-06-23 | 北京达佳互联信息技术有限公司 | 语音生成方法及装置 |
CN111402855B (zh) * | 2020-03-06 | 2021-08-27 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111369971B (zh) * | 2020-03-11 | 2023-08-04 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111785248B (zh) * | 2020-03-12 | 2023-06-23 | 北京汇钧科技有限公司 | 文本信息处理方法及装置 |
CN111508469A (zh) * | 2020-04-26 | 2020-08-07 | 北京声智科技有限公司 | 一种文语转换方法及装置 |
CN111402857B (zh) * | 2020-05-09 | 2023-11-21 | 广州虎牙科技有限公司 | 语音合成模型训练方法和装置、电子设备及存储介质 |
US11158302B1 (en) | 2020-05-11 | 2021-10-26 | New Oriental Education & Technology Group Inc. | Accent detection method and accent detection device, and non-transitory storage medium |
CN111292763B (zh) * | 2020-05-11 | 2020-08-18 | 新东方教育科技集团有限公司 | 重音检测方法及装置、非瞬时性存储介质 |
CN111667834B (zh) * | 2020-05-21 | 2023-10-13 | 北京声智科技有限公司 | 一种助听设备及助听方法 |
CN111627418B (zh) * | 2020-05-27 | 2023-01-31 | 携程计算机技术(上海)有限公司 | 语音合成模型的训练方法、合成方法、系统、设备和介质 |
CN111667812B (zh) * | 2020-05-29 | 2023-07-18 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN111710326B (zh) * | 2020-06-12 | 2024-01-23 | 携程计算机技术(上海)有限公司 | 英文语音的合成方法及系统、电子设备及存储介质 |
CN111754978B (zh) * | 2020-06-15 | 2023-04-18 | 北京百度网讯科技有限公司 | 韵律层级标注方法、装置、设备和存储介质 |
CN111667816B (zh) * | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN112037758A (zh) * | 2020-06-19 | 2020-12-04 | 四川长虹电器股份有限公司 | 一种语音合成方法及装置 |
CN111883104B (zh) * | 2020-07-08 | 2021-10-15 | 马上消费金融股份有限公司 | 语音切割方法、语音转换网络模型的训练方法及相关设备 |
CN111899715B (zh) * | 2020-07-14 | 2024-03-29 | 升智信息科技(南京)有限公司 | 一种语音合成方法 |
CN111883102B (zh) * | 2020-07-14 | 2022-12-30 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN111754976B (zh) * | 2020-07-21 | 2023-03-07 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN111739508B (zh) * | 2020-08-07 | 2020-12-01 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN111986646B (zh) * | 2020-08-17 | 2023-12-15 | 云知声智能科技股份有限公司 | 一种基于小语料库的方言合成方法及系统 |
CN111968619A (zh) * | 2020-08-26 | 2020-11-20 | 四川长虹电器股份有限公司 | 控制语音合成发音的方法及装置 |
CN112151008B (zh) * | 2020-09-22 | 2022-07-15 | 中用科技有限公司 | 一种语音合成方法、系统及计算机设备 |
CN112151009B (zh) * | 2020-09-27 | 2024-06-25 | 平安科技(深圳)有限公司 | 一种基于韵律边界的语音合成方法及装置、介质、设备 |
CN112151005B (zh) * | 2020-09-28 | 2022-08-19 | 四川长虹电器股份有限公司 | 一种中英文混合的语音合成方法及装置 |
CN112331177B (zh) * | 2020-11-05 | 2024-07-02 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
CN112071300B (zh) * | 2020-11-12 | 2021-04-06 | 深圳追一科技有限公司 | 语音会话方法、装置、计算机设备和存储介质 |
CN112509554A (zh) * | 2020-12-11 | 2021-03-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112634865B (zh) * | 2020-12-23 | 2022-10-28 | 爱驰汽车有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112802450B (zh) * | 2021-01-05 | 2022-11-18 | 杭州一知智能科技有限公司 | 一种韵律可控的中英文混合的语音合成方法及其系统 |
CN112786011B (zh) * | 2021-01-13 | 2024-05-10 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
CN112927674B (zh) * | 2021-01-20 | 2024-03-12 | 北京有竹居网络技术有限公司 | 语音风格的迁移方法、装置、可读介质和电子设备 |
CN112863484B (zh) * | 2021-01-25 | 2024-04-09 | 中国科学技术大学 | 韵律短语边界预测模型训练方法和韵律短语边界预测方法 |
CN113112988A (zh) * | 2021-03-30 | 2021-07-13 | 上海红阵信息科技有限公司 | 一种基于ai处理的语音合成处理系统及方法 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN113241056B (zh) * | 2021-04-26 | 2024-03-15 | 标贝(青岛)科技有限公司 | 语音合成模型的训练与语音合成方法、装置、系统及介质 |
CN113112995B (zh) * | 2021-05-28 | 2022-08-05 | 思必驰科技股份有限公司 | 词声学特征系统、词声学特征系统的训练方法及系统 |
CN113096638B (zh) * | 2021-06-09 | 2021-09-07 | 北京世纪好未来教育科技有限公司 | 语音合成模型训练方法、语音合成方法及装置 |
CN113393829B (zh) * | 2021-06-16 | 2023-08-29 | 哈尔滨工业大学(深圳) | 一种融合韵律和个人信息的中文语音合成方法 |
CN113421550A (zh) * | 2021-06-25 | 2021-09-21 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN113555001A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
CN113658577B (zh) * | 2021-08-16 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种语音合成模型训练方法、音频生成方法、设备及介质 |
CN113808571B (zh) * | 2021-08-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备以及存储介质 |
CN113838452B (zh) | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN113793598B (zh) * | 2021-09-15 | 2023-10-27 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法和数据增强方法、装置及设备 |
CN115910021A (zh) * | 2021-09-22 | 2023-04-04 | 脸萌有限公司 | 语音合成方法、装置、电子设备及可读存储介质 |
CN114005430A (zh) * | 2021-11-26 | 2022-02-01 | 北京小米移动软件有限公司 | 语音合成模型的训练方法、装置、电子设备和存储介质 |
CN113948062B (zh) * | 2021-12-20 | 2022-08-16 | 阿里巴巴达摩院(杭州)科技有限公司 | 数据转换方法及计算机存储介质 |
CN114420087B (zh) * | 2021-12-27 | 2022-10-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN114495902A (zh) * | 2022-02-25 | 2022-05-13 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN115116427B (zh) * | 2022-06-22 | 2023-11-14 | 马上消费金融股份有限公司 | 标注方法、语音合成方法、训练方法及装置 |
CN116030789B (zh) * | 2022-12-28 | 2024-01-26 | 南京硅基智能科技有限公司 | 一种生成语音合成训练数据的方法和装置 |
CN116403562B (zh) * | 2023-04-11 | 2023-12-05 | 广州九四智能科技有限公司 | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
CN117153144B (zh) * | 2023-10-31 | 2024-02-06 | 杭州宇谷科技股份有限公司 | 基于端计算的电池信息语音播报方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154683A (ja) * | 1999-11-30 | 2001-06-08 | Sharp Corp | 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体 |
US20070112570A1 (en) * | 2005-11-17 | 2007-05-17 | Oki Electric Industry Co., Ltd. | Voice synthesizer, voice synthesizing method, and computer program |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
JP5722295B2 (ja) * | 2012-11-12 | 2015-05-20 | 日本電信電話株式会社 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
CN103065620B (zh) * | 2012-12-27 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN105355193B (zh) * | 2015-10-30 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN107103900B (zh) * | 2017-06-06 | 2020-03-31 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
CN108597492B (zh) * | 2018-05-02 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
-
2019
- 2019-07-10 CN CN201910621398.3A patent/CN110534089B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154683A (ja) * | 1999-11-30 | 2001-06-08 | Sharp Corp | 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体 |
US20070112570A1 (en) * | 2005-11-17 | 2007-05-17 | Oki Electric Industry Co., Ltd. | Voice synthesizer, voice synthesizing method, and computer program |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
Non-Patent Citations (1)
Title |
---|
基于WaveNet的端到端语音合成方法;邱泽宇 等;《计算机应用》;20190510;第1325-1329页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110534089A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534089B (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN113439301B (zh) | 用于机器学习的方法和系统 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN112017644A (zh) | 一种声音变换系统、方法及应用 | |
CN110827801A (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
KR102401243B1 (ko) | 유사 발음열을 이용한 콜미 서비스의 음성 합성 장치 및 방법 | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
CN112802446A (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
CN115547293A (zh) | 一种基于分层韵律预测的多语言语音合成方法及系统 | |
CN114999447B (zh) | 一种基于对抗生成网络的语音合成模型及语音合成方法 | |
Unnibhavi et al. | Development of Kannada speech corpus for continuous speech recognition | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
CN114267325A (zh) | 语音合成模型的训练方法、系统、电子设备和存储介质 | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
Mutawa | Machine learning for Arabic text to speech synthesis: A Tacotron approach | |
Kayte et al. | The Marathi text-to-speech synthesizer based on artificial neural networks | |
CN112151008B (zh) | 一种语音合成方法、系统及计算机设备 | |
CN113506560B (zh) | 一种保持音高的歌声合成方法及装置 | |
Toma et al. | Automatic rule-based syllabication for Romanian | |
Yang et al. | DESIGNING A MANDARIN LEARNING IN DONGXIANG NATIONALITY BY ARTIFICIAL INTELLIGENT SPEECH TECHNOLOGY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |