CN111883102B - 一种双层自回归解码的序列到序列语音合成方法及系统 - Google Patents
一种双层自回归解码的序列到序列语音合成方法及系统 Download PDFInfo
- Publication number
- CN111883102B CN111883102B CN202010672991.3A CN202010672991A CN111883102B CN 111883102 B CN111883102 B CN 111883102B CN 202010672991 A CN202010672991 A CN 202010672991A CN 111883102 B CN111883102 B CN 111883102B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- level
- frame
- acoustic
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出一种双层自回归解码的序列到序列语音合成方法及系统,系统包括编码器和解码器,所述解码器包括:音素级表征模块、音素级预测模块、帧级预测模块;所述编码器将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征;所述音素级表征模块,通过帧一级的长短时记忆网络(LSTM)和池化处理获得每个音素单元的声学单元表征;所述音素级预测模块,采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系;所述帧级预测模块,通过解码器LSTM来预测帧级的声学特征。
Description
技术领域
本发明属于语音信号处理领域,具体涉及一种双层自回归解码的序列到序列语音合成方法及系统。
背景技术
语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话,它使许多语音交互应用受益,例如智能个人助理和机器人。当前,统计参数语音合成(statisticalparametric speech synthesis,SPSS)是其中一种主流的方法。
统计参数语音合成利用声学模型来建模文本特征和声学特征之间的关系,并利用声码器(vocoder)在给定预测声学特征的情况下得到语音波形。尽管这种方法可以产生清晰的声音,但由于声学模型和声码器的局限性,合成语音的质量始终会有所下降。最近,Wang和Shen等人提出了基于神经网络的序列到序列(sequence-to-sequence)语音合成声学模型,并证明了直接从文本中预测梅尔谱的出色性能。它解决了传统SPSS方法的诸多不足,例如需要大量领域内的专业知识、SPSS每个模块独立训练导致可能出现的累计误差等。这种序列到序列的语音合成方法对人工参与的依赖度低,只需要在配对的文本和语音上进行训练。
但是由于序列到序列语音合成方法将声学模型与时长模型统一在一个模型之内,并且由于Tacotron模型的加性注意力机制(additive attention)不够鲁棒,这可能会导致预测的声学特征出现一些错误,尤其是在输入复杂的域外文本时更是如此。为了缓解这个问题,人们对注意力机制提出了一些改进,例如前向注意力,逐步单调注意力(SMA)和位置相对注意力等机制。其中前向注意力机制提出了一种在每步解码时仅考虑满足单调条件的对齐路径;逐步单调注意力机制(stepwise monotonic attention,SMA)进一步限制了对齐的路径并且解决了注意力坍塌的问题。不过这些方法始终是在帧层面进行自回归的,不具有长时建模声学特征从而让模型自然地获得鲁棒性的能力。
目前基于神经网络的序列到序列语音合成方法都是基于帧级自回归解码结构进行设计的,存在长时相关性建模能力的不足,此外模型所采用的注意力机制的鲁棒性也不够理想,在合成复杂文本时存在重复、漏读、无法停止等合成语音错误。
发明内容
为了解决上述问题,本发明提出了一种双层自回归解码的序列到序列语音合成方法及系统。该系统的解码器使用音素和帧两级自回归结构进行声学特征序列的预测,同时利用训练数据中明确的音素边界信息以及通过可解释的音素转移概率,代替传统模型中的注意力机制,来实现声学特征序列与文本特征序列间的对齐。本发明提出的模型在保证合成语音自然度的前提下,可以有效减少声学特征预测错误,提高语音合成的鲁棒性。本发明综合利用神经网络、统计参数语音合成两个技术领域的特性,针对合成文本的鲁棒性不足,采用预测音素间转移概率的方法去取代注意力机制;针对只在帧层面进行的自回归难以建模特征间长时依赖性的问题,引入了音素级的自回归方法并重新设计了解码器。
本发明的技术方案如下:一种双层自回归解码的序列到序列语音合成系统,包括编码器和解码器,所述解码器包括:音素级表征模块、音素级预测模块、帧级预测模块;
所述编码器输入是一个句子中音素的语言表征,即将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征;
所述音素级表征模块,输入是一个音素内帧级的声学特征,通过帧一级的长短时记忆网络(即LSTM)和池化处理获得每个音素单元的声学单元表征;
所述音素级预测模块,输入是历史所有音素的声学单元表征以及当前音素的上下文单元表征,音素级预测模块采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系;
所述帧级预测模块,其输入有两部分,一部分是音素级预测模块预测出的当前单元的声学单元表征,另一部分是音素级表征模块中作用在帧一级LSTM的隐藏状态;最终通过解码器LSTM来预测帧级的声学特征。
根据本发明的另一方面,提出一种双层自回归解码的序列到序列语音合成方法,包括如下步骤:
步骤1:语言表征编码,利用编码器,将待合成音素序列对应的语言表征转换为上下文单元表征;
步骤2:声学特征预测,利用解码器,从步骤1中得到上下文单元表征中预测文本对应的梅尔谱特征,具体包括几个子步骤:
步骤2.1:音素级表征生成,通过音素表征模块将音素内帧级的声学特征编码为该音素的声学单元表征;
步骤2.2:音素级表征预测,利用步骤2.1得到的历史音素的声学单元表征和当前音素的上下文单元表征,预测当前音素的声学单元表征;
步骤2.3:帧级特征预测,利用步骤2.2预测的当前音素的声学单元表征以及当前帧的声学特征,预测下一帧的声学特征。
进一步的,所述步骤1如下:
将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络(bidirectional long short-term memory,BiLSTM)获得上下文单元表征序列BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征函数concat表示向量拼接,和分别是前向和后向LSTM对应第n个单元的隐藏状态。
进一步的,所述步骤2.1包括:
音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征;在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱;上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性;根据已知的音素边界在音素的开始帧位置重置LSTM状态;最后为了得到单元对应的定长的音素级声学单元表征使用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
进一步的,所述步骤2.1中,在训练阶段,为了将上下文单元表征和声学单元表征联系起来,采用注意力机制来获得每个音素的声学单元表征的识别概率,进而计算音素识别损失;假设一句话包含N个音素,在这里对于第n个音素,询问值(Query)是声学单元表征键值(Keys)是上下文单元表征序列注意力机制中第n个键值对应的权重被用作第n个音素识别概率的估计值,训练阶段通过交叉熵函数将其与句中音素的独热编码进行比较,以得到音素识别损失。
第二步使用softmax函数将所有键值对应的能量e={e1,e2,…,eN}归一化得到键值对应的概率值α={α1,α2,…,αN};
第三步通过计算多分类的交叉熵将当前第n个音素对应的概率值αn转换为音素识别损失其中向量va和矩阵Wa是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,代表实数域空间,concat代表向量拼接的函数。
进一步的,所述步骤2.2包括所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性,该音素级预测模块包括音素一级LSTM和循环预测器gc,其中音素一级LSTM将历史音素单元的声学单元表征转换为声学历史向量采用如下公式:
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块;
进一步的,所述帧级预测模块通过解码器LSTM预测帧级声学特征;该帧级预测模块的输入有两部分组成,一个是由音素级预测模块预测出的当前音素的声学单元表征另一个是音素级表征模块中帧一级LSTM在当前帧上对应的隐藏状态;这两个部分拼接之后进入解码器LSTM,其隐藏状态经一个全连接预测当前帧的梅尔谱,待预测完毕后使用后处理网络生成残差以细化预测的梅尔谱;在训练网络时,需要计算梅尔谱的重构误差损失;定义为经过后处理网络前后的预测梅尔谱与自然梅尔谱之间的均方误差的和;
解码器LSTM的隐藏状态再经另一个全连接,通过注意力机制去预测描述当前帧属于下一音素首帧的可能性,即该帧的转移概率;使用一个基于注意力机制的模块计算转移概率,若当前帧属于第n个音素,注意力机制的键值(Key)是当前音素和下一音素的上下文单元表征和询问值(Query)是解码器当前帧LSTM隐藏状态的线性变换;利用对应的注意力权重作为转移概率。
进一步的,在训练阶段除了需要梅尔谱和语义表征序列之外,也需要语料库中的音素边界作为输入,通过基于HMM的强制对齐来获得;为了隐式建模时长,在训练时需要计算转移损失,它定义为预测的转移概率与由音素边界确定的真实转移概率之间的交叉熵;考虑到跳转帧和非跳转帧之间数量的不平衡,采用加权策略来增强跳转帧在转移损失中的影响。
第二步使用softmax函数将两个键值对应的能量e={es,ej}归一化得到键值的概率值α={αs,αj};
第三步通过计算交叉熵将其与句中由音素边界确定的真实转移概率y={ys,yj}(对于跳转帧{ys=0,yj=1},对于非跳转帧{ys=1,yj=0})进行比较,以得到音素识别损失其中vb、Wb是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,代表实数域空间,concat代表向量拼接的函数。
有益效果
本发明的优点在于:
第一,在解码器中使用音素和帧两级自回归结构进行声学特征序列的预测,以更好建模声学与文本特征间的长时依赖关系;
第二,利用训练数据中明确的音素边界信息并预测可解释的音素转移概率,代替传统模型中的注意力机制,来实现声学特征序列与文本特征序列间的对齐。实验结果表明,该模型与传统序列到序列语音合成方法相比,在保证合成语音自然度的前提下,有效减少了声学特征预测错误,提高了语音合成的鲁棒性。
综上,传统的基于注意力机制的序列到序列神经网络缺乏鲁棒性,对复杂的文本易合成出错,另外它们基于帧级自回归模型预测声学特征,对于特征间长时依赖关系的建模能力不足。本发明提出的双层自回归解码的序列到序列语音合成方法能在帧级和音素级两个层面建立自回归模型,可更充分的挖掘文本至语音间的映射关系,提高语音合成的鲁棒性。
附图说明
图1:本发明的一种双层自回归解码的序列到序列语音合成方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的一个实施例,提出一种一种双层自回归解码的序列到序列语音合成系统,包括编码器和解码器。所述编码器结构与Tacotraon2模型相同,其解码器又包括音素级表征、音素级预测、帧级预测三个模块。另外,总共四个损失函数被提出用于指导模型训练。
1.编码器模块。该模块的输入是一个句子中音素的语言表征,即将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络(convolutional neural network,CNNs)和双向长短时记忆网络(bidirectional long short-term memory,BiLSTM)将这些信息编码融合得到句子中每个音素的上下文单元表征。
2.音素级表征模块。这个模块的输入是一个音素内帧级的声学特征,通过帧一级的长短时记忆网络(long short-term memory,LSTM)和池化处理获得每个音素单元的声学单元表征。
3.音素级预测模块。这个模块的输入是历史所有音素的声学单元表征以及当前音素的上下文单元表征,此模块采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系。
4.帧级预测模块。这个模块的输入有两部分,一个是音素级预测模块预测出的当前单元的声学单元表征,另一个是音素级表征模块中作用在帧一级的LSTM的隐藏状态。最终通过解码器LSTM来预测帧级的声学特征。
5.该模型在训练阶段总共使用了四个损失函数。1)重构误差,用于计算预测的梅尔谱和自然梅尔谱之间的差异;2)转移损失,通过建模帧对应音素的转移概率对音素时长进行隐式建模;3)一致性损失,用于构成音素级的自回归结构;4)音素识别损失,用来约束声学单元表征和上下文单元表征之间的差异。
到此为止,多模块协同的语音合成神经网络结构已搭建完毕。通过随机梯度算法或者其改进算法,比如SGD,Adam,AdaDelta等,最小化神经网络模型在训练集的损失函数的加权和来进行神经网络参数的训练。
最后,在合成阶段,测试文本的上下文特征序列输入至已经训练好的上述训练好的模型预测梅尔谱,再通过声码器重构语音波形。
根据本发明的一个实施例,编码器模块具体为:
为了更好的利用上下文信息,本发明将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络(bidirectional longshort-termmemory,BiLSTM)获得上下文单元表征序列由于BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征函数concat表示向量拼接,和分别是前向和后向LSTM对应第n个单元的隐藏状态。
进一步的,所述的音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征。在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱。上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性。为了只考虑音素内的帧序列而忽略相邻音素的影响,本发明根据已知的音素边界在音素的开始帧位置重置LSTM状态。最后为了得到单元对应的定长的音素级声学单元表征使用通用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
在训练阶段,为了将上下文单元表征和声学单元表征联系起来,这里采用注意力机制来获得每个音素的声学单元表征的识别概率,进而计算音素识别损失假设一句话包含N个音素,在这里对于第n个音素,询问值(Query)是声学单元表征键值(Keys)是上下文单元表征序列注意力机制中第n个键值对应的权重被用作第n个音素的识别概率的估计值。训练阶段通过交叉熵函数将其与句中音素的独热编码进行比较,以得到音素识别损失音素识别损失有助于限制两种单元表征的空间,可以让声学单元表征融入更多偏文本方面的信息,有助于减小发音的错误。计算此音素识别损失损失的步骤如下:
第二步使用softmax函数将所有键值对应的能量e={e1,e2,…,eN}归一化得到键值对应的概率值α={α1,α2,…,αN};
第三步通过计算多分类的交叉熵将当前第n个音素对应的概率值αn转换为音素识别损失其中向量va和矩阵Wa是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,代表实数域空间,concat代表向量拼接的函数。
由于音素级表征模块中的帧一级LSTM的状态在音素边界处被截断,因此解码当前音素时无法使用先前的音素信息。此外,音素级表征模块在其所有帧都已解码之前无法输出其音素级的声学单元表征。
为了解决这些问题,所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性。该音素级预测模块由音素一级LSTM和循环预测器gc组成。其中音素一级LSTM将历史音素单元的声学单元表征转换为声学历史向量采用如下公式:
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块。
为了保证构成音素级的自回归结构,在训练阶段,这里需要计算一致性损失以保证构成音素级的自回归结构,定义为预测的声学单元表征与真实的声学单元表征之间的均方误差。通过这个损失函数,本发明能将预测的声学单元表征估计的尽可能与真实一致。一致性损失可使用如下公式计算,其中i代表的维度,代表第i维的数值,对于同理。其中D是单元表征的维度,MSE代表计算均方误差的函数。
所述帧级预测模块通过解码器LSTM预测帧级声学特征。该帧级预测模块的输入有两部分组成,一个是由音素级预测模块预测出的当前音素的声学单元表征另一个是音素级表征模块中帧一级LSTM在当前帧上对应的隐藏状态。这两个部分拼接之后进入解码器LSTM,其隐藏状态经一个全连接预测当前帧的梅尔谱,待预测完毕后得到初步梅尔谱specpre,使用后处理网络生成残差以细化预测的梅尔谱得到精细梅尔谱specpost。在训练网络时,这里需要计算梅尔谱的重构误差损失重构误差损失定义为经过后处理网络前后的预测梅尔谱与自然梅尔谱specnat之间的均方误差的和,即 它的目的是让预测的梅尔谱更加逼近真实梅尔谱,有助于得到质量更高的语音。
解码器LSTM的隐藏状态再经另一个全连接,通过注意力机制去预测描述当前帧属于下一音素首帧的可能性,即该帧的转移概率。本发明使用一个基于注意力机制的模块去计算转移概率,若当前帧属于第n个音素,注意力机制的键值(Keys)是当前音素和下一音素的上下文单元表征和询问值q(Query)是解码器当前帧LSTM隐藏状态的线性变换。这里使用注意力机制的目的不是获得键值的加权和,而是利用对应的权重作为转移概率。在训练阶段除了需要梅尔谱和语义表征序列之外,也需要语料库中的音素边界作为输入,这可以通过基于隐马尔可夫(Hidden Markov Model,HMM)的强制对齐来获得。为了隐式建模时长,在训练时需要计算转移损失它定义为预测的转移概率与由音素边界确定的真实转移概率之间的交叉熵。转移损失通过隐式建模时长有助于得到更加真实的语音时长,让合成语音的韵律更加自然。计算此转移损失的步骤如下:
第二步使用softmax函数将两个键值对应的能量e={es,ej}归一化得到键值的概率值α={αs,αj};
第三步通过计算交叉熵将其与句中由音素边界确定的真实转移概率y={ys,yj}(对于跳转帧{ys=0,yj=1},对于非跳转帧{ys=1,yj=0})进行比较,以得到音素识别损失其中vb、Wb是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,代表实数域空间,concat代表向量拼接的函数。
根据本发明的一个实施例,损失函数为:
整个神经网络模型采用端到端的方式进行参数训练,训练的目标是在训练集上最小化以上介绍的四个损失函数的加权和。
根据本发明的一个实施例,合成过程为:建立该模型后,其合成过程与其他序列到序列语音合成方法基本相同。区别在于该模型的解码过程中没有基于注意力机制的对齐方式,而是基于转移概率实现音素时长的预测。在生成某帧对应梅尔谱的过程中,一旦其在帧级预测模块中的转移概率超过0.5这个阈值,解码器将重置音素级表征模块中的帧一级LSTM状态,然后开始解码下一个音素。
为了验证本发明所提出方法的有效性,设计了如下实验。
(1)实验设置
本文使用的是中文新闻女声音库,包含12319句话,约17.51小时。这12319句话被分成了训练、验证和领域内测试三个数据集,每个数据集分别含有11608、611和100句话。训练集用于训练提出的模型,验证集用于调整超参数,领域内测试集用于测试该模型的自然度。我们还在337句的领域外测试集上评估了该模型的鲁棒性,包括中国古典诗词、小说、导航文本以及数字串等。语音自然度和鲁棒性作为最终的评价指标。训练模型时80维的梅尔谱被用作声学特征,帧长为64ms,帧移为15ms。并且我们采用音素序列而不是直接使用汉字序列作为模型输入。输入该模型的音素序列类型包括音素、音调和韵律短语边界。模型使用PyTorch实现,Adam参数优化器优化,在训练集上进行200轮训练,训练一次的批处理大小为80。初始学习率为10-3,然后学习速率指数每10轮衰减0.9倍。
(2)实验结果
关于不同模型鲁棒性的实验结果如表1和表2所示。基准模型是基于两种注意力机制的序列到序列语音合成方法,分别是基于加性注意力机制的Tacotron2_org和基于单调注意力机制的Tacotron2_SMA。对于领域类句子,重点考察的是句子停止符预测错误的次数以及合成语音音调、频谱和韵律不合适的次数。对于领域外的句子,重点考察的是句子停止符预测错误的次数以及重复、漏读和模型注意力坍塌的次数。
表1:不同模型对于领域内测试句的合成错误次数
停止符预测错误 | 不正确的音调 | 频谱噪音 | 不合适的韵律 | |
Tacotron2_org | 3 | 20 | 82 | 52 |
Tacotron2_SMA | 0 | 29 | 55 | 27 |
UniNet_SPSS | 0 | 15 | 43 | 19 |
表2:不同模型对于领域外测试句的合成错误次数
停止符预测错误 | 重复 | 漏读 | 注意力坍塌 | |
Tacotron2_org | 1 | 2 | 4 | 4 |
Tacotron2_SMA | 0 | 2 | 1 | 0 |
UniNet_SPSS | 0 | 0 | 0 | 0 |
关于不同模型的测听结果见表3,其中基准模型是基于两种注意力机制的序列到序列语音合成方法Tacotron2_org和Tacotron2_SMA。通过表1、表2和表3的主观评估的结果表明:在基于序列到序列的语音合成方法上,与具有相似自然度的两个Tacotron2系统相比,我们提出的模型具有更好的鲁棒性。
表3:统计参数语音合成上不同模型在自然度上的倾向性测听
Tacotron2_org | Tacotron2_SMA | UniNet | N/P | p |
39.55 | - | 39.09 | 21.36 | 0.95 |
- | 39.09 | 37.88 | 23.03 | 0.80 |
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种双层自回归解码的序列到序列语音合成方法,其特征在于,包括如下步骤:
步骤1:语言表征编码,利用编码器,将待合成音素序列对应的语言表征转换为上下文单元表征;
步骤2:声学特征预测,利用解码器,从步骤1中得到上下文单元表征中预测文本对应的梅尔谱特征,具体包括几个子步骤:
步骤2.1:音素级表征生成,通过音素表征模块将音素内帧级的声学特征编码为该音素的声学单元表征;
步骤2.2:音素级表征预测,利用步骤2.1得到的历史音素的声学单元表征和当前音素的上下文单元表征,预测当前音素的声学单元表征;
步骤2.3:帧级特征预测,利用步骤2.2预测的当前音素的声学单元表征以及当前帧的声学特征,预测下一帧的声学特征;
所述步骤1如下:
将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络,即BiLSTM,获得上下文单元表征序列BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征函数concat表示向量拼接,和分别是前向和后向LSTM对应第n个单元的隐藏状态;
所述步骤2.1包括:
音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征;在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱;上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性;根据已知的音素边界在音素的开始帧位置重置LSTM状态;最后为了得到单元对应的定长的音素级声学单元表征使用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
所述步骤2.2包括所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性,该音素级预测模块包括音素一级LSTM和循环预测器gc,其中音素一级LSTM将历史音素单元的声学单元表征转换为声学历史向量采用如下公式:
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块;
4.根据权利要求1所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,所述帧级预测模块通过解码器LSTM预测帧级声学特征;该帧级预测模块的输入有两部分组成,一个是由音素级预测模块预测出的当前音素的声学单元表征另一个是音素级表征模块中帧一级LSTM在当前帧上对应的隐藏状态;这两个部分拼接之后进入解码器LSTM,其隐藏状态经一个全连接预测当前帧的梅尔谱,待预测完毕后使用后处理网络生成残差以细化预测的梅尔谱;在训练网络时,需要计算梅尔谱的重构误差损失;定义为经过后处理网络前后的预测梅尔谱与自然梅尔谱之间的均方误差的和;
5.根据权利要求1所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,在训练阶段除了需要梅尔谱和语义表征序列之外,也需要语料库中的音素边界作为输入,通过基于HMM的强制对齐来获得;为了隐式建模时长,在训练时需要计算转移损失,它定义为预测的转移概率与由音素边界确定的真实转移概率之间的交叉熵;考虑到跳转帧和非跳转帧之间数量的不平衡,采用加权策略来增强跳转帧在转移损失中的影响。
第二步使用softmax函数将两个键值对应的能量e={es,ej}归一化得到键值的概率值α={αs,αj};
第三步通过计算交叉熵将概率值α与句中由音素边界确定的真实转移概率y={ys,yj}进行比较,其中,对于跳转帧{ys=0,yj=1},对于非跳转帧{ys=1,yj=0},以得到音素识别损失其中vb、Wb是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,代表实数域空间,concat代表向量拼接的函数;
7.一种使用权利要求1所述的一种双层自回归解码的序列到序列语音合成方法的双层自回归解码的序列到序列语音合成系统,其特征在于,包括编码器和解码器,所述解码器包括:音素级表征模块、音素级预测模块、帧级预测模块;
所述编码器输入是一个句子中音素的语言表征,即将音素名、音调和韵律短语边界信息用向量表征,然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征;
所述音素级表征模块,输入是一个音素内帧级的声学特征,通过帧一级的长短时记忆网络,即LSTM,和池化处理获得每个音素单元的声学单元表征;
所述音素级预测模块,输入是历史所有音素的声学单元表征以及当前音素的上下文单元表征,音素级预测模块采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系;
所述帧级预测模块,其输入有两部分,一部分是音素级预测模块预测出的当前单元的声学单元表征,另一部分是音素级表征模块中作用在帧一级LSTM的隐藏状态;最终通过解码器LSTM来预测帧级的声学特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672991.3A CN111883102B (zh) | 2020-07-14 | 2020-07-14 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672991.3A CN111883102B (zh) | 2020-07-14 | 2020-07-14 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111883102A CN111883102A (zh) | 2020-11-03 |
CN111883102B true CN111883102B (zh) | 2022-12-30 |
Family
ID=73150719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010672991.3A Active CN111883102B (zh) | 2020-07-14 | 2020-07-14 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111883102B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634920B (zh) * | 2020-12-18 | 2024-01-02 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN112508121B (zh) * | 2020-12-22 | 2024-03-22 | 南京大学 | 一种工业机器人感知外界的方法和系统 |
CN112802450B (zh) * | 2021-01-05 | 2022-11-18 | 杭州一知智能科技有限公司 | 一种韵律可控的中英文混合的语音合成方法及其系统 |
CN112820279B (zh) * | 2021-03-12 | 2024-02-09 | 深圳市臻络科技有限公司 | 基于语音上下文动态特征的帕金森检测模型构建方法 |
CN113345406B (zh) * | 2021-05-19 | 2024-01-09 | 苏州奇梦者网络科技有限公司 | 神经网络声码器语音合成的方法、装置、设备以及介质 |
CN113488020B (zh) * | 2021-07-02 | 2024-04-12 | 科大讯飞股份有限公司 | 语音合成方法和相关设备、装置、介质 |
CN113409759B (zh) * | 2021-07-07 | 2023-04-07 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN113782007A (zh) * | 2021-09-07 | 2021-12-10 | 上海企创信息科技有限公司 | 一种语音识别方法、装置、语音识别设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
US10573296B1 (en) * | 2018-12-10 | 2020-02-25 | Apprente Llc | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
-
2020
- 2020-07-14 CN CN202010672991.3A patent/CN111883102B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10573296B1 (en) * | 2018-12-10 | 2020-02-25 | Apprente Llc | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Non-Patent Citations (4)
Title |
---|
基于LPCNet的语音合成方法研究;陈小东等;《计算机与数字工程》;20200520(第05期);第156-160、239页 * |
基于受限玻尔兹曼机的频谱建模与单元挑选语音合成方法;凌震华等;《模式识别与人工智能》;20150831;第673-679页 * |
基于循环神经网络的中文语音合成研究与应用;应雨婷;《中国优秀硕士学位论文全文数据库(电子期刊)》;20200615;I136-199 * |
混合单元选择语音合成系统的目标代价构建;蔡文彬等;《计算机工程与应用》;20181215(第24期);第25-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111883102A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111883102B (zh) | 一种双层自回归解码的序列到序列语音合成方法及系统 | |
EP3680894B1 (en) | Real-time speech recognition method and apparatus based on truncated attention, device and computer-readable storage medium | |
Li et al. | The speechtransformer for large-scale mandarin chinese speech recognition | |
CN110189749B (zh) | 语音关键词自动识别方法 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
JP4274962B2 (ja) | 音声認識システム | |
Mimura et al. | Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition | |
US8548808B2 (en) | Speech understanding apparatus using multiple language models and multiple language understanding models | |
Wang et al. | A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis | |
Bai et al. | Learn spelling from teachers: Transferring knowledge from language models to sequence-to-sequence speech recognition | |
Tyagi et al. | Dynamic prosody generation for speech synthesis using linguistics-driven acoustic embedding selection | |
CN114023316A (zh) | 基于TCN-Transformer-CTC的端到端中文语音识别方法 | |
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
KR20230127293A (ko) | 정보 합성 방법 및 장치, 전자 장치 및 컴퓨터 판독가능 저장 매체 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
Niwa et al. | Statistical voice conversion based on WaveNet | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Sawada et al. | The nitech text-to-speech system for the blizzard challenge 2016 | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
Milone et al. | Prosodic and accentual information for automatic speech recognition | |
Joshi et al. | Attention based end to end speech recognition for voice search in hindi and english | |
Chen et al. | Unsupervised multi-scale expressive speaking style modeling with hierarchical context information for audiobook speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |