CN110288973B

CN110288973B - 语音合成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110288973B
Application number: CN201910420154.9A
Authority: CN
Inventors: 王健宗; 孙奥兰; 彭话易; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2024-03-29
Anticipated expiration: 2039-05-20
Also published as: CN110288973A; WO2020232997A1

Abstract

本申请提供一种语音合成方法、装置、设备及计算机可读存储介质，该方法包括：确定参考语音序列，并获取语音合成模型和待合成的目标文本序列对应的目标文本向量；通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量；通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量；通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。本申请涉及语音合成，通过目标风格嵌入向量和目标文本向量，共同合成语音，可以得到按照该目标风格嵌入向量表达的语音韵律合成语音，可以有效的提高合成语音的表达力精确性。

Description

语音合成方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及语音合成的技术领域，尤其涉及一种语音合成方法、装置、设备及计算机可读存储介质。

背景技术

随着TTS(Text To Speech，从文本到语音)系统的快速发展，使用TTS系统的场景也越来越多，如语音书的朗读、新闻阅读和交谈助手等，其中，神经网络模型具备合成有表达性效果语音的性能，但为了合成更像真人的语音，神经网络模型必须学习韵律，而韵律是语音中一组现象的组合，例如副语言信息、腔调、重音和风格等。

风格包含了丰富的信息，如意图、情绪和影响说话者的腔调和语音流等，因此很难精准的定义语音的风格，而目前的TTS系统以及端到端的语音合成系统，仅能学习一个输入数据的平均韵律分布，没有风格的控制，对于较长的文本句子无法合成具备精准表达力的语音。因此，如何提高合成语音的表达力精确性是目前亟待解决的问题。

发明内容

本申请的主要目的在于提供一种语音合成方法、装置、设备及计算机可读存储介质，旨在提高合成语音的表达力精确性。

第一方面，本申请提供一种语音合成方法，所述语音合成方法包括以下步骤：

确定参考语音序列，并获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成层；

通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量；

通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量；

通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。

第二方面，本申请还提供一种语音合成装置，所述语音合成装置包括：

确定模块，用于确定参考语音序列；

获取模块，用于获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成；

编码模块，用于通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量；

风格标记模块，用于通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量；

语音合成模块，用于通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的语音合成方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的语音合成方法的步骤。

本申请提供一种语音合成方法、装置、设备及计算机可读存储介质，本申请通过语音合成模型中的参考编码器和风格标记层对参考语音序列进行处理，可以得到目标风格嵌入向量，即语音韵律的向量表达，然后通过语音合成模型中的语音合成层，基于目标风格嵌入向量和目标文本向量，共同合成语音，可以得到按照该目标风格嵌入向量表达的语音韵律合成语音，可以有效的提高合成语音的表达力精确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音合成方法的流程示意图；

图2为本申请实施例中的语音合成模型的一层级示意图；

图3为本申请实施例提供的另一种语音合成方法的流程示意图；

图4为本申请实施例提供的一种语音合成装置的示意性框图；

图5为本申请实施例提供的另一种语音合成装置的示意性框图；

图6为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种语音合成方法、装置、计算机设备及计算机可读存储介质。其中，该语音合成方法可应用于服务器中，该服务器可以为单台的服务器，也可以为服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种语音合成方法的流程示意图。

如图1所示，该语音合成方法，用于提高合成语音的表达力精确性，其中该语音合成方法包括步骤S101至步骤S104。

步骤S101、确定参考语音序列，并获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成层。

在需要合成具有精确表达力的语音时，需要先确定参与语音合成的参考语音序列，然后按照参考语音序列的语音韵律来合成文本对应的语音，为此可以预存至少一个语音序列，在需要合成语音时，将预存的至少一个语音序列确定为参考语音序列。其中，语音序列可以是音频信号，该音频信号可以是变长的或者是固定长度的，该语音序列可由音素组成，音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。

在一实施例中，为了灵活的改变合成语音的韵律，可以通过选择的方式确定参考语音序列，具体为当监测到语音合成请求时，从该语音合成请求中获取语音风格编号，并获取该语音风格标号对应的语音序列，然后将该语音序列确定为参考语音序列。其中，服务器中存储有语音风格编号与语音序列的映射关系表，通过查询该映射关系表即可得到每个语音风格编号对应的语音序列。

在确定参考语音序列的同时，获取语音合成模型和参与语音合成的目标文本序列对应的目标文本向量，其中，语音合成模型至少包括参考编码器、风格标记层和语音合成层，该语音合成模型是通过训练得到的，且训练过程为：确定待训练的语音合成模型，包括参考编码器、风格标记层和语音合成层，并将作为样本的语音序列输入该参考编码器，得到参考嵌入向量，然后将该参考嵌入向量输入该风格标记层，得到风格嵌入向量，并将作为样本的文本向量与该风格嵌入向量输入至该语音合成层，从而训练语音合成模型，通过不断迭代训练直到语音合成模型收敛。其中，该语音序列所表达的内容与该文本向量表达的内容相同。

步骤S102、通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量。

在确定参考语音序列之后，该服务器通过该语音合成模型中的参考编码器对该参考语音序列进行编码，得到该参考语音序列对应的目标参考嵌入向量。在一实施例中，该参考编码器由卷积神经网络(Convolutional Neural Networks，CNN)层和循环神经网络(RecurrentNeural Network，RNN)层组成，且该卷积神经网络层由多层二维卷积层组成，该循环神经网络层由一个RNN组成，其中，该二维卷积层的核可选为3*3，步长可选为2*2，例如，如果该CNN层为6层二维卷积层，则可以为这六层的二维卷积层依次设置32、32、64、64、128和128的输出通道。

具体地，通过该参考编码器中的卷积神经网络层对该参考语音序列进行处理，得到该参考语音序列对应的三维张量，即从该参考语音序列中提取音频特征，并依次通过该卷积神经网络层中的每个二维卷积层处理该音频特征，得到张量，并将该张量变换为三维张量，但保持输出的时间复杂度；然后通过该参考编码器中的循环神经网络层对该三维张量进行处理，得到该参考语音序列对应的目标参考嵌入向量。

步骤S103、通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量。

在得到目标参考嵌入向量之后，该服务器通过该语音合成模型的风格标记层对该目标参考嵌入向量进行风格标记，得到该参考语音序列对应的目标风格嵌入向量。其中，该风格标记层中存储有每个风格标记对参考语音序列贡献的风格权重，且每个风格标记对参考语音序列贡献的风格权重之和为1，需要说明的是，每个风格标记对参考语音序列贡献的风格权重是在训练语音合成模型收敛时得到的。

具体地，从该风格标记层获取每个风格标记对该参考语音序列贡献的风格权重，并用每个风格标记对该参考语音序列贡献的风格权重乘以该目标参考嵌入向量，得到每个风格标记的风格嵌入向量，然后将每个风格标记的风格嵌入向量之和确定为该参考语音序列对应的目标风格嵌入向量。需要说明的是，该每个风格标记的风格权重共同构成一个权重组，表示一种语音韵律，可以控制参考语音序列的语音合成，使得参考语音序列按照该权重组表达的语音韵律播放。

步骤S104、通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。

在得到目标风格嵌入向量之后，该服务器通过语音合成模型中的语音合成层基于该目标文本向量和该目标风格嵌入向量，执行语音合成操作，得到目标语音。请参照图2，图2为本申请实施例中语音合成模型的一层级示意图，如图2所示，该语音合成模型包括参考编码器、风格标记层和语音合成层，参考编码器的输入为参考语音序列，语音合成层的输入为目标风格嵌入向量和目标文本向量，语音合成层的输出为目标语音。

在一实施例中，该语音合成层包括向量拼接子层和语音合成子层，可选地，该语音合成子层由端对端的语音合成模型，即Tacotron模型组成，该Tacotron模型依次由编码器-注意力机制-解码器组成。具体地，通过该语音合成层中的向量拼接子层对该目标文本向量和该目标风格嵌入向量进行拼接，得到该目标文本序列的拼接向量，并通过该语音合成层中的语音合成子层基于该拼接向量，执行语音合成操作，得到该目标文本序列对应的目标语音。

在一实施例中，为提高语音合成速度，在语音合成层中加入状态标识符，当状态标识符为合成结束状态对应的标识符时，结束语音合成，具体地，将目标文本向量和目标风格嵌入向量输入语音合成层，执行语音合成操作，然后在执行语音合成操作的过程中，实时监测该语音合成层的状态标识符是否为合成结束状态对应的标识符，当监测该语音合成层的状态标识符为合成结束状态对应的标识符时，停止执行语音合成操作，并输出该目标文本序列对应的目标语音。

上述实施例提供的语音合成方法，通过语音合成模型中的参考编码器和风格标记层对参考语音序列进行处理，可以得到目标风格嵌入向量，即语音韵律的向量表达，然后通过语音合成模型中的语音合成层，基于目标风格嵌入向量和目标文本向量，共同合成语音，可以得到按照该目标风格嵌入向量表达的语音韵律合成语音，可以有效的提高合成语音的表达力精确性。

请参照图3，图3为本申请实施例提供的另一种语音合成方法的流程示意图。

如图3所示，该语音合成方法包括步骤S201至204。

步骤S201、确定参考语音序列，并获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成层。

在需要合成具有精确表达力的语音时，需要先确定参与语音合成的参考语音序列，然后按照参考语音序列的语音韵律来合成文本对应的语音，为此可以预存至少一个语音序列，在需要合成语音时，将预存的至少一个语音序列确定为参考语音序列。其中，语音序列可以是音频信号，该音频信号可以是变长的或者是固定长度的，该语音序列可由音素组成，音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。其中，语音合成模型至少包括参考编码器、风格标记层和语音合成层，该语音合成模型是通过训练得到的。

步骤S202、通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量。

在确定参考语音序列之后，该服务器通过该语音合成模型中的参考编码器对该参考语音序列进行编码，得到该参考语音序列对应的目标参考嵌入向量。具体地，通过该参考编码器中的卷积神经网络层对该参考语音序列进行处理，得到该参考语音序列对应的三维张量，即从该参考语音序列中提取音频特征，并依次通过该卷积神经网络层中的每个二维卷积层处理该音频特征，得到张量，并将该张量变换为三维张量，但保持输出的时间复杂度；然后通过该参考编码器中的循环神经网络层对该三维张量进行处理，得到该参考语音序列对应的目标参考嵌入向量。

步骤S203、通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量。

在得到目标参考嵌入向量之后，该服务器通过该语音合成模型的风格标记层对该目标参考嵌入向量进行风格标记，得到该参考语音序列对应的目标风格嵌入向量。目标风格嵌入向量表示一种参考语音序列的语音韵律，为准确的确定参考语音序列的语音韵律表示，具体地，参照图3，步骤S203包括子步骤S2031至S2033。

子步骤S2031、通过所述风格标记层中的注意力机制，计算每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度。

其中，在训练语音合成模型的过程中，风格标记层中的注意力机制也一起训练，在语音合成模型收敛时，风格标记层中的注意力机制也相应的收敛，同时获取收敛时每个风格标记对应的参考嵌入向量，然后将每个风格标记对应的参考嵌入向量作为预设向量固化在风格标记层中。

在得到目标参考嵌入向量之后，通过风格标记层中的注意力机制，计算每个风格标记对应的预设向量与该目标参考嵌入向量之间的相似度。其中，该注意力机制可以是多头注意力机制，或者是基于内容的注意力机制，或者是基于位置的注意力机制，或者是基于几种注意力机制的结合。

子步骤S2032、根据每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度，确定每个风格标记对所述参考语音序列贡献的风格权重。

在确定每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度之后，根据每个风格标记对应的预设向量与该目标参考嵌入向量之间的相似度，确定每个风格标记对参考语音序列贡献的风格权重，即累加每个风格标记对应的预设向量与该目标参考嵌入向量之间的相似度，得到总相似度，并计算每个风格标记对应的预设向量与该目标参考嵌入向量之间的相似度占该总相似度的比率，然后将每个风格标记对应的预设向量与该目标参考嵌入向量之间的相似度占该总相似度的比率确定为每个风格标记对参考语音序列贡献的风格权重。

例如，风格标记的数量为5，且每个风格标记对应的预设向量与该目标参考嵌入向量之间的相似度分别为0.6、0.3、0.4、0.4和0.3，则总相似度为2，每个风格标记的该相似度与总相似度之比分别为0.3、0.15、0.2、0.2和0.15，则每个风格标记对参考语音序列贡献的风格权重分别为0.3、0.15、0.2、0.2和0.15。

子步骤S2033、根据每个风格标记对所述参考语音序列贡献的风格权重，确定所述参考语音序列对应的目标风格嵌入向量。

在确定每个风格标记对该参考语音序列贡献的风格权重之后，用每个风格标记对该参考语音序列贡献的风格权重乘以该目标参考嵌入向量，得到每个风格标记的风格嵌入向量，然后累加每个风格标记的风格嵌入向量，得到该参考语音序列对应的目标风格嵌入向量。

步骤S204、通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。

在得到目标风格嵌入向量之后，该服务器通过语音合成模型中的语音合成层基于该目标文本向量和该目标风格嵌入向量，执行语音合成操作，得到目标语音。具体地，通过该语音合成层中的向量拼接子层对该目标文本向量和该目标风格嵌入向量进行拼接，得到该目标文本序列的拼接向量，并通过该语音合成层中的语音合成子层基于该拼接向量，执行语音合成操作，得到该目标文本序列对应的目标语音。

上述实施例提供的语音合成方法，通过风格标记层中的注意力机制，可以准确计算出每个风格标记对参考语音序列贡献的风格权重，从而可以准确的确定参考语音序列的语音韵律表示，同时通过语音合成模型中的语音合成层，基于目标风格嵌入向量和目标文本向量，共同合成语音，可以得到按照该目标风格嵌入向量表达的语音韵律合成语音，可以有效的提高合成语音的表达力精确性。

请参照图4，图4为本申请实施例提供的一种语音合成装置的示意性框图。

如图4所示，该语音合成装置300，包括：确定模块301、获取模块302、编码模块303、风格标记模块304和语音合成模块305。

确定模块301，用于确定参考语音序列。

在一实施例中，所述确定模块301，还用于当监测到语音合成请求时，从所述语音合成请求中获取语音风格编号；获取所述语音风格编号对应的语音序列，并将所述语音序列确定为参考语音序列。

获取模块302，用于获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成。

编码模块303，用于通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量。

在一实施例中，所述编码模块303，还用于通过所述参考编码器中的卷积神经网络层对所述参考语音序列进行处理，得到所述参考语音序列对应的三维张量；通过所述参考编码器中的循环神经网络层对所述三维张量进行处理，得到所述参考语音序列对应的目标参考嵌入向量。

风格标记模块304，用于通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量。

在一实施例中，所述风格标记模块304，还用于从所述风格标记层中获取每个风格标记对所述参考语音序列贡献的风格权重；用每个风格标记对所述参考语音序列贡献的风格权重乘以所述目标参考嵌入向量，得到每个风格标记的风格嵌入向量；累加每个风格标记的风格嵌入向量，得到所述参考语音序列对应的目标风格嵌入向量。

语音合成模块305，用于通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。

在一实施例中，所述语音合成模块305，还用于通过所述语音合成层中的向量拼接子层对所述目标文本向量和所述目标风格嵌入向量进行拼接，得到所述目标文本序列的拼接向量；通过所述语音合成层中的语音合成子层基于所述拼接向量，执行语音合成操作，得到所述目标文本序列对应的目标语音。

在一实施例中，所述语音合成模块305，还用于将所述目标文本向量和所述目标风格嵌入向量输入所述语音合成层，执行语音合成操作；在执行语音合成操作的过程中，实时监测所述语音合成层的状态标识符是否为合成结束状态对应的标识符；当监测所述语音合成层的状态标识符为合成结束状态对应的标识符时，停止执行语音合成操作，并输出所述目标文本序列对应的目标语音。

请参照图5，图5为本申请实施例提供的另一种语音合成装置的示意性框图。

如图5所示，该语音合成装置400，包括：确定模块401、获取模块402、编码模块403、风格标记模块404和语音合成模块405。

确定模块401，用于确定参考语音序列。

获取模块402，用于获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成。

编码模块403，用于通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量。

风格标记模块404，用于通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量。

在一实施例中，如图5所示，所述风格标记模块404包括：

计算子模块4041，用于通过所述风格标记层中的注意力机制，计算每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度。

权重确定子模块4042，用于根据每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度，确定每个风格标记对所述参考语音序列贡献的风格权重。

向量确定子模块4043，用于根据每个风格标记对所述参考语音序列贡献的风格权重，确定所述参考语音序列对应的目标风格嵌入向量。

语音合成模块405，用于通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述语音合成方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器。

如图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音合成方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音合成方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量时，用于实现：

通过所述参考编码器中的卷积神经网络层对所述参考语音序列进行处理，得到所述参考语音序列对应的三维张量；

通过所述参考编码器中的循环神经网络层对所述三维张量进行处理，得到所述参考语音序列对应的目标参考嵌入向量。

在一个实施例中，所述处理器在实现通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量时，用于实现：

从所述风格标记层中获取每个风格标记对所述参考语音序列贡献的风格权重；

用每个风格标记对所述参考语音序列贡献的风格权重乘以所述目标参考嵌入向量，得到每个风格标记的风格嵌入向量；

累加每个风格标记的风格嵌入向量，得到所述参考语音序列对应的目标风格嵌入向量。

在一个实施例中，所述处理器在实现通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音时，用于实现：

通过所述语音合成层中的向量拼接子层对所述目标文本向量和所述目标风格嵌入向量进行拼接，得到所述目标文本序列的拼接向量；

通过所述语音合成层中的语音合成子层基于所述拼接向量，执行语音合成操作，得到所述目标文本序列对应的目标语音。

将所述目标文本向量和所述目标风格嵌入向量输入所述语音合成层，执行语音合成操作；

在执行语音合成操作的过程中，实时监测所述语音合成层的状态标识符是否为合成结束状态对应的标识符；

当监测所述语音合成层的状态标识符为合成结束状态对应的标识符时，停止执行语音合成操作，并输出所述目标文本序列对应的目标语音。

在一个实施例中，所述处理器在实现确定参考语音序列时，用于实现：

当监测到语音合成请求时，从所述语音合成请求中获取语音风格编号；

获取所述语音风格编号对应的语音序列，并将所述语音序列确定为参考语音序列。

其中，在另一实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量的步骤包括：

通过所述风格标记层中的注意力机制，计算每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度；

根据每个风格标记对应的预设向量与所述目标参考嵌入向量之间的相似度，确定每个风格标记对所述参考语音序列贡献的风格权重；

根据每个风格标记对所述参考语音序列贡献的风格权重，确定所述参考语音序列对应的目标风格嵌入向量。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请语音合成方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，包括：

通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音；

其中，所述通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量的步骤包括：

2.如权利要求1所述的语音合成方法，其特征在于，所述通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量的步骤包括：

3.如权利要求1所述的语音合成方法，其特征在于，所述通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量的步骤包括：

4.如权利要求1所述的语音合成方法，其特征在于，所述通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音的步骤包括：

5.如权利要求1-4中任一项所述的语音合成方法，其特征在于，所述通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音的步骤包括：

6.如权利要求1-4中任一项所述的语音合成方法，其特征在于，所述确定参考语音序列的步骤包括：

7.一种语音合成装置，其特征在于，所述语音合成装置包括：

确定模块，用于确定参考语音序列；

获取模块，用于获取语音合成模型和待合成的目标文本序列对应的目标文本向量，其中，所述语音合成模型至少包括参考编码器、风格标记层和语音合成层；

语音合成模块，用于通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音；

其中，所述风格标记模块，还用于从所述风格标记层中获取每个风格标记对所述参考语音序列贡献的风格权重；用每个风格标记对所述参考语音序列贡献的风格权重乘以所述目标参考嵌入向量，得到每个风格标记的风格嵌入向量；累加每个风格标记的风格嵌入向量，得到所述参考语音序列对应的目标风格嵌入向量。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至6中任一项所述的语音合成方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至6中任一项所述的语音合成方法的步骤。