CN116978354B

CN116978354B - 韵律预测模型的训练方法及装置、语音合成方法及装置

Info

Publication number: CN116978354B
Application number: CN202310963940.XA
Authority: CN
Inventors: 薛吕欣; 胡翔; 伏冠宇; 金春祥; 杨明晖
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2024-04-30
Anticipated expiration: 2043-08-01
Also published as: CN116978354A

Abstract

本说明书实施例提供了韵律预测模型的训练方法及装置、语音合成方法及装置。该训练方法包括：利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果；利用切分值预测网络处理该编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树；利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树；基于第一句法二叉树和第二句法二叉树，确定结构损失；以最小化总预测损失为目标，调整该编码器的参数；其中,总预测损失基于结构损失确定、且与结构损失正相关。

Description

韵律预测模型的训练方法及装置、语音合成方法及装置

技术领域

本说明书实施例涉及计算机技术领域，具体地，涉及韵律预测模型的训练方法及装置、语音合成方法及装置。

背景技术

随着元宇宙概念成为热点，各大企业开始推进元宇宙相关的技术，其中虚拟数字人作为元宇宙概念中的重要组成部分，需要能像真人一样具备“能说会动”的能力，其中的“说”即是虚拟数字人的语音合成技术所实现的。真人说话与机器人说话的一大区别就在于真人的发音具有韵律特征，也就是说真人说话是具有停顿变化和节奏的。

迫切需要一种合理、可靠的方案，能有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

发明内容

本说明书实施例提供了韵律预测模型训练方案和语音合成方案，能有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

第一方面，本说明书实施例提供了一种韵律预测模型的训练方法，所述韵律预测模型包括编码器，所述方法包括：利用所述编码器对样本字符序列进行编码处理，得到编码结果；利用切分值预测网络处理所述编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；基于各位置的所述切分值，生成表征所述样本字符序列的句法的第一句法二叉树；利用预训练的结构化语言模型，针对所述样本字符序列生成第二句法二叉树；基于所述第一句法二叉树和所述第二句法二叉树，确定结构损失；以最小化总预测损失为目标，调整所述编码器的参数；其中,所述总预测损失基于所述结构损失确定、且与所述结构损失正相关。

在一些实施例中，所述韵律预测模型还包括韵律预测网络，所述样本字符序列标注有训练标签，所述训练标签指示出所述相邻字符之间的位置在多个韵律标签中对应的韵律标签；以及所述方法还包括：利用所述韵律预测网络对所述相邻字符的编码进行预测处理，得到指示出所述相邻字符之间的位置对应的韵律标签的韵律预测结果；基于所述韵律预测结果和所述训练标签，确定韵律预测损失；基于所述韵律预测损失和所述结构损失，确定所述总预测损失，其与所述韵律预测损失正相关。

在一些实施例中，所述方法还包括：以最小化所述韵律预测损失为目标，调整所述韵律预测网络的参数。

在一些实施例中，单个韵律标签用于表示以下中的任一项：非韵律边界、韵律词边界、韵律短语边界、语调短语边界。

在一些实施例中，所述编码器包括预训练的编码器。

在一些实施例中，所述样本字符序列中的字符包括汉字。

在一些实施例中，所述基于各位置的所述切分值，生成表征所述样本字符序列的句法的第一句法二叉树，包括：对各位置的所述切分值进行排序，基于排序结果生成切分位置序列；其中，所述切分位置序列中依次排列的各切分位置所对应的切分值按由大到小的顺序排列，所述切分位置序列用于表征所述第一句法二叉树。

在一些实施例中，所述利用预训练的结构化语言模型，针对所述样本字符序列生成第二句法二叉树，包括：利用所述结构化语言模型，计算所述样本字符序列中多个字符组合的表征及其组合概率；基于所述组合概率采样各个切分步骤的切分位置，基于采样的各切分位置，生成所述第二句法二叉树。

在一些实施例中，所述第一句法二叉树和所述第二句法二叉树各自表征对所述样本字符序列进行语义切分过程的多个时间步各自的切分位置；以及所述基于所述第一句法二叉树和所述第二句法二叉树，确定结构损失，包括：对于所述多个时间步中的每个目标时间步，从所述第二句法二叉树中获取所述目标时间步的目标切分位置和多个不切分位置；获取所述第一句法二叉树中与所述目标切分位置相同的切分位置的第一切分值和与所述多个不切分位置相同的切分位置的第二切分值；计算切分值排序损失，其与所述第一切分值负相关、与所述第二切分值正相关；基于计算出的各个切分值排序损失，确定所述结构损失。

在一些实施例中，所述第二句法二叉树为一个样本句法二叉树；以及所述基于计算出的各个切分值排序损失，确定所述结构损失，包括：将所述目标时间步的所述多个不切分位置分别关联的切分值排序损失的总和，作为所述目标时间步对应的第一计算结果；基于所述多个时间步分别对应的第一计算结果的总和，确定所述结构损失。

在一些实施例中，所述第二句法二叉树为多个样本句法二叉树；以及所述基于计算出的各个切分值排序损失，确定所述结构损失，包括：对于所述多个样本句法二叉树中的每个样本句法二叉树，将所述目标时间步在该样本句法二叉树中的所述多个不切分位置分别关联的切分值排序损失的总和，作为所述目标时间步对应的第二计算结果；将所述多个时间步分别对应的第二计算结果的总和，作为该样本句法二叉树对应的第三计算结果；基于所述多个样本句法二叉树分别对应的第三计算结果的总和与所述多个样本句法二叉树的数目的比值，确定所述结构损失。

第二方面，本说明书实施例提供了一种语音合成方法，包括：获取韵律预测模型，其中包括编码器和韵律预测网络，所述编码器采用权利要求1所述的方法更新得到；将目标字符序列输入所述韵律预测模型，得到所述韵律预测模型输出的韵律预测结果，所述韵律预测结果指示出所述目标字符序列中相邻字符之间的位置在多个韵律标签中对应的韵律标签；在所述相邻字符之间的位置插入预测的韵律标签；基于插入韵律标签后的所述目标字符序列，生成目标语音。

第三方面，本说明书实施例提供了一种韵律预测模型的训练装置，所述韵律预测模型包括编码器，所述装置包括：编码单元，被配置成利用所述编码器对样本字符序列进行编码处理，得到编码结果；切分值预测单元，被配置成利用切分值预测网络处理所述编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；第一生成单元，被配置成基于各位置的所述切分值，生成表征所述样本字符序列的句法的第一句法二叉树；第二生成单元，被配置成利用预训练的结构化语言模型，针对所述样本字符序列生成第二句法二叉树；损失确定单元，被配置成基于所述第一句法二叉树和所述第二句法二叉树，确定结构损失；参数调整单元，被配置成以最小化总预测损失为目标，调整所述编码器的参数；其中,所述总预测损失基于所述结构损失确定、且与所述结构损失正相关。

第四方面，本说明书实施例提供了一种语音合成装置，包括：获取单元，被配置成获取韵律预测模型，其中包括编码器和韵律预测网络，所述编码器采用权利要求1所述的方法更新得到；韵律预测单元，被配置成将目标字符序列输入所述韵律预测模型，得到所述韵律预测模型输出的韵律预测结果，所述韵律预测结果指示出所述目标字符序列中相邻字符之间的位置在多个韵律标签中对应的韵律标签；标签插入单元，被配置成在所述相邻字符之间的位置插入预测的韵律标签；语音生成单元，被配置成基于插入韵律标签后的所述目标字符序列，生成目标语音。

第五方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面和第二方面中任一实现方式描述的方法。

第六方面，本说明书实施例提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现如第一方面和第二方面中任一实现方式描述的方法。

第七方面，本说明书实施例提供了一种计算机程序产品，其中，当该计算机程序产品在计算机中执行时，令该计算机执行如第一方面和第二方面中任一实现方式描述的方法。

本说明书的上述实施例提供的方案，可以利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果，而后利用切分值预测网络处理该编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值，并基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树。另外，还可以利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树。之后，可以基于第一句法二叉树和第二句法二叉树，确定结构损失，并以最小化总预测损失为目标，调整该编码器的参数。其中,该总预测损失基于结构损失确定、且与结构损失正相关。由此，可以将预训练的结构化语言模型中包含的句法结构知识注入该编码器中，提升该编码器在韵律预测任务上的表现，从而使得韵律预测模型具有较高的预测准确率。通过将训练完成的该韵律预测模型应用于语音合成场景，能有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书实施例可以应用于其中的一个应用场景的示意图；

图2是本说明书实施例中韵律预测模型的训练方法的一个流程图；

图3是R2D2模型计算出的金字塔表格的一个示意图；

图4是金子塔表格计算过程的一个示意图；

图5是本说明书实施例可以应用于其中的一个应用场景的示意图；

图6是本说明书实施例中韵律预测模型的训练方法的一个流程图；

图7是本说明书实施例中语音合成方法的一个流程图；

图8是本说明书实施例中韵律预测模型的训练装置的一个结构示意图；

图9是本说明书实施例中语音合成装置的一个结构示意图。

具体实施方式

下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本说明书中的实施例及实施例中的特征可以相互组合。

如前所述，真人说话与机器人说话的一大区别就在于真人的发音具有韵律特征，也就是说真人说话是具有停顿变化和节奏的。应该理解，本说明书中提及的韵律可以指说话习惯中的节奏停顿。在现有的一种韵律分层理论中，韵律结构从低到高的分层依次是音步(foot)、音节(syllable)、韵律词(Prosodic Word)、韵律短语(Prosodic Phrase)和语调短语(Intonational Phrase)。对于中文来说，可以主要关注韵律词、韵律短语和语调短语。

以中文为例，为了模仿真人发音的停顿节奏，发明人考虑到需要预测文本中的韵律词、韵律短语和语调短语。如果把#1、#2、#3称作韵律标签，分别表示韵律词边界、韵律短语边界和语调短语边界，则韵律预测的任务可以为在字符序列中预测韵律标签的位置和类型。例如这样一句话“对我们而言小王的行为是无法接受的”，一个合理地插入韵律标签后的结果可以是“对我们#1而言#3小王的#1行为#2是#1无法#1接受的#3”。我们可以观察到，更高级别的韵律标签(例如#3)往往对应于一个更高层的语义切分点。

事实上，在上文提到的韵律分层理论中，句子的韵律结构一定程度上脱胎于句法结构，也就是说句子的韵律结构和句法结构是非常相近的。考虑到这一点，发明人进一步想到可以让韵律预测模型中的编码器学习到句法结构信息，从而提升韵律预测模型对韵律标签预测的准确率。

基于发明人的以上考虑，本说明书实施例提供了韵律预测模型训练方案和语音合成方案，能有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

图1是本说明书实施例可以应用于其中的一个应用场景的示意图。在图1所示的应用场景中，可以包括韵律预测模型101、切分值预测网络102和预训练的结构化语言模型103，其中，韵律预测模型101包括编码器104。编码器104可以包括预训练的编码器，例如包括但不限于预训练的BERT编码器。

韵律预测模型101的输入可以包括字符序列，韵律预测模型101中的编码器104可以用于对字符序列进行编码处理，韵律预测模型101可以用于基于该字符序列中相邻字符的编码预测该相邻字符之间的位置应插入的韵律标签。其中，字符序列中的字符可以包括但不限于汉字。该韵律标签包含在预设的多个韵律标签中。单个韵律标签例如可以表示以下中的任一种：非韵律边界、韵律词边界、韵律短语边界、语调短语边界。作为示例，用于表示非韵律边界的韵律标签的标签名称例如可以为“#0”，用于表示韵律词边界的韵律标签的标签名称例如可以为“#1”，用于表示韵律短语边界的韵律标签的标签名称例如可以为“#2”，用于表示语调短语边界的韵律标签的标签名称例如可以为“#3”。需要说明，当单个韵律标签表示以下中的任一种时：非韵律边界、韵律词边界、韵律短语边界、语调短语边界，相邻字符之间的位置应插入的韵律标签，可以用于说明该相邻字符中在前的字符是非韵律边界，还是是韵律词、韵律短语或语调短语的边界。

切分值预测网络102可以用于针对字符序列中相邻字符之间的位置，预测在该位置处进行语义切分的切分值。该切分值也可称为切分概率。需要说明，切分值预测网络102可以包括但不限于前馈神经网络。在一个例子中，切分值预测网络102可以包括2层的前馈神经网络。

结构化语言模型103可以用于计算字符序列的句法二叉树分布。其中，该句法二叉树分布可以包括该字符序列中多个字符组合的表征及其组合概率。在一个例子中，结构化语言模型103可以包括但不限于预训练的R2D2模型。需要说明，为了让编码器104学到先验的句法结构知识，R2D2模型例如可以采用在大规模语料WikiText-103上训练得到的预训练模型。

韵律预测模型101的训练过程的执行主体，可以为任何具有数据存储、计算、处理能力的设备、平台或设备集群。该执行主体中可以包括样本字符序列S(例如图1中示出的{s₁,s₂,s₃,s₄,s₅})、韵律预测模型101、切分值预测网络102和结构化语言模型103。在该训练过程中，该执行主体可以如图1中所示，利用编码器104对样本字符序列S进行编码处理，得到编码结果。编码结果可以包括样本字符序列S中每个字符的编码。

接着，可以利用切分值预测网络102处理编码结果，从而针对样本字符序列S中各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值。需要说明，图1中示出的位于相邻字符之间的柱状图代表该相邻字符之间的位置的切分值，柱状图越高表示切分值越大。之后，可以基于各位置的切分值，生成表征样本字符序列S的句法的句法二叉树z_p。其中，句法二叉树z_p中任意的叶节点可以表示样本字符序列S中的某个字符，任意的非叶节点可以表示切分位置。

实践中，一个长度为n的文本对应的句法二叉树的构造过程可以看作是对文本进行n-1次切分操作，或称n-1个时间步的切分操作。文本中一个位置的切分值的大小决定了该位置的切分顺序，切分值越大越先进行切分。

以图1中示出的{s₁,s₂,s₃,s₄,s₅}为例，处于s₁和s₂之间的柱状图代表s₁和s₂之间的位置的切分值v₁，处于s₂和s₃之间的柱状图代表s₂和s₃之间的位置的切分值v₂，处于s₃和s₄之间的柱状图代表s₃和s₄之间的位置的切分值v₃，处于s₄和s₅之间的柱状图代表s₄和s₅之间的位置的切分值v₄，其中，v₁>v₃>v₂>v₄。在这样的情况下，可以将v₁对应的位置作为第1个时间步的切分位置a₁，将v₃对应的位置作为第2个时间步的切分位置a₂，将v₂对应的位置作为第3个时间步的切分位置a₃，以及将v₄对应的位置作为第4个时间步的切分位置a₄。由这4个切分位置形成的切分位置序列A＝{a₁,a₂,a₃,a₄}，可以用于表征句法二叉树z_p。

另外，可以将样本字符序列S作为结构化语言模型103的输入，从而利用结构化语言模型103针对样本字符序列S生成样本句法二叉树z_q。之后，可以基于句法二叉树z_p和样本句法二叉树z_q，确定结构损失。接着，可以基于该结构损失确定总预测损失，并以最小化总预测损失为目标，调整编码器104的参数。其中,该总预测损失与该结构损失正相关。

需要说明，上述执行主体可以存储有包含样本字符序列S的样本字符序列集合，上述执行主体可以利用该样本字符序列集合中的至少部分样本字符序列对韵律预测模型101进行训练，直至模型收敛。

采用以上描述的训练过程，可以将预训练的结构化语言模型103中包含的句法结构知识注入编码器104中，提升编码器104在韵律预测任务上的表现，从而使得韵律预测模型101具有较高的预测准确率。通过将训练完成的韵律预测模型101应用于语音合成场景，能有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

下面，结合具体的实施例，描述上述方法的具体实施步骤。

参看图2，其是本说明书实施例中韵律预测模型的训练方法的一个流程图。该方法的执行主体可以为任何具有数据存储、计算、处理能力的设备、平台或设备集群。该方法包括以下步骤：步骤S201，利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果；步骤S203，利用切分值预测网络处理编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；步骤S205，基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树；步骤S207，利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树；步骤S209，基于第一句法二叉树和第二句法二叉树，确定结构损失；步骤S211，以最小化总预测损失为目标，调整编码器的参数；其中,总预测损失基于结构损失确定、且与结构损失正相关。

下面，对以上各步骤做进一步说明。

在步骤S201中，可以利用韵律预测模型包括的编码器对样本字符序列S＝{s₁,s₂,…,s_n}进行编码处理，得到编码结果E＝{e₁,e₂,…,e_n}。其中，e_i为字符s_i的编码，n为样本字符序列S的长度，此处的i为处于[1,n]内的自然数。需要说明，样本字符序列S中的字符可以包括但不限于汉字。编码器可以包括预训练的编码器，例如可以包括但不限于预训练的BERT编码器。

接着，在步骤S203中，可以利用切分值预测网络处理相邻字符s_i和s_i+1的编码e_i和e_i+1，例如处理e_i和e_i+1的拼接结果，从而预测得到在s_i和s_i+1之间的位置i处进行语义切分的切分值v_i。其中，此处的i为处于[1,n-1]内的自然数。切分值预测网络可以包括但不限于前馈神经网络，例如包括2层的前馈神经网络。

接着，在步骤S205中，可以基于样本字符序列S中各相邻字符之间的各位置的切分值，生成表征样本字符序列S的句法的句法二叉树z_p。其中，句法二叉树z_p中任意的叶节点可以表示样本字符序列S中的某个字符，任意的非叶节点可以表示切分位置。

具体地，可以对各位置的切分值进行排序，基于排序结果生成切分位置序列其中，a_i可以表示第i个时间步的切分位置。切分位置序列A中依次排列的各切分位置所对应的切分值按由大到小的顺序排列。切分位置序列A可以用于表征句法二叉树z_p。

例如，在图1示例的句法二叉树z_p中，切分值排序结果为v₁>v₃>v₂>v₄，对应的切分位置序列A的取值具体为：A＝{1,3,2,4}，表示在第1个时间步，在位置1(字符s₁后)切分，在第2个时间步，在位置3(字符s₃后)进行切分，后续依次在位置2和位置4进行切分。

除了根据切分值构造句法二叉树z_p之外，还根据对样本字符序列的句法分析生成另一句法二叉树作为“标签”。具体的，在步骤S207中，可以将样本字符序列S输入预训练的结构化语言模型，从而利用结构化语言模型针对样本字符序列S生成样本句法二叉树z_q。其中，样本句法二叉树z_q中任意的叶节点可以表示样本字符序列S中的某个字符，任意的非叶节点可以表示切分位置。

需要说明，结构化语言模型可以包括但不限于预训练的R2D2模型。结构化语言模型可以计算样本字符序列S的句法二叉树分布，该句法二叉树分布可以包括多个字符组合的表征及其组合概率。可以基于该组合概率采样各个切分步骤的切分位置，基于采样的各切分位置，生成样本句法二叉树z_q。

以结构化语言模型为预训练的R2D2模型为例，R2D2模型计算出的句法二叉树分布可以为如图3所示的金字塔表格。其中，图3是R2D2模型计算出的金字塔表格的一个示意图。金字塔表格中的每个格子可以包括其下标对应的字符组合的表征及其组合概率。以图3中示出的格子为例，其可以包括字符组合s_1:3＝{s₁,s₂,s₃}的表征及其组合概率。

实践中，对于金字塔表格中处于底层的格子，其包括的字符组合的表征可以通过对该格子的下标对应的字符的表征进行初始化而得到，该字符组合的组合概率例如可以初始化为1。以格子为例，其包括的字符组合s_1:1的表征可以通过对字符s₁的表征进行初始化而得到，s_1:1的组合概率例如可以初始化为1。对于金字塔表格中不处于底层的格子，例如格子/>其包括的字符组合的数据可以如图3中的虚线框所示，基于该字符组合所包含的所有二元组合的数据计算得到。例如，该字符组合的表征可以通过计算该所有二元组合的组合概率与表征的加权求和得到。该字符组合的组合概率例如可以是该所有二元组合的组合概率的平均值。

下面，以样本字符序列S＝{s₁,s₂,s₃,s₄,s₅,s₆}为例，结合图4介绍R2D2模型计算金字塔表格的流程。其中，图4是金子塔表格计算过程的一个示意图。如图4中的子图(a)所示，可以先基于{s₁,s₂,s₃,s₄,s₅,s₆}中各字符的表征进行初始化操作，从而得到金子塔表格底层的格子的值。在每个时间步，可以自底向上地计算金子塔表格中上一层的格子的值，其中，在图4中完成计算的格子用浅灰色表示。如子图(b)所示，可以计算所有高度小于m(例如3等)的格子。当计算完所有高度小于m的格子后，可以合并组合概率较高的字符，如子图(c)中s₄和s₅组合概率较高，则可以删去将s₄和s₅分开的格子(用深灰色表示)，其余格子重新组合，得到子图(d)中新的金字塔表格，s_4:5作为叶节点，对剩余格子重复上述过程，直至完成所有格子的计算。其中，子图(e)、(f)示出了对剩余格子的计算过程。

在图4中，整个计算过程可分为T¹到T⁵共5个时间步，每一个时间步都会基于已有的组合计算出更大的组合的表征及其组合概率，采样句法二叉树的过程可以是倒过来从T⁵到T¹，从句法二叉树的根节点开始，根据每个时间步的概率分布采样出当前文本组合的切分位置，即等价于采样出当前节点的子节点。在图4的例子中，以第一步采样为例，基于时间步T⁵中的金字塔表格，可以得到所有可能的切分位置的概率分布，分别是在s₁、s₂之间切分和在s₃、s₄之间切分。需要说明，在该金字塔表格中，s_1:3的组合概率可以等价于s₃、s₄之间切分的概率，s_2:6的组合概率可以等价于s₁、s₂之间切分的概率。我们可以从该概率分布中采样出一个切分位置，从T⁵到T¹重复上述过程，我们即基于R2D2模型采样出了一个完整的样本句法二叉树。需要指出，基于R2D2模型，可以采样出一个或多个样本句法二叉树。

接着，在步骤S209，可以基于句法二叉树z_p和样本句法二叉树z_q，确定结构损失。

具体地，句法二叉树z_p和样本句法二叉树z_q可以各自表征对样本字符序列S进行语义切分过程的n-1个时间步各自的切分位置。对于n-1个时间步中的每个目标时间步，可以从样本句法二叉树z_q中获取目标时间步的目标切分位置和多个不切分位置，以及获取句法二叉树z_p中与目标切分位置相同的切分位置的切分值(可称为第一切分值)、及与该多个不切分位置相同的切分位置的切分值(可称为第二切分值)。之后，可以计算切分值排序损失，其与第一切分值负相关、与第二切分值正相关。然后，可以基于计算出的各个切分值排序损失，确定结构损失。

进一步地，当样本句法二叉树z_q为一个样本句法二叉树时，可以将目标时间步的各不切分位置分别关联的切分值排序损失的总和，作为目标时间步对应的计算结果CR1。之后，可以基于n-1个时间步分别对应的计算结果CR1的总和，确定结构损失。

具体地，可以采用如下所示的公式(1)，计算结构损失的期望，并将该期望作为所要确定的结构损失：

其中，E可以表示期望，可以表示结构损失，z～q_φ(z|S)可以表示结构化语言模型计算出的句法二叉树分布。R可以表示位置区间，R_t可以表示第t个时间步对应的位置区间，该位置区间例如可以为[1,n-1]。a_t可以表示第t个时间步在样本句法二叉树z_q中的切分位置。/>可以表示第t个时间步在样本句法二叉树z_q中的不切分位置。/>可以表示排序损失，排序损失可以通过如下所示的公式(2)计算得到：

其中，m可以表示排序损失函数中的参数。pθ()可以表示基于切分值预测网络的切分值分布函数。pθ(a|R)可以表示句法二叉树z_p中与切分位置a相同的切分位置的切分值。可以表示句法二叉树z_p中与不切分位置/>相同的切分位置的切分值。

当样本句法二叉树z_q为多个样本句法二叉树时，对于该多个样本句法二叉树中的每个样本句法二叉树，可以将目标时间步在该样本句法二叉树中的各不切分位置分别关联的切分值排序损失的总和，作为目标时间步对应的计算结果CR2，进而可以将n-1个时间步分别对应的计算结果CR2的总和，作为该样本句法二叉树对应的计算结果CR3。之后，可以基于该多个样本句法二叉树分别对应的计算结果CR3的总和与该多个样本句法二叉树的数目的比值，确定结构损失。

具体地，可以采用如下所示的公式(3)，计算结构损失的期望，并将该期望作为所要确定的结构损失：

其中，可以表示结构损失。K可以表示上述多个样本句法二叉树的数目。/>可以表示第t个时间步在第k个样本句法二叉树z_q中的切分位置。/>可以表示第t个时间步在第k个样本句法二叉树中的不切分位置。/>可以表示第t个时间步在第k个样本句法二叉树中对应的位置区间。

在通过执行步骤S209确定结构损失后，可以基于该结构损失确定总预测损失，其与该结构损失正相关。在一个例子中，可以直接将该结构损失作为总预测损失。

接着，在步骤S211，可以以最小化总预测损失为目标，调整韵律预测模型包括的编码器的参数。

图2对应的实施例提供的方案，可以利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果，而后利用切分值预测网络处理该编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值，并基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树。另外，还可以利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树。之后，可以基于第一句法二叉树和第二句法二叉树，确定结构损失，并以最小化总预测损失为目标，调整该编码器的参数。其中,该总预测损失基于结构损失确定、且与结构损失正相关。由此，可以将预训练的结构化语言模型中包含的句法结构知识注入该编码器中，提升该编码器在韵律预测任务上的表现，从而使得韵律预测模型具有较高的预测准确率。通过将训练完成的该韵律预测模型应用于语音合成场景，能有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

在一个实施例中，前文中描述的韵律预测模型101在包括编码器104的同时，还可以如图5中所示，包括韵律预测网络105。其中，图5是本说明书实施例可以应用于其中的一个应用场景的示意图。韵律预测网络105可以用于预测字符序列中相邻字符之间的位置应插入的韵律标签。需要说明，韵律预测网络105可以包括但不限于前馈神经网络。在一个例子中，韵律预测网络105可以包括2层的前馈神经网络。

在韵律预测模型101的训练过程中，可以利用韵律预测网络105对样本字符序列S中相邻字符的编码进行预测处理，得到指示出相邻字符之间的位置对应的韵律标签的韵律预测结果。之后，可以基于该韵律预测结果和样本字符序列S的训练标签，确定韵律预测损失。其中，该训练标签指示出样本字符序列S中相邻字符之间的位置在多个韵律标签中对应的韵律标签。另外，可以基于该韵律预测损失和图1对应的应用场景中描述的结构损失，确定总预测损失，并以最小化总预测损失为目标，调整编码器104的参数。其中,该总预测损失与该韵律预测损失和该结构损失正相关。

具体地，在图5对应的应用场景下，韵律预测模型的训练方法可以如图6中所示，包括以下步骤：步骤S601，利用韵律预测模型包括的编码器对样本字符序列进行编码处理，得到编码结果；步骤S603，利用切分值预测网络处理编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；步骤S605，基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树；步骤S607，利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树；步骤S609，基于第一句法二叉树和第二句法二叉树，确定结构损失；步骤S611，利用韵律预测网络对相邻字符的编码进行预测处理，得到指示出相邻字符之间的位置对应的韵律标签的韵律预测结果；步骤S613，基于韵律预测结果和样本字符序列的训练标签，确定韵律预测损失；步骤S615，基于韵律预测损失和结构损失，确定总预测损失，其与韵律预测损失和结构损失正相关；步骤S617，以最小化总预测损失为目标，调整编码器的参数。

其中，图6是本说明书实施例中韵律预测模型的训练方法的一个流程图。关于步骤S601-S609的解释，可参考图2对应实施例中步骤S201-S209的相关说明，在此不再赘述。

在步骤S611中，可以利用韵律预测网络对样本字符序列S中相邻字符s_i和s_i+1的编码e和e_i+1进行预测处理，例如对e_i和e_i+1的拼接结果进行预测处理，从而得到指示出s_i和s_i+1之间的位置i对应的韵律标签的韵律预测结果。

需要说明，样本字符序列S标注有训练标签，该训练标签指示出样本字符序列S中相邻字符s_i和s_i+1之间的位置i在多个韵律标签中对应的韵律标签。在一个例子中，该训练标签可以包括位置i对应的关联于该多个韵律标签的多个二进制字符，其中关联于位置i对应的韵律标签的二进制字符为1，其他二进制字符均为0。应该理解，二进制字符1所关联的韵律标签为位置i处应插入的韵律标签。另外，韵律预测结果可以包括位置i对应的关联于该多个韵律标签的多个概率值。该多个概率值中的每个概率值可以反映，位置i处应插入该概率值关联的韵律标签的可能性。

接着，在步骤S613中，可以基于韵律预测结果和样本字符序列S的训练标签，确定韵律预测损失。在一个例子中，可以利用交叉熵损失函数，基于韵律预测结果和训练标签计算韵律预测损失。

接着，在步骤S615中，可以基于韵律预测损失和结构损失，确定总预测损失，其与韵律预测损失和结构损失正相关。在一个例子中，可以将韵律预测损失和结构损失的总和确定为总预测损失。

接着，在步骤S617中，可以以最小化总预测损失为目标，调整编码器的参数。

在一种实施方式中，还可以调整韵律预测网络的参数，例如以最小化韵律预测损失为目标，调整韵律预测网络的参数。

图6对应的实施例提供的方案，通过利用韵律预测网络对样本字符序列中相邻字符的编码进行预测处理，得到指示出该相邻字符之间的位置对应的韵律标签的韵律预测结果，能针对字符粒度(如字粒度)进行预测，避免了分词工具带来的限制。另外，通过基于韵律预测损失和结构损失确定总预测损失，并以最小化总预测损失为目标调整编码器的参数，能进一步提升编码器在韵律预测任务上的表现，从而使得韵律预测模型具有更高的预测准确率。通过将训练完成的该韵律预测模型应用于语音合成场景，能进一步有助于在语音合成中加入韵律，使得合成的语音更加自然拟真。

可以理解，图6对应的实施例提供的方案涉及多任务框架，该多任务框架涉及韵律预测任务和句法结构学习任务。在该韵律预测任务中可以执行步骤S601、S611-S613，在该句法结构学习任务中可以执行步骤S603-S609。该方案提出并设计句法结构学习任务作为辅助任务，可以对生成的第一句法二叉树进行优化，实现将预训练的结构化语言模型中包含的句法结构知识注入到韵律预测模型包括的编码器中，从而实现更精准的韵律预测表现。

在一个实施例中，在对韵律预测模型进行训练的过程中，还可以对切分值预测网络进行训练，例如以最小化结构损失为目标，调整切分值预测网络的参数。

在韵律预测模型训练完成后，可以将韵律预测模型应用于语音合成场景，以便在语音合成中加入韵律，使得合成的语音更加自然拟真。

参看图7，其是本说明书实施例中语音合成方法的一个流程图。该方法的执行主体可以为任何具有数据存储、计算、处理能力的设备、平台或设备集群。该方法包括以下步骤：步骤S701，获取韵律预测模型，其中包括编码器和韵律预测网络，编码器采用图2对应的实施例描述的方法更新得到；步骤S703，将目标字符序列输入韵律预测模型，得到韵律预测模型输出的韵律预测结果，韵律预测结果指示出目标字符序列中相邻字符之间的位置在多个韵律标签中对应的韵律标签；步骤S705，在目标字符序列中相邻字符之间的位置插入预测的韵律标签；步骤S707，基于插入韵律标签后的目标字符序列，生成目标语音。

具体地，在步骤S703中，可以利用韵律预测模型中的编码器对目标字符序列进行编码处理，得到编码结果，而后利用韵律预测模型中的韵律预测网络对目标字符序列中相邻字符的编码进行预测处理，得到指示出该相邻字符之间的位置对应的韵律标签的韵律预测结果。

基于韵律预测结果，可以获知目标字符序列中相邻字符之间的位置对应的韵律标签，进而可以通过执行步骤S705，在该位置处插入预测的韵律标签。

接着，在步骤S707中，可以基于插入韵律标签后的目标字符序列，生成目标语音。在一个例子中，可以将插入韵律标签后的目标字符序列输入预训练的语音合成模型，使得该语音合成模型输出目标语音。其中，该语音合成模型例如可以基于训练样本集合中的至少部分训练样本对初始语音合成模型进行训练而获得。该训练样本集合中任意的训练样本，可以包括相邻字符之间的位置插入有韵律标签的样本字符序列、及对应于该样本字符序列的样本语音。该初始语音合成模型可以是经预训练的模型，也可以是未经预训练的模型，在此不做具体限定。

在一种实施方式中，目标语音可以作用为目标数字人的语音。其中，目标数字人可以是播报类或智能客服类等场景中的虚拟数字人。

在图7对应的实施例提供的语音合成方案中，韵律预测模型包括的编码器注入有预训练的结构化语言模型包含的句法结构知识。通过将目标字符序列输入该韵律预测模型，能得到该韵律预测模型输出的具有较高预测准确率的韵律预测结果。之后，通过在目标字符序列中相邻字符之间的位置插入预测的韵律标签，能基于插入韵律标签后的目标字符序列，生成发音具有韵律特征的目标语音。由此，能在语音合成中加入韵律，使得合成的语音更加自然拟真。

进一步参考图8，其是本说明书实施例中韵律预测模型的训练装置的一个结构示意图。该装置可以应用于任何具有数据存储、计算、处理能力的设备、平台或设备集群。

如图8所示，本实施例的韵律预测模型的训练装置800包括：编码单元801、切分值预测单元802、第一生成单元803、第二生成单元804、损失确定单元805和参数调整单元806。其中，编码单元801被配置成利用编码器对样本字符序列进行编码处理，得到编码结果；切分值预测单元802被配置成利用切分值预测网络处理编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；第一生成单元803被配置成基于各位置的切分值，生成表征样本字符序列的句法的第一句法二叉树；第二生成单元804被配置成利用预训练的结构化语言模型，针对样本字符序列生成第二句法二叉树；损失确定单元805被配置成基于第一句法二叉树和第二句法二叉树，确定结构损失；参数调整单元806被配置成以最小化总预测损失为目标，调整编码器的参数；其中,总预测损失基于结构损失确定、且与结构损失正相关。

在一种实施方式中，韵律预测模型还包括韵律预测网络，样本字符序列标注有训练标签，训练标签指示出相邻字符之间的位置在多个韵律标签中对应的韵律标签；以及上述装置800还可以包括：韵律预测单元(图中未示出)，被配置成利用韵律预测网络对相邻字符的编码进行预测处理，得到指示出相邻字符之间的位置对应的韵律标签的韵律预测结果；损失确定单元805还可以被配置成：基于韵律预测结果和训练标签，确定韵律预测损失；基于韵律预测损失和结构损失，确定总预测损失，其与韵律预测损失正相关。

在一种实施方式中，参数调整单元806还可以被配置成：以最小化韵律预测损失为目标，调整韵律预测网络的参数。

在一种实施方式中，单个韵律标签用于表示以下中的任一项：非韵律边界、韵律词边界、韵律短语边界、语调短语边界。

在一种实施方式中，编码器包括预训练的编码器。

在一种实施方式中，样本字符序列中的字符包括但不限于汉字。

在一种实施方式中，第一生成单元803可以进一步被配置成：对各位置的切分值进行排序，基于排序结果生成切分位置序列；其中，切分位置序列中依次排列的各切分位置所对应的切分值按由大到小的顺序排列，切分位置序列用于表征第一句法二叉树。

在一种实施方式中，第二生成单元804可以进一步被配置成：利用结构化语言模型，计算样本字符序列中多个字符组合的表征及其组合概率；基于该组合概率采样各个切分步骤的切分位置，基于采样的各切分位置，生成第二句法二叉树。

在一种实施方式中，第一句法二叉树和第二句法二叉树各自表征对样本字符序列进行语义切分过程的多个时间步各自的切分位置；以及损失确定单元805可以进一步被配置成：对于该多个时间步中的每个目标时间步，从第二句法二叉树中获取目标时间步的目标切分位置和多个不切分位置；获取第一句法二叉树中与目标切分位置相同的切分位置的第一切分值和与该多个不切分位置相同的切分位置的第二切分值；计算切分值排序损失，其与第一切分值负相关、与第二切分值正相关；基于计算出的各个切分值排序损失，确定结构损失。

在一种实施方式中，第二句法二叉树为一个样本句法二叉树；以及损失确定单元805可以进一步被配置成：将目标时间步的上述多个不切分位置分别关联的切分值排序损失的总和，作为目标时间步对应的第一计算结果；基于上述多个时间步分别对应的第一计算结果的总和，确定结构损失。

在一种实施方式中，第二句法二叉树为多个样本句法二叉树；以及损失确定单元805可以进一步被配置成：对于该多个样本句法二叉树中的每个样本句法二叉树，将目标时间步在该样本句法二叉树中的上述多个不切分位置分别关联的切分值排序损失的总和，作为目标时间步对应的第二计算结果；将上述多个时间步分别对应的第二计算结果的总和，作为该样本句法二叉树对应的第三计算结果；基于该多个样本句法二叉树分别对应的第三计算结果的总和与该多个样本句法二叉树的数目的比值，确定结构损失。

进一步参考图9，其是本说明书实施例中语音合成装置的一个结构示意图。该装置可以应用于任何具有数据存储、计算、处理能力的设备、平台或设备集群。

如图9所示，本实施例的语音合成装置900包括：获取单元901、韵律预测单元902、标签插入单元903和语音生成单元904。其中，获取单元901被配置成获取韵律预测模型，其中包括编码器和韵律预测网络，编码器可以采用图2对应的实施例描述的方法更新得到；韵律预测单元902被配置成将目标字符序列输入韵律预测模型，得到韵律预测模型输出的韵律预测结果，韵律预测结果指示出目标字符序列中相邻字符之间的位置在多个韵律标签中对应的韵律标签；标签插入单元903被配置成在该相邻字符之间的位置插入预测的韵律标签；语音生成单元904被配置成基于插入韵律标签后的目标字符序列，生成目标语音。

在图8、图9分别对应的装置实施例中，各单元的具体处理及其带来的技术效果可分别参考前文中相关方法实施例中的相关说明，在此不再赘述。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行前文中的方法实施例描述的韵律预测模型的训练方法或语音合成方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现前文中的方法实施例描述的韵律预测模型的训练方法或语音合成方法。

本说明书实施例还提供了一种计算机程序产品，其中，当该计算机程序产品在计算机中执行时，令计算机执行前文中的方法实施例描述的韵律预测模型的训练方法或语音合成方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种韵律预测模型的训练方法，所述韵律预测模型包括编码器，所述方法包括：

利用所述编码器对样本字符序列进行编码处理，得到编码结果；

利用切分值预测网络处理所述编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；

基于各位置的所述切分值，生成表征所述样本字符序列的句法的第一句法二叉树；

利用预训练的结构化语言模型，针对所述样本字符序列生成第二句法二叉树；

基于所述第一句法二叉树和所述第二句法二叉树，确定结构损失；

以最小化总预测损失为目标，调整所述编码器的参数；其中,所述总预测损失基于所述结构损失确定、且与所述结构损失正相关。

2.根据权利要求1所述的方法，其中，所述韵律预测模型还包括韵律预测网络，所述样本字符序列标注有训练标签，所述训练标签指示出所述相邻字符之间的位置在多个韵律标签中对应的韵律标签；以及

所述方法还包括：

利用所述韵律预测网络对所述相邻字符的编码进行预测处理，得到指示出所述相邻字符之间的位置对应的韵律标签的韵律预测结果；

基于所述韵律预测结果和所述训练标签，确定韵律预测损失；

基于所述韵律预测损失和所述结构损失，确定所述总预测损失，其与所述韵律预测损失正相关。

3.根据权利要求2所述的方法，还包括：

以最小化所述韵律预测损失为目标，调整所述韵律预测网络的参数。

4.根据权利要求2所述的方法，其中，单个韵律标签用于表示以下中的任一项：非韵律边界、韵律词边界、韵律短语边界、语调短语边界。

5.根据权利要求1所述的方法，其中，所述编码器包括预训练的编码器。

6.根据权利要求1所述的方法，其中，所述样本字符序列中的字符包括汉字。

7.根据权利要求1所述的方法，其中，所述基于各位置的所述切分值，生成表征所述样本字符序列的句法的第一句法二叉树，包括：

对各位置的所述切分值进行排序，基于排序结果生成切分位置序列；其中，所述切分位置序列中依次排列的各切分位置所对应的切分值按由大到小的顺序排列，所述切分位置序列用于表征所述第一句法二叉树。

8.根据权利要求1所述的方法，其中，所述利用预训练的结构化语言模型，针对所述样本字符序列生成第二句法二叉树，包括：

利用所述结构化语言模型，计算所述样本字符序列中多个字符组合的表征及其组合概率；

基于所述组合概率采样各个切分步骤的切分位置，基于采样的各切分位置，生成所述第二句法二叉树。

9.根据权利要求1所述的方法，其中，所述第一句法二叉树和所述第二句法二叉树各自表征对所述样本字符序列进行语义切分过程的多个时间步各自的切分位置；以及

所述基于所述第一句法二叉树和所述第二句法二叉树，确定结构损失，包括：

对于所述多个时间步中的每个目标时间步，从所述第二句法二叉树中获取所述目标时间步的目标切分位置和多个不切分位置；

获取所述第一句法二叉树中与所述目标切分位置相同的切分位置的第一切分值和与所述多个不切分位置相同的切分位置的第二切分值；

计算切分值排序损失，其与所述第一切分值负相关、与所述第二切分值正相关；

基于计算出的各个切分值排序损失，确定所述结构损失。

10.根据权利要求9所述的方法，其中，所述第二句法二叉树为一个样本句法二叉树；以及

所述基于计算出的各个切分值排序损失，确定所述结构损失，包括：

将所述目标时间步的所述多个不切分位置分别关联的切分值排序损失的总和，作为所述目标时间步对应的第一计算结果；

基于所述多个时间步分别对应的第一计算结果的总和，确定所述结构损失。

11.根据权利要求9所述的方法，其中，所述第二句法二叉树为多个样本句法二叉树；以及

对于所述多个样本句法二叉树中的每个样本句法二叉树，将所述目标时间步在该样本句法二叉树中的所述多个不切分位置分别关联的切分值排序损失的总和，作为所述目标时间步对应的第二计算结果；将所述多个时间步分别对应的第二计算结果的总和，作为该样本句法二叉树对应的第三计算结果；

基于所述多个样本句法二叉树分别对应的第三计算结果的总和与所述多个样本句法二叉树的数目的比值，确定所述结构损失。

12.一种语音合成方法，包括：

获取韵律预测模型，其中包括编码器和韵律预测网络，所述编码器采用权利要求1所述的方法更新得到；

将目标字符序列输入所述韵律预测模型，得到所述韵律预测模型输出的韵律预测结果，所述韵律预测结果指示出所述目标字符序列中相邻字符之间的位置在多个韵律标签中对应的韵律标签；

在所述相邻字符之间的位置插入预测的韵律标签；

基于插入韵律标签后的所述目标字符序列，生成目标语音。

13.一种韵律预测模型的训练装置，所述韵律预测模型包括编码器，所述装置包括：

编码单元，被配置成利用所述编码器对样本字符序列进行编码处理，得到编码结果；

切分值预测单元，被配置成利用切分值预测网络处理所述编码结果，从而针对各相邻字符之间的各位置，预测得到在该位置处进行语义切分的切分值；

第一生成单元，被配置成基于各位置的所述切分值，生成表征所述样本字符序列的句法的第一句法二叉树；

第二生成单元，被配置成利用预训练的结构化语言模型，针对所述样本字符序列生成第二句法二叉树；

损失确定单元，被配置成基于所述第一句法二叉树和所述第二句法二叉树，确定结构损失；

参数调整单元，被配置成以最小化总预测损失为目标，调整所述编码器的参数；其中,所述总预测损失基于所述结构损失确定、且与所述结构损失正相关。

14.一种语音合成装置，包括：

获取单元，被配置成获取韵律预测模型，其中包括编码器和韵律预测网络，所述编码器采用权利要求1所述的方法更新得到；

韵律预测单元，被配置成将目标字符序列输入所述韵律预测模型，得到所述韵律预测模型输出的韵律预测结果，所述韵律预测结果指示出所述目标字符序列中相邻字符之间的位置在多个韵律标签中对应的韵律标签；

标签插入单元，被配置成在所述相邻字符之间的位置插入预测的韵律标签；

语音生成单元，被配置成基于插入韵律标签后的所述目标字符序列，生成目标语音。

15.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-12中任一项所述的方法。

16.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。