CN112802451B

CN112802451B - 韵律边界预测方法及计算机存储介质

Info

Publication number: CN112802451B
Application number: CN202110337155.4A
Authority: CN
Inventors: 贺刚; 汪光璟; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-09
Anticipated expiration: 2041-03-30
Also published as: CN112802451A

Abstract

本发明实施例提供一种韵律边界预测方法及计算机存储介质。其中，所述方法包括：基于待预测的说话人文本中的字符的特征数据，对字符的韵律词特征进行编码，并基于韵律词特征数据，对字符的韵律词边界标签进行解码；基于字符的特征数据和韵律词边界标签数据，对字符的韵律短语特征进行编码，并基于韵律短语特征数据，对字符的韵律短语边界标签进行解码；基于字符的特征数据、韵律词边界标签数据，以及韵律短语边界标签数据，对字符的语调短语特征进行编码，并基于字符的语调短语特征数据，对字符的语调短语边界标签进行解码，获得字符的语调短语边界标签数据。本实施例提高说话人文本的韵律边界的准确度，进而提升说话人合成语音的韵律表达。

Description

韵律边界预测方法及计算机存储介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种韵律边界预测方法及计算机存储介质。

背景技术

语音合成系统的流水线通常由前端、声学模型和声码器三个部分构成。前端又包括文本分析、注音、多音字消歧和韵律边界预测等子模块。韵律边界预测子模块是语音合成系统的一个重要组成部分，韵律边界的预测结果将对最终合成语音的韵律表达有着直接影响。通常文本的韵律边界由韵律词(Prosodic Word，PW)、韵律短语(Prosodic Phrase，PPH)和语调短语(Intonational Phrase，IPH)的边界构成。韵律边界预测是通过标注了韵律边界的文本样本进行建模，识别出韵律词、韵律短语和语调短语的边界。通常，韵律词的边界预测、韵律短语的边界预测和语调短语的边界预测分别是一个独立的子任务进行建模。韵律词边界预测模型的输出被输入到韵律短语边界预测模型中，而韵律短语边界预测模型的输出被输入到语调短语边界预测模型中预测语调短语的边界。

然而，现有的语音合成系统的合成语音和自然语音在韵律表达上还存在着一定的差距，影响了合成语音的节奏，进而影响了合成语音的自然度和表现力。具体地，声学模型的训练文本中标注了韵律边界，但受限于训练数据集的规模，声学模型难以学习到比较鲁棒的韵律边界信息，导致文本合成语音的韵律表达较差。此外，前端中的韵律边界预测模型通常使用大量带韵律边界标注的文本语料训练，模型预测出来的韵律边界信息与声学模型从训练文本中学习到的韵律边界信息存在使用文本不匹配而导致韵律边界信息不一致的问题。由此可见，如何有效提高说话人文本的韵律边界信息的准确度，进而有效提升语音合成系统中说话人合成语音的韵律表达成为当前亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种韵律边界预测方法及计算机存储介质，用以解决上述技术问题至少之一。

本发明实施例提供一种韵律边界预测方法。所述方法包括：通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据；通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据；通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有可读程序，所述可读程序包括：用于通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据的指令；用于通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据的指令；用于通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据的指令。

根据本发明实施例提供的韵律边界预测方案，通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，能够准确地获得所述字符的韵律词边界标签数据；通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，能够准确地获得所述字符的韵律短语边界标签数据；通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成，并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据，以及语调短语边界标签数据，因此，能够有效提高说话人文本的韵律边界信息的准确度，进而有效提升语音合成系统中说话人合成语音的韵律表达。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的韵律边界预测方法的步骤流程图；

图2示出了根据本发明实施例的韵律结构的示意图；

图3示出了根据本发明实施例的第二编码器的结构示意图；

图4示出了根据本发明实施例的韵律边界预测模型的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例的韵律边界预测方法的步骤流程图。

具体地，本发明实施例提供的韵律边界预测方法包括以下步骤：

在步骤S101中，通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据。

在本实施例中，所述韵律边界预测模型可理解为用于韵律边界预测的神经网络模型。所述韵律边界预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。所述韵律边界由韵律词(PW)、韵律短语(PPH)和语调短语(IPH)的边界构成。所述韵律词是一组在实际语流中联系密切、经常联在一起发音的音节。音节是人们听觉上最容易分辨出来的语音单位，也是语流中最自然的语音单位。韵律短语是介于韵律词和语调短语之间的中等节奏组块。它可能小于句法上的短语。内部各个韵律词之间可能出现韵律上的节奏边界，具有相对稳定的短语模式和短语重音配置模式。韵律短语是指组成韵律短语的几个韵律词听起来是共用一个节奏群。语调短语就是将几个韵律短语按照一定的句调模式连接起来，一般对应句法上的句子。如图2所示，文本“使用程序节省了时间且提高了数据的准确性”中的“使”、“用”、“程”、“序”、“节”、“省”、“了”、“时”、“间”、“且”、“提”、“高”、“了”、“数”、“据”、“的”、“准”、“确”、“性”为音节，文本“使用程序节省了时间且提高了数据的准确性”中的“使用”、“程序”、“节省了”、“时间”、“且”、“提高了”、“数据的”、“准确性”为韵律词，文本“使用程序节省了时间且提高了数据的准确性”中的“使用程序节省了时间”、“且提高了数据的准确性”为韵律短语，文本“使用程序节省了时间且提高了数据的准确性”为语调短语。所述韵律词边界预测子模型可理解为用于韵律词边界预测的神经网络子模型。所述韵律词边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。所述待预测的说话人文本中的字符的特征数据可为所述待预测的说话人文本中的字符的字符特征向量。所述字符的韵律词特征数据可为所述字符的韵律词特征向量。

在本实施例中，所述字符的韵律词边界标签可理解为标记所述字符的韵律词边界的标签。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量，例如，用于表征所述字符的韵律词边界标签的one-hot编码。如果总共有四种韵律词边界标签，并且所述字符对应一种韵律词边界标签，那么one-hot编码的维度为四维，表示所述字符对应的韵律词边界标签的位置置1，表示其它韵律词边界标签的位置置0。

在一些可选实施例中，在通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码时，通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码，以获得所述字符的语义特征数据和韵律词特征数据。其中，所述字符的语义特征数据可为所述字符的语义特征向量。籍此，通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码，能够准确地获得所述字符的语义特征数据和韵律词特征数据。

在一些可选实施例中，在通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码时，通过所述第一编码模块包括的第一编码器，基于所述字符的特征数据，对所述字符的语义特征进行编码，以获得所述字符的语义特征数据；通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据。籍此，通过所述第一编码模块包括的第一编码器，基于所述字符的特征数据，对所述字符的语义特征进行编码，能够准确地获得所述字符的语义特征数据。此外，通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，能够准确地获得所述字符的韵律词特征数据。

在一个具体的例子中，所述第一编码器是由多层BiLSTM（Bidirectional longand short time memory network，双向长短时记忆网络）网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息，分别从两个相反的方向得到正向的输出

和反向的输出

，并把它们拼在一起

作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第二编码器可为变分自动编码器（Variational Autoencoder，VAE）。

在一些可选实施例中，在通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码时，通过所述第二编码器包括的韵律词特征编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据；通过所述第二编码器包括的第一线性层，基于所述字符的韵律词特征数据，计算所述字符的韵律词特征数据的正态分布的均值；通过所述第二编码器包括的第二线性层，基于所述字符的韵律词特征数据，计算所述字符的韵律词特征数据的正态分布的方差；基于所述字符的韵律词特征数据的正态分布的均值和方差，对所述字符的韵律词特征数据进行采样，以获得所述字符的韵律词特征表征数据。籍此，通过所述字符的韵律词特征数据的正态分布的均值和方差，对所述字符的韵律词特征数据进行采样，能够准确地获得所述字符的韵律词特征表征数据。

在一个具体的例子中，所述第二编码器可为变分自动编码器。所述变分自动编码器可由所述韵律词特征编码器、所述第一线性层和所述第二线性层构成。所述韵律词特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第一线性层和所述第二线性层可均为全连接层。如图3所示，所述韵律词特征编码器的输出端分别与所述第一线性层和所述第二线性层的输入端连接。所述第一线性层和所述第二线性层的输出端分别输出所述字符的韵律词特征数据的正态分布的均值和方差。所述第二编码器基于所述字符的韵律词特征数据的正态分布的均值和方差，对所述字符的韵律词特征数据进行采样，能够准确地获得所述字符的韵律词特征表征数据。其中，所述字符的韵律词特征表征数据可为所述字符的韵律词特征表征向量。

在一个具体的例子中，所述变分自动编码器希望构建一个从隐变量Z生成目标数据X的模型，所述变分自动编码器假设Z服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型

，该模型能够将原来的概率分布映射到训练集的概率分布，也就是说，其目的是进行分布之间的变换。

首先，有一批数据样本

，其整体用X来描述，根据

得到X的分布

，如果能得到的话，那直接根据

采样，就可以得到所有可能的X，这是一个终极理想的生成模型。当然，这很难实现，将其分布改为：

此时，

描述了一个由Z来生成X的模型，假设Z服从标准正态分布，也就是

。如果这个理想能实现，就可以从标准正态分布中采样一个Z，然后根据Z来生成X，这是一个基于贝叶斯思想的生成模型。

具体来说，给定一个真实样本

，根据后验分布服从标准正态分布的假设，希望能从分布

中采样得到的

还原

。为了拟合出

的正态分布

的均值

和方差

，需要构建两个神经网络

，

来拟合它们。为了让

达到标准正态分布

使得二者尽量差异接近于0，可以计算KL散度

作为额外的损失优化。本质上，所述变分自动编码器学习是希望KL散度值

达到最小。

这里d是隐变量Z的维度，而

和

分别代表一般正态分布的均值向量和方差向量的第i个分量。

其中，X表示的是韵律词特征数据，Z表示的是韵律词特征表征数据。在韵律边界预测阶段，基于所述字符的韵律词特征数据X的正态分布的均值

和方差

，对所述字符的韵律词特征数据X进行采样，获得所述字符的韵律词特征表征数据Z。

在一些可选实施例中，在基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码时，通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据。籍此，通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，能够准确地获得所述字符的韵律词边界标签数据。

在一些可选实施例中，在通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码时，通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据；通过所述第一解码模块包括的第三线性层，对所述字符的韵律词边界标签的特征数据进行映射处理，以获得所述字符的韵律词边界标签的概率分布数据；通过所述第一解码模块包括的第一计算层，根据所述字符的韵律词边界标签的概率分布数据，确定所述字符的韵律词边界标签数据。其中，所述字符的韵律词边界标签的特征数据可为所述字符的韵律词边界标签的特征向量。籍此，通过所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，能够准确地获得所述字符的韵律词边界标签数据。

在一个具体的例子中，所述第一解码器可由一层单向GRU（Gated RecurrentUnit，循环门单元）网络构成。GRU的隐藏单元数目为256。所述第三线性层可为全连接层。所述第一计算层可为argmax层。所述第一解码器输出的所述字符的韵律词边界标签的特征数据经过一个线性层的映射，得到所述字符的韵律词边界标签的概率分布数据，再经过argmax层处理，得到每一个解码时间步的概率输出，概率最大的韵律词边界标签作为当前解码时间步的韵律词边界标签的分类结果，根据韵律词边界标签的分类结果得到对应的韵律词边界标签数据。

在一些可选实施例中，在通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码之前，所述方法还包括：通过所述韵律词边界预测子模型中的第一注意力层，确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性；通过所述第一注意力层，基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第一解码器当前的输入特征数据，所述通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，包括：通过所述第一解码器，基于所述第一解码器当前的输入特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据。其中，所述第一解码器当前的输入特征数据可为所述第一解码器当前的输入特征向量，所述字符的韵律词边界标签的特征数据可为所述字符的韵律词边界标签的特征向量。籍此，通过所述韵律词边界预测子模型中的第一注意力层，确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性，并基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，能够准确地获得所述第一解码器当前的输入特征数据。此外，通过所述第一解码器，基于所述第一解码器当前的输入特征数据，对所述字符的韵律词边界标签进行解码，能够准确地获得所述字符的韵律词边界标签的特征数据。

在一个具体的例子中，注意力机制可以使得所述第一解码器具备专注于其输入的某个子集的能力，即可以选择特定的输入。所述第一注意力层通过计算所述第一解码器的隐藏状态

与所述说话人文本中的每个字符的语义特征向量和韵律词特征向量的拼接特征向量

之间的相关性，使所述第一解码器在解码输出的某一时刻，将注意力集中在输入序列的某一部分，从而使学习更容易。

假设所述第一解码器的当前隐藏状态为

，可以通过下述公式一计算所述说话人文本中的每个字符的拼接特征向量

与所述第一解码器的当前隐藏状态为

的关联性：

公式一

其中，

是一种相关性的加和计算：

，

和

分别表示第一注意力层的待学习权重参数，

表示第一注意力层的映射参数。关联性经过归一化得到注意力权重分布

，利用

加权求和得到相应的上下文向量（第一解码器当前的输入特征向量）

，借助上下文向量计算第一解码器的下一个隐藏状态

以及第一解码器在该时刻的解码输出

。其中，

表示第一解码器在上一个时刻的解码输出，

表示第一解码器在该时刻的解码输出。

在步骤S102中，通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据。

在本实施例中，所述韵律短语边界预测子模型可理解为用于韵律短语边界预测的神经网络子模型。所述韵律短语边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等。所述字符的特征数据可为所述字符的字符特征向量。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量。所述字符的韵律短语特征数据可为所述字符的韵律短语特征向量。

在本实施例中，所述字符的韵律短语边界标签可理解为标记所述字符的韵律短语边界的标签。所述字符的韵律短语边界标签数据可为所述字符的韵律短语边界标签向量，例如，用于表征所述字符的韵律短语边界标签的one-hot编码。如果总共有四种韵律短语边界标签，并且所述字符对应一种韵律短语边界标签，那么one-hot编码的维度为四维，表示所述字符对应的韵律短语边界标签的位置置1，表示其它韵律短语边界标签的位置置0。

在一些可选实施例中，在通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码时，通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码，以获得所述字符的第一混合特征数据和韵律短语特征数据。其中，所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据，所述第一混合特征数据可为所述第一混合特征向量。籍此，通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码，能够准确地获得所述字符的第一混合特征数据和韵律短语特征数据。

在一些可选实施例中，在通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码时，通过所述第二编码模块包括的第三编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征进行编码，以获得所述字符的第一混合特征数据；通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据。籍此，通过所述第二编码模块包括的第三编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征进行编码，能够准确地获得所述字符的第一混合特征数据。此外，通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，能够准确地获得所述字符的韵律短语特征数据。

在一个具体的例子中，所述第三编码器是由多层BiLSTM（Bidirectional longand short time memory network，双向长短时记忆网络）网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息，分别从两个相反的方向得到正向的输出

和反向的输出

，并把它们拼在一起

作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第四编码器可为变分自动编码器（Variational Autoencoder，VAE）。

在一些可选实施例中，在通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码时，通过所述第四编码器包括的韵律短语特征编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据；通过所述第四编码器包括的第四线性层，基于所述字符的韵律短语特征数据，计算所述字符的韵律短语特征数据的正态分布的均值；通过所述第四编码器包括的第五线性层，基于所述字符的韵律短语特征数据，计算所述字符的韵律短语特征数据的正态分布的方差；基于所述字符的韵律短语特征数据的正态分布的均值和方差，对所述字符的韵律短语特征数据进行采样，以获得所述字符的韵律短语特征表征数据。籍此，通过所述字符的韵律短语特征数据的正态分布的均值和方差，对所述字符的韵律短语特征数据进行采样，能够准确地获得所述字符的韵律短语特征表征数据。

在一个具体的例子中，所述第四编码器可为变分自动编码器。所述变分自动编码器可由所述韵律短语特征编码器、所述第四线性层和所述第五线性层构成。所述韵律短语特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第四线性层和所述第五线性层可均为全连接层。所述韵律短语特征编码器的输出端分别与所述第四线性层和所述第五线性层的输入端连接。所述第四线性层和所述第五线性层的输出端分别输出所述字符的韵律短语特征数据的正态分布的均值和方差。所述第四编码器基于所述字符的韵律短语特征数据的正态分布的均值和方差，对所述字符的韵律短语特征数据进行采样，能够准确地获得所述字符的韵律短语特征表征数据。其中，所述字符的韵律短语特征表征数据可为所述字符的韵律短语特征表征向量。

在一个具体的例子中，所述第四编码器的原理与所述第二编码器的原理类似，在此不再赘述。

在一些可选实施例中，在基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码时，通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据。籍此，通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，能够准确地获得所述字符的韵律短语边界标签数据。

在一些可选实施例中，在通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码时，通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据；通过所述第二解码模块包括的第六线性层，对所述字符的韵律短语边界标签的特征数据进行映射处理，以获得所述字符的韵律短语边界标签的概率分布数据；通过所述第二解码模块包括的第二计算层，根据所述字符的韵律短语边界标签的概率分布数据，确定所述字符的韵律短语边界标签数据。其中，所述字符的韵律短语边界标签的特征数据可为所述字符的韵律短语边界标签的特征向量。籍此，通过所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，能够准确地获得所述字符的韵律短语边界标签数据。

在一个具体的例子中，所述第二解码器可由一层单向GRU（Gated RecurrentUnit，循环门单元）网络构成。GRU的隐藏单元数目为256。所述第六线性层可为全连接层。所述第二计算层可为argmax层。所述第二解码器输出的所述字符的韵律短语边界标签的特征数据经过一个线性层的映射，得到所述字符的韵律短语边界标签的概率分布数据，再经过argmax层处理，得到每一个解码时间步的概率输出，概率最大的韵律短语边界标签作为当前解码时间步的韵律短语边界标签的分类结果，根据韵律短语边界标签的分类结果得到对应的韵律短语边界标签数据。

在一些可选实施例中，在通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码之前，所述方法还包括：通过所述韵律短语边界预测子模型中的第二注意力层，确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性；通过所述第二注意力层，基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第二解码器当前的输入特征数据，所述通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，包括：通过所述第二解码器，基于所述第二解码器当前的输入特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据。籍此，通过所述韵律短语边界预测子模型中的第二注意力层，确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性，并基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，能够准确地获得所述第二解码器当前的输入特征数据。此外，通过所述第二解码器，基于所述第二解码器当前的输入特征数据，对所述字符的韵律短语边界标签进行解码，能够准确地获得所述字符的韵律短语边界标签的特征数据。

在一个具体的例子中，所述第二注意力层的原理与所述第一注意力层的原理类似，在此不再赘述。

在步骤S103中，通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据。

在本实施例中，所述语调短语边界预测子模型可理解为用于语调短语边界预测的神经网络子模型。所述语调短语边界预测子模型可以是任意适当的可实现特征提取或目标对象检测的神经网络子模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等。所述字符的特征数据可为所述字符的字符特征向量。所述字符的韵律词边界标签数据可为所述字符的韵律词边界标签向量。所述字符的韵律短语边界标签数据可为所述字符的韵律短语边界标签向量，所述字符的语调短语特征数据可为所述字符的语调短语特征向量。

在本实施例中，所述字符的语调短语边界标签可理解为标记所述字符的语调短语边界的标签。所述字符的语调短语边界标签数据可为所述字符的语调短语边界标签向量，例如，用于表征所述字符的语调短语边界标签的one-hot编码。如果总共有四种语调短语边界标签，并且所述字符对应一种语调短语边界标签，那么one-hot编码的维度为四维，表示所述字符对应的语调短语边界标签的位置置1，表示其它语调短语边界标签的位置置0。

在一些可选实施例中，在通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码时，通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码，以获得所述字符的第二混合特征数据和语调短语特征数据，其中，所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据，所述第二混合特征数据可为所述第二混合特征向量。籍此，通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码，能够准确地获得所述字符的第二混合特征数据和语调短语特征数据。

在一些可选实施例中，在通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码时，通过所述第三编码模块包括的第五编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征进行编码，以获得所述字符的第二混合特征数据；通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据。籍此，通过所述第三编码模块包括的第五编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征进行编码，能够准确地获得所述字符的第二混合特征数据。此外，通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，能够准确地获得所述字符的语调短语特征数据。

在一个具体的例子中，所述第五编码器是由多层BiLSTM（Bidirectional longand short time memory network，双向长短时记忆网络）网络构成。双向长短时记忆网络能够利用文本的字符序列过去和未来的信息，分别从两个相反的方向得到正向的输出

和反向的输出

，并把它们拼在一起

作为双向长短时记忆网络的输出。双向长短时记忆网络的每个方向的隐藏单元数目为128。所述第六编码器可为变分自动编码器（Variational Autoencoder，VAE）。

在一些可选实施例中，在通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码时，通过所述第六编码器包括的语调短语特征编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据；通过所述第六编码器包括的第七线性层，基于所述字符的语调短语特征数据，计算所述字符的语调短语特征数据的正态分布的均值；通过所述第六编码器包括的第八线性层，基于所述字符的语调短语特征数据，计算所述字符的语调短语特征数据的正态分布的方差；基于所述字符的语调短语特征数据的正态分布的均值和方差，对所述字符的语调短语特征数据进行采样，以获得所述字符的语调短语特征表征数据。籍此，通过所述字符的语调短语特征数据的正态分布的均值和方差，对所述字符的语调短语特征数据进行采样，能够准确地获得所述字符的语调短语特征表征数据。

在一个具体的例子中，所述第六编码器可为变分自动编码器。所述变分自动编码器可由所述语调短语特征编码器、所述第七线性层和所述第八线性层构成。所述语调短语特征编码器可由多层的卷积网络和一层递归神经网络构成。所述第七线性层和所述第八线性层可均为全连接层。所述语调短语特征编码器的输出端分别与所述第七线性层和所述第八线性层的输入端连接。所述第七线性层和所述第八线性层的输出端分别输出所述字符的语调短语特征数据的正态分布的均值和方差。所述第六编码器基于所述字符的语调短语特征数据的正态分布的均值和方差，对所述字符的语调短语特征数据进行采样，能够准确地获得所述字符的语调短语特征表征数据。其中，所述字符的语调短语特征表征数据可为所述字符的语调短语特征表征向量。

在一个具体的例子中，所述第六编码器的原理与所述第二编码器的原理类似，在此不再赘述。

在一些可选实施例中，在基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码时，通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据。籍此，通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，能够准确地获得所述字符的语调短语边界标签数据。

在一些可选实施例中，在通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码时，通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据；通过所述第三解码模块包括的第九线性层，对所述字符的语调短语边界标签的特征数据进行映射处理，以获得所述字符的语调短语边界标签的概率分布数据；通过所述第三解码模块包括的第三计算层，根据所述字符的语调短语边界标签的概率分布数据，确定所述字符的语调短语边界标签数据。其中，所述字符的语调短语边界标签的特征数据可为所述字符的语调短语边界标签的特征向量。籍此，通过所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，能够准确地获得所述字符的语调短语边界标签数据。

在一个具体的例子中，所述第三解码器可由一层单向GRU（Gated RecurrentUnit，循环门单元）网络构成。GRU的隐藏单元数目为256。所述第九线性层可为全连接层。所述第三计算层可为argmax层。所述第三解码器输出的所述字符的语调短语边界标签的特征数据经过一个线性层的映射，得到所述字符的语调短语边界标签的概率分布数据，再经过argmax层处理，得到每一个解码时间步的概率输出，概率最大的语调短语边界标签作为当前解码时间步的语调短语边界标签的分类结果，根据语调短语边界标签的分类结果得到对应的语调短语边界标签数据。

在一些可选实施例中，在通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码之前，所述方法还包括：通过所述语调短语边界预测子模型中的第三注意力层，确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性；通过所述第三注意力层，基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第三解码器当前的输入特征数据，所述通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，包括：通过所述第三解码器，基于所述第三解码器当前的输入特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据。籍此，通过所述语调短语边界预测子模型中的第三注意力层，确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性，并基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，能够准确地获得所述第三解码器当前的输入特征数据。此外，通过所述第三解码器，基于所述第三解码器当前的输入特征数据，对所述字符的语调短语边界标签进行解码，能够准确地获得所述字符的语调短语边界标签的特征数据。

在一个具体的例子中，所述第三注意力层的原理与所述第一注意力层的原理类似，在此不再赘述。

在一个具体的例子中，如图4所示，通过所述韵律词边界预测子模型包括的第一编码器，基于所述说话人文本中的字符的特征数据，对所述字符的语义特征进行编码，以获得所述字符的语义特征数据；通过所述韵律词边界预测子模型包括的第二编码器，基于所述说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据。通过所述韵律词边界预测子模型包括的第一注意力层，确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性；通过所述第一注意力层，基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第一解码器当前的输入特征数据。通过所述第一解码器，基于所述第一解码器当前的输入特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据；通过所述第三线性层，对所述字符的韵律词边界标签的特征数据进行映射处理，以获得所述字符的韵律词边界标签的概率分布数据；通过所述第一计算层，根据所述字符的韵律词边界标签的概率分布数据，确定所述字符的韵律词边界标签数据。通过所述韵律短语边界预测子模型包括的第三编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征进行编码，以获得所述字符的第一混合特征数据；通过所述韵律短语边界预测子模型包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据。通过所述韵律短语边界预测子模型包括的第二注意力层，确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性；通过所述第二注意力层，基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第二解码器当前的输入特征数据。通过所述第二解码器，基于所述第二解码器当前的输入特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据；通过所述第六线性层，对所述字符的韵律短语边界标签的特征数据进行映射处理，以获得所述字符的韵律短语边界标签的概率分布数据；通过所述第二计算层，根据所述字符的韵律短语边界标签的概率分布数据，确定所述字符的韵律短语边界标签数据。通过所述语调短语边界预测子模型包括的第五编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征进行编码，以获得所述字符的第二混合特征数据；通过所述语调短语边界预测子模型包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据。通过所述语调短语边界预测子模型中的第三注意力层，确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性；通过所述第三注意力层，基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第三解码器当前的输入特征数据。通过所述第三解码器，基于所述第三解码器当前的输入特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据；通过所述第九线性层，对所述字符的语调短语边界标签的特征数据进行映射处理，以获得所述字符的语调短语边界标签的概率分布数据；通过所述第三计算层，根据所述字符的语调短语边界标签的概率分布数据，确定所述字符的语调短语边界标签数据。

本实施例提供的韵律边界预测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理（PDA）、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备（如Google Glass、Oculus Rift、Hololens、Gear VR）等。

实施例二

可选地，所述用于通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据的指令，包括：用于通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码，以获得所述字符的语义特征数据和韵律词特征数据的指令。

可选地，所述用于通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码的指令，包括：用于通过所述第一编码模块包括的第一编码器，基于所述字符的特征数据，对所述字符的语义特征进行编码，以获得所述字符的语义特征数据的指令；用于通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据的指令。

可选地，所述用于通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码的指令，包括：用于通过所述第二编码器包括的韵律词特征编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据的指令；用于通过所述第二编码器包括的第一线性层，基于所述字符的韵律词特征数据，计算所述字符的韵律词特征数据的正态分布的均值的指令；用于通过所述第二编码器包括的第二线性层，基于所述字符的韵律词特征数据，计算所述字符的韵律词特征数据的正态分布的方差的指令；用于基于所述字符的韵律词特征数据的正态分布的均值和方差，对所述字符的韵律词特征数据进行采样，以获得所述字符的韵律词特征表征数据的指令。

可选地，所述用于基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据的指令，包括：用于通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据的指令。

可选地，所述用于通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码的指令，包括：用于通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据的指令；用于通过所述第一解码模块包括的第三线性层，对所述字符的韵律词边界标签的特征数据进行映射处理，以获得所述字符的韵律词边界标签的概率分布数据的指令；用于通过所述第一解码模块包括的第一计算层，根据所述字符的韵律词边界标签的概率分布数据，确定所述字符的韵律词边界标签数据的指令。

可选地，所述用于通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码的指令之前，所述可读程序还包括：用于通过所述韵律词边界预测子模型中的第一注意力层，确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性的指令；用于通过所述第一注意力层，基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第一解码器当前的输入特征数据的指令，所述用于通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码的指令，包括：用于通过所述第一解码器，基于所述第一解码器当前的输入特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据的指令。

可选地，所述用于通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据的指令，包括：用于通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码，以获得所述字符的第一混合特征数据和韵律短语特征数据的指令，其中，所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据。

可选地，所述用于通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码的指令，包括：用于通过所述第二编码模块包括的第三编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征进行编码，以获得所述字符的第一混合特征数据的指令；用于通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据的指令。

可选地，所述用于通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码的指令，包括：用于通过所述第四编码器包括的韵律短语特征编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据的指令；用于通过所述第四编码器包括的第四线性层，基于所述字符的韵律短语特征数据，计算所述字符的韵律短语特征数据的正态分布的均值的指令；用于通过所述第四编码器包括的第五线性层，基于所述字符的韵律短语特征数据，计算所述字符的韵律短语特征数据的正态分布的方差的指令；用于基于所述字符的韵律短语特征数据的正态分布的均值和方差，对所述字符的韵律短语特征数据进行采样，以获得所述字符的韵律短语特征表征数据的指令。

可选地，所述用于基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据的指令，包括：用于通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据的指令。

可选地，所述用于通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码的指令，包括：用于通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据的指令；用于通过所述第二解码模块包括的第六线性层，对所述字符的韵律短语边界标签的特征数据进行映射处理，以获得所述字符的韵律短语边界标签的概率分布数据的指令；用于通过所述第二解码模块包括的第二计算层，根据所述字符的韵律短语边界标签的概率分布数据，确定所述字符的韵律短语边界标签数据的指令。

可选地，所述用于通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码的指令之前，所述可读程序还包括：用于通过所述韵律短语边界预测子模型中的第二注意力层，确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性的指令；用于通过所述第二注意力层，基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第二解码器当前的输入特征数据的指令，所述用于通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码的指令，包括：用于通过所述第二解码器，基于所述第二解码器当前的输入特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据的指令。

可选地，所述用于通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据的指令，包括：用于通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码，以获得所述字符的第二混合特征数据和语调短语特征数据的指令，其中，所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据。

可选地，所述用于通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码的指令，包括：用于通过所述第三编码模块包括的第五编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征进行编码，以获得所述字符的第二混合特征数据的指令；用于通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据的指令。

可选地，所述用于通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码的指令，包括：用于通过所述第六编码器包括的语调短语特征编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据的指令；用于通过所述第六编码器包括的第七线性层，基于所述字符的语调短语特征数据，计算所述字符的语调短语特征数据的正态分布的均值的指令；用于通过所述第六编码器包括的第八线性层，基于所述字符的语调短语特征数据，计算所述字符的语调短语特征数据的正态分布的方差的指令；用于基于所述字符的语调短语特征数据的正态分布的均值和方差，对所述字符的语调短语特征数据进行采样，以获得所述字符的语调短语特征表征数据的指令。

可选地，所述用于基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据的指令，包括：用于通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据的指令。

可选地，所述用于通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码的指令，包括：用于通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据的指令；用于通过所述第三解码模块包括的第九线性层，对所述字符的语调短语边界标签的特征数据进行映射处理，以获得所述字符的语调短语边界标签的概率分布数据的指令；用于通过所述第三解码模块包括的第三计算层，根据所述字符的语调短语边界标签的概率分布数据，确定所述字符的语调短语边界标签数据的指令。

可选地，所述用于通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码的指令之前，所述可读程序还包括：用于通过所述语调短语边界预测子模型中的第三注意力层，确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性的指令；用于通过所述第三注意力层，基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第三解码器当前的输入特征数据的指令，所述用于通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码的指令，包括：用于通过所述第三解码器，基于所述第三解码器当前的输入特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据的指令。

根据本申请实施例提供的计算机存储介质，通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，能够准确地获得所述字符的韵律词边界标签数据；通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，能够准确地获得所述字符的韵律短语边界标签数据；通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，能够准确地获得所述字符的语调短语边界标签数据。由于所述说话人文本的韵律边界由韵律词、韵律短语和语调短语的边界构成，并且能够准确地获得所述字符的韵律词边界标签数据、韵律短语边界标签数据，以及语调短语边界标签数据，因此，能够有效提高说话人文本的韵律边界信息的准确度，进而有效提升语音合成系统中说话人合成语音的韵律表达。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的教师风格预测模型的训练方法。此外，当通用计算机访问用于实现在此示出的教师风格预测模型的训练方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的教师风格预测模型的训练方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种韵律边界预测方法，其特征在于，所述方法包括：

通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据；

通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据；

通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据，

其中，所述通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，包括：

通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码，以获得所述字符的语义特征数据和韵律词特征数据。

2.根据权利要求1所述的韵律边界预测方法，其特征在于，所述通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码，包括：

通过所述第一编码模块包括的第一编码器，基于所述字符的特征数据，对所述字符的语义特征进行编码，以获得所述字符的语义特征数据；

通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据。

3.根据权利要求2所述的韵律边界预测方法，其特征在于，所述通过所述第一编码模块包括的第二编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，包括：

通过所述第二编码器包括的韵律词特征编码器，基于所述字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据；

通过所述第二编码器包括的第一线性层，基于所述字符的韵律词特征数据，计算所述字符的韵律词特征数据的正态分布的均值；

通过所述第二编码器包括的第二线性层，基于所述字符的韵律词特征数据，计算所述字符的韵律词特征数据的正态分布的方差；

基于所述字符的韵律词特征数据的正态分布的均值和方差，对所述字符的韵律词特征数据进行采样，以获得所述字符的韵律词特征表征数据。

4.根据权利要求1所述的韵律边界预测方法，其特征在于，所述基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据，包括：

通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据。

5.根据权利要求4所述的韵律边界预测方法，其特征在于，所述通过所述韵律词边界预测子模型中的第一解码模块，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，包括：

通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据；

通过所述第一解码模块包括的第三线性层，对所述字符的韵律词边界标签的特征数据进行映射处理，以获得所述字符的韵律词边界标签的概率分布数据；

通过所述第一解码模块包括的第一计算层，根据所述字符的韵律词边界标签的概率分布数据，确定所述字符的韵律词边界标签数据。

6.根据权利要求5所述的韵律边界预测方法，其特征在于，所述通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码之前，所述方法还包括：

通过所述韵律词边界预测子模型中的第一注意力层，确定所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性；

通过所述第一注意力层，基于所述说话人文本中的每个字符的语义特征数据和韵律词特征数据的拼接特征数据分别与所述第一解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第一解码器当前的输入特征数据，

所述通过所述第一解码模块包括的第一解码器，基于所述语义特征数据和所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，包括：

通过所述第一解码器，基于所述第一解码器当前的输入特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签的特征数据。

7.根据权利要求1所述的韵律边界预测方法，其特征在于，所述通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，包括：

通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码，以获得所述字符的第一混合特征数据和韵律短语特征数据，其中，所述第一混合特征数据为所述字符的包含有所述韵律词边界标签数据的语义特征数据。

8.根据权利要求7所述的韵律边界预测方法，其特征在于，所述通过所述韵律短语边界预测子模型中的第二编码模块，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征和韵律短语特征进行编码，包括：

通过所述第二编码模块包括的第三编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的第一混合特征进行编码，以获得所述字符的第一混合特征数据；

通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据。

9.根据权利要求8所述的韵律边界预测方法，其特征在于，所述通过所述第二编码模块包括的第四编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，包括：

通过所述第四编码器包括的韵律短语特征编码器，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据；

通过所述第四编码器包括的第四线性层，基于所述字符的韵律短语特征数据，计算所述字符的韵律短语特征数据的正态分布的均值；

通过所述第四编码器包括的第五线性层，基于所述字符的韵律短语特征数据，计算所述字符的韵律短语特征数据的正态分布的方差；

基于所述字符的韵律短语特征数据的正态分布的均值和方差，对所述字符的韵律短语特征数据进行采样，以获得所述字符的韵律短语特征表征数据。

10.根据权利要求7所述的韵律边界预测方法，其特征在于，所述基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据，包括：

通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据。

11.根据权利要求10所述的韵律边界预测方法，其特征在于，所述通过所述韵律短语边界预测子模型中的第二解码模块，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，包括：

通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据；

通过所述第二解码模块包括的第六线性层，对所述字符的韵律短语边界标签的特征数据进行映射处理，以获得所述字符的韵律短语边界标签的概率分布数据；

通过所述第二解码模块包括的第二计算层，根据所述字符的韵律短语边界标签的概率分布数据，确定所述字符的韵律短语边界标签数据。

12.根据权利要求11所述的韵律边界预测方法，其特征在于，所述通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码之前，所述方法还包括：

通过所述韵律短语边界预测子模型中的第二注意力层，确定所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性；

通过所述第二注意力层，基于所述说话人文本中的每个字符的第一混合特征数据和韵律短语特征数据的拼接特征数据分别与所述第二解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第二解码器当前的输入特征数据，

所述通过所述第二解码模块包括的第二解码器，基于所述字符的第一混合特征数据和韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，包括：

通过所述第二解码器，基于所述第二解码器当前的输入特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签的特征数据。

13.根据权利要求1所述的韵律边界预测方法，其特征在于，所述通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，包括：

通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码，以获得所述字符的第二混合特征数据和语调短语特征数据，其中，所述第二混合特征数据为所述字符的包含有所述韵律词边界标签数据和所述韵律短语边界标签数据的语义特征数据。

14.根据权利要求13所述的韵律边界预测方法，其特征在于，所述通过所述语调短语边界预测子模型中的第三编码模块，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征和语调短语特征进行编码，包括：

通过所述第三编码模块包括的第五编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的第二混合特征进行编码，以获得所述字符的第二混合特征数据；

通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据。

15.根据权利要求14所述的韵律边界预测方法，其特征在于，所述通过所述第三编码模块包括的第六编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，包括：

通过所述第六编码器包括的语调短语特征编码器，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据；

通过所述第六编码器包括的第七线性层，基于所述字符的语调短语特征数据，计算所述字符的语调短语特征数据的正态分布的均值；

通过所述第六编码器包括的第八线性层，基于所述字符的语调短语特征数据，计算所述字符的语调短语特征数据的正态分布的方差；

基于所述字符的语调短语特征数据的正态分布的均值和方差，对所述字符的语调短语特征数据进行采样，以获得所述字符的语调短语特征表征数据。

16.根据权利要求13所述的韵律边界预测方法，其特征在于，所述基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据，包括：

通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据。

17.根据权利要求16所述的韵律边界预测方法，其特征在于，所述通过所述语调短语边界预测子模型中的第三解码模块，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，包括：

通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据；

通过所述第三解码模块包括的第九线性层，对所述字符的语调短语边界标签的特征数据进行映射处理，以获得所述字符的语调短语边界标签的概率分布数据；

通过所述第三解码模块包括的第三计算层，根据所述字符的语调短语边界标签的概率分布数据，确定所述字符的语调短语边界标签数据。

18.根据权利要求17所述的韵律边界预测方法，其特征在于，所述通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码之前，所述方法还包括：

通过所述语调短语边界预测子模型中的第三注意力层，确定所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性；

通过所述第三注意力层，基于所述说话人文本中的每个字符的第二混合特征数据和语调短语特征数据的拼接特征数据分别与所述第三解码器当前的隐藏状态的关联性，对所述说话人文本中的每个字符的所述拼接特征数据进行加权求和，以获得所述第三解码器当前的输入特征数据，

所述通过所述第三解码模块包括的第三解码器，基于所述字符的第二混合特征数据和语调短语特征数据，对所述字符的语调短语边界标签进行解码，包括：

通过所述第三解码器，基于所述第三解码器当前的输入特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签的特征数据。

19.一种计算机存储介质，其特征在于，所述计算机存储介质存储有可读程序，所述可读程序包括：

用于通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据，并基于所述韵律词特征数据，对所述字符的韵律词边界标签进行解码，以获得所述字符的韵律词边界标签数据的指令；

用于通过所述韵律边界预测模型中的韵律短语边界预测子模型，基于所述字符的特征数据和所述字符的韵律词边界标签数据，对所述字符的韵律短语特征进行编码，以获得所述字符的韵律短语特征数据，并基于所述韵律短语特征数据，对所述字符的韵律短语边界标签进行解码，以获得所述字符的韵律短语边界标签数据的指令；

用于通过所述韵律边界预测模型中的语调短语边界预测子模型，基于所述字符的特征数据、所述字符的韵律词边界标签数据，以及所述字符的韵律短语边界标签数据，对所述字符的语调短语特征进行编码，以获得所述字符的语调短语特征数据，并基于所述字符的语调短语特征数据，对所述字符的语调短语边界标签进行解码，以获得所述字符的语调短语边界标签数据的指令，

其中，所述用于通过韵律边界预测模型中的韵律词边界预测子模型，基于待预测的说话人文本中的字符的特征数据，对所述字符的韵律词特征进行编码，以获得所述字符的韵律词特征数据的指令，包括：

用于通过所述韵律词边界预测子模型中的第一编码模块，基于所述字符的特征数据，对所述字符的语义特征和韵律词特征进行编码，以获得所述字符的语义特征数据和韵律词特征数据的指令。