CN111292715B

CN111292715B - 语音合成方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111292715B
Application number: CN202010078708.4A
Authority: CN
Inventors: 胡居成
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2023-04-07
Anticipated expiration: 2040-02-03
Also published as: CN111292715A

Abstract

本发明提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，属于计算机技术领域。该方法中，会根据待合成文本中不同片段的语义，将待合成文本划分为多个待合成子文本，根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数，基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段，将对应的语音片段组合为待合成文本对应的合成语音。本发明实施例中，基于预训练的语音参数预测模型为待合成子文本生成的语音参数，来生成对应的语音片段，可以使得生成的对应的语音片段更加生动，进而可以提高语音合成的效果。

Description

语音合成方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术

为了提高方便用户获取文本中的信息，经常需要将文本合成为语音，以供用户通过收听语音的方式，获取到该文本中的信息。

相关技术中，往往是按照固定的语音参数，利用语音转换技术，将该文本转换为语音参数与该固定的语音参数匹配的语音。

由于合成后的语音参数是固定，这样，使得合成后的语音对该文本的表现效果较为生硬，语音合成的效果较差。

发明内容

本发明实施例的目的在于提供一种语音合成方法、装置、电子设备及计算机可读存储介质，以实现解决合成后的语音对文本的表现效果较为生硬，语音合成的效果较差的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种语音合成方法，所述方法包括：

根据待合成文本中不同片段的语义，将所述待合成文本划分为多个待合成子文本；

根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数；

基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段；

将所述对应的语音片段组合为所述待合成文本对应的合成语音；

其中，所述预训练的语音参数预测模型是基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的；所述真实语音是对所述样本文本的表现程度满足预设要求的语音。

在本发明实施的第二方面，还提供了一种语音合成装置，所述装置包括：

第一划分模块，用于根据待合成文本中不同片段的语义，将所述待合成文本划分为多个待合成子文本；

第一生成模块，用于根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数；

第二生成模块，用于基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段；

组合模块，用于将所述对应的语音片段组合为所述待合成文本对应的合成语音；

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的语音合成方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的语音合成方法。

本发明实施例提供的语音合成方法，会根据待合成文本中不同片段的语义，将待合成文本划分为多个待合成子文本，根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数。最后，基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段，将对应的语音片段组合为待合成文本对应的合成语音。由于该语音参数预测模型是基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的，而真实语音是对所述样本文本的表现程度满足预设要求的语音，因此，预训练的语音参数预测模型可以为子文本预测出使表现程度较好的语音参数。相应地，本发明实施例中，基于语音参数预测模型为待合成子文本生成的语音参数，来生成对应的语音片段，可以使得生成的对应的语音片段更加生动，进而可以提高语音合成的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种语音合成方法的步骤流程图；

图2-1是本发明实施例提供的另一种语音合成方法的步骤流程图；

图2-2是本发明实施例提供的一种初始预测模型处理示意图；

图2-3是本发明实施例提供的一种初始预测模型的架构图；

图2-4是本发明实施例提供的一种语音合成过程示意图；

图3是本发明实施例提供的一种语音合成装置的框图；

图4是本发明实施例提供的一种电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1是本发明实施例提供的一种语音合成方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、根据待合成文本中不同片段的语义，将所述待合成文本划分为多个待合成子文本。

本发明实施例中，待合成文本可以是一篇文章，也可以是一个文本消息，等等。待合成文本可以包括多个不同的片段，每个片段可以由多个文字、符号或数字等字符组成。各个片段的语义可能不同，不同语义的片段表示的情绪往往不同，相应地，在将这些片段转换为语音时，需要确保转换后的语音的语音参数，与该片段表示的情绪、语义相匹配，才能使得转换后的语音能够生动形象的展现出该片段。因此，在进行语音合成时，可以先通过本步骤，将待合成文本划分为多个待合成子文本。其中，划分出来的待合成子文本可能包括一个片段或一个片段的部分内容，或者是多个片段等等。具体的，进行划分时，可以按照固定文本长度，对该待合成文本进行划分。示例的，假设固定文本长度为100字，那么可以将该待合成文本中每100字组成的片段作为一个待合成子文本，进行划分。进一步地，由于待合成文本中各个片段可能来源与不同的人物角色，由于人物角色的设定不同，因此，同一人物角色对应的片段所表示的语义、情绪往往相似，不同人物角色对应的片段所表示的语义、情绪往往有较大差距，因此，本步骤中，也可以将待合成文本按照人物角色划分为多个待合成子文本。示例的，假设待合成文本中存在两个人物角色：人物A及人物B，那么可以将待合成文本中人物A对应的片段以及人物B对应的片段，分别划分为一个待合成子文本。同时，待合成文本中还可能包括旁白部分，即，叙述部分，相应地，可以将旁白部分的片段划分为一个待合成子文本。这样，按照人物角色进行划分，一定程度上可以确保划分出的待合成子文本的数量不会过多。

当然，还可以按照其他方式进行划分，例如，将待合成文本中的每一句划分为一个待合成子文本，进而得到多个待合成子文本。这样，按照句子进行划分，可以使得划分出的待合成子文本更精细。

步骤102、根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数；所述预训练的语音参数预测模型是基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的；所述真实语音是对所述样本文本的表现程度满足预设要求的语音。

本发明实施例中，由于语音参数预测模型是基于样本文本以及样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的，而真实语音是对所述样本文本的表现程度满足预设要求，即，表现效果较好的语音，其中，该真实语音可以是实际场景中采集的语音，该真实语音可以是采集的专业人士对样本文本朗读时的语音，该表现程度可以包括对文本内容的生动表现程度，以对文本的蕴含的情感表现程度，该预设要求可以是根据人工经验设定的，或者是通过对用户需求进行调查设定的。因此，语音参数预测模型可以为待合成子文本预测出使表现程度较为生动的语音参数。因此，本步骤中，可以将每个待合成子文本输入预训练的语音参数预测模型，相应地，语音参数预测模型可以基于待合成子文本的文本特征，生成待合成子文本对应的语音参数。

步骤103、基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段。

本发明实施例中，语音参数可以是会对语音对文本的表现程度产生影响的参数，具体的，语音参数至少可以包括语速和/或音量，进一步地，该语音参数还可以包括语调、音色，等等，本发明实施例对此不作限定。由于每个待合成子文本对应的语音参数，是语音参数预测模型生成的能够使符合该语音参数的语音对文本的表现程度较好的语音参数，因此，本步骤中，可以基于该语音参数来生成对应的语音片段，具体的，可以控制生成的语音片段的语音参数与该对应的语音参数相同，进而使得生成的对应的语音片段更加生动，提高语音合成的效果。

步骤104、将所述对应的语音片段组合为所述待合成文本对应的合成语音。

具体的，由于待合成子文本是从待合成文本中划分出来的，所有的待合成子文本可以组成该待合成文本。因此，本步骤中，可以按照待合成子文本在待合成文本中的顺序，依次将各个待合成子文本对应的语音片段拼接组合，进而得到待合成文本对应的合成语音。示例的，假设共有5个待合成子文本，那么，可以按照顺序依次将这5个待合成子文本对应的语音片段进行拼接，进而得到该待合成文本对应的合成语音。

综上所述，本发明实施例提供的语音合成方法，可以根据待合成文本中不同片段的语义，将待合成文本划分为多个待合成子文本，根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数。最后，基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段，将对应的语音片段组合为待合成文本对应的合成语音。由于该语音参数预测模型是基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的，而真实语音是对所述样本文本的表现程度满足预设要求的语音，因此，预训练的语音参数预测模型可以为子文本预测出使表现程度较好的语音参数。相应地，本发明实施例中，基于语音参数预测模型为待合成子文本生成的语音参数，来生成对应的语音片段，可以使得生成的对应的语音片段更加生动，进而可以提高语音合成的效果。

图2-1是本发明实施例提供的另一种语音合成方法的步骤流程图，如图2-1所示，该方法可以包括：

步骤201、根据样本文本中不同片段的语义，将样本文本划分为多个不同的子文本。

本步骤中，该样本文本可以是用于训练初始预测模型的文本。进一步地，对样本文本进行划分时，可以按照固定文本长度，对该样本文本进行划分。也可以将样本文本按照人物角色划分为多个子文本。进一步地，还可以对每个人物角色对应的文本中的每一句话再划分，以每句话作为一个子文本，得到多个子文本。

步骤202、利用预置的初始预测模型，并根据所述子文本中词语的词向量，生成所述子文本的文本向量。

本步骤中，该初始预测模型可以是开发人员预先基于卷积神经网络-广义神经网络(CNN-GRNN)模型预先构建的，该初始预测模型可以为多层结构，初始预测模型的每一层可以实现不同的处理。

具体的，可以通过下述子步骤(1)～子步骤(3)实现本步骤：

子步骤(1)：根据所述子文本中词语的词向量，生成所述子文本的词向量矩阵。

可以先对子文本进行分词处理，得到子文本中包含的多个词语。其中，该分词处理表示将连续的字序列按照一定的规范重新组合成词序列的操作。在对子文本进行分词处理时，可以采用基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法，或者采用基于第三方库的分词方法，例如“jieba”，等等。在将子文本划分为多个词语之后，可以对这多个词语中的助词、副词等没有实际意义的词语进行过滤，以提高获取到的词语的质量。接着，可以为每个词语生成词向量。具体的，可以利用预设的词向量生成工具，例如，word2vec工具，为词语生成词向量。当然，也可以采用其他方式生成词向量，本发明实施例对此不作限定。

进一步地，可以按照预设的词向量矩阵大小，对这些词语的词向量进行排列，得到该子文本对应的词向量矩阵。需要说明的是，每个子文本中包含的词语的数量不同，相应地，获得的词向量的个数不同，若词向量的数量小于预设的词向量矩阵大小，则可以利用预设的填充值进行填充，以确保每个子文本对应的词向量矩阵都能达到预设的词向量矩阵大小，进而提高对每个子文本对应的词向量矩阵的处理便捷度。

子步骤(2)：根据所述词向量矩阵，生成所述子文本的初始文本向量。

具体的，可以通过初始预测模型的卷积层对词向量矩阵进行卷积处理，接着，通过下采样层对该卷积处理之后的词向量矩阵进行下采样处理，进而得到该子文本的初始文本向量。

子步骤(3)：基于所述子文本的初始文本向量及所述子文本的上下文子文本的初始文本向量，生成所述子文本的文本向量。

具体的，本步骤中可以通过初始预测模型的序列层提取该子文本的初始文本向量以及该子文本的上下文子文本的初始文本向量，并结合提取到的初始文本向量生成文本向量。这样，可以使得最终得到的文本向量能够同时包含该子文本的上下文片段的特征，而子文本的上下文子文本的语义、及情绪与该子文本的语义、情绪往往存在一定的关系，因此，该文本向量可以更加准确的表示该子文本。其中，该序列层可以由门限循环神经网络(GRU)组成。示例的，图2-2是本发明实施例提供的一种初始预测模型处理示意图，可以看出，初始预测模型通过卷积层、下采样以及序列层，实现生成文本向量。具体的，在生成文本向量时，可以是将子文本的初始文本向量与上下文子文本的初始文本向量进行拼接，将拼接得到的向量确定为该子文本的文本向量。其中，该拼接的顺序可以根据实际需求进行设定，本发明实施例对此不作限定。

需要说明的是，也可以为初始预测模型增加分割层，该分割层可以用于对样本文本进行划分，这样，通过增加分割层可以使该初始预测模型具备划分能力，进而可以直接将样本文本输入该初始预测模型进行划分，进而省略上述步骤201，本发明实施例对此不作限定。

步骤203、基于所述子文本的文本向量，生成所述子文本的预测语音参数。

具体的，本步骤可以通过下述子步骤(4)～子步骤(5)实现：

子步骤(4)：根据所述子文本的文本向量，对所述子文本进行分类，以确定所述子文本对应的类别；其中，不同类别表示不同的语音参数。

本发明实施例中，类别表示的语音参数可以是根据实际需求预先设定。具体的设定过程可以为：预先将语音参数划分为S个不同档。示例的，以语音参数包括语速和音量为例，可以将语速按照大小划分为5个档，不同档的语速表示不同大小的语速，将音量按照大小划分为5个档，不同档的音量表示不同大小的音量。接着，可以将不同档的语速与不同档的音量组合，得到25个类别，这25个类别分别对应不同的语音参数。这样，通过针对各项语音参数，例如，针对语速，音量分别划分各自对应的档位，并进行组合，一定程度上可以扩大可得到的类别的数量，进而提高分类的精度。当然，也可以为每个类别设置一个具体语音参数值，本发明实施例对此不作限定。

进一步地，可以先通过初始预测模型的全连接层对该子文本的文本向量进行全连接处理。具体的，可以是通过全连接层将全连接层中的权重矩阵与该文本向量相乘。本步骤中，由于该文本向量是基于该子文本及其上下文片段提取的，体现的是局部特征，通过全连接层对局部特征进行全连接处理，使得初始预测模型学习局部特征的同时，能够学习到全局特征，进而提高初始预测模型的处理效果。

接着，可以通过初始预测模型的softmax层计算该文本向量与每个类别对应的向量之间的距离，其中，距离越小，则可以认为该子文本属于该类别的概率越大，最后，可以将对应概率最大的类别，作为该子文本对应的类别。具体的，softmax层可以预先设定有预设的类别一一对应的神经元，即每个类别对应softmax层中的一个神经元，该神经元的输出即为该子文本属于该类别的概率值。每个神经元采用softmax函数计算该概率值。

需要说明的是，该初始预测模型也可以是基于BERT模型或者是XLNet模型构建的，本发明实施例对此不作限定。示例的，以初始预测模型是基于BERT模型建立的为例，图2-3是本发明实施例提供的一种初始预测模型的架构图，如图2-3所示，以单个句子(singlesentence)为例，可以将每个词语的词向量输入BERT层，并通过BERT层输出文本向量，最后，通过softmax层确定对应的类别。

进一步地，本发明实施例中使用文本向量表示子文本的特征，进而实现利用模型根据子文本的特征来进行文本分类，当然，在本发明的另一可选实施例中，也可以使用其他内容表示文本的特征，本发明实施例对此不作限定。

子步骤(5)：将所述子文本对应的类别所表示的语音参数，确定为所述子文本的预测语音参数。

假设子文本对应的类别为III，类别III对应的语音参数为：语速a、音量b，那么，可以将语速a、音量b确定为该子文本的预测语音参数。

需要说明的是，本发明实施例中，每个子文本可以对应一个类别，每个类别表示一种语音参数，相应地，每个子文本存在对应的一种语音参数。

步骤204、根据所述多个子文本的预测语音参数与真实语音参数之间的误差，调整所述初始预测模型，以训练得到所述语音参数预测模型；其中，所述真实语音参数是所述子文本在所述真实语音中对应的语音片段的语音参数。

本步骤中，真实语音参数可以是预先对该语音片段进行统计得到，或者也可是在采集真实语音时，从该真实语音对应的相关信息中提取的。示例的，可以统计每句话的平均语速和音量，并进行标注，接着基于标注的值计算该语音片段平均语速和音量，进而得到真实语音参数。由于真实语音是对样本文本的表现程度满足预设要求的语音，相应地，子文本在所述真实语音中对应的语音片段的语音参数，即，真实语音参数，可以代表表现程度满足预设要求所需的参数。因此，本步骤中，可以基于预测语音参数与该真实语音参数之间的误差进行调整。需要说明的是，不同人的语速和音量是不同的，同一人的语速和音量一般具有连贯性，因此，本发明实施例中，进行统计时，可以将真实语音中不同人说的话分离开，进而方便统计。进一步地，还可以统计真实语音中同一人说的话的语音参数，进行训练时，每次以同一人说的多句话对应的文本进行训练，这样，可以每次训练使用的文本具有更多的关联性，进而提高初始预测模型的学习效果。

进一步地，可以将预测语音参数与真实语音参数输入损失函数，计算该损失函数的损失值，进而确定出误差。其中，该损失函数可以为交叉熵损失函数。如果该损失值达到收敛条件，例如，损失值落入预设范围内，则可以认为预测语音参数与真实语音参数之间偏差程度足够小，此时，可以认为该初始预测模型的处理能力能够满足要求，相应地，可以将该初始预测模型作为语音参数预测模型。其中，该预设范围可以根据实际应用场景和实际需求设定，本发明实施例对其不加以限制。需要说明的是，由于存在多个子文本的多个预测语音参数，因此，本发明实施例中，可以基于单个子文本对应的预测语音参数及真实语音参数计算一次误差，并基于该误差进行一些调整操作。也可以是基于多个子文本对应的预测语音参数及真实语音参数，计算平均误差，然后基于该平均误差进行一些调整操作，本发明实施例对此不作限定。

进一步地，如果损失值不在预设范围内，则可以认为预测语音参数与真实语音参数之间偏差程度较大，该初始预测模型的处理能力还不能够满足要求，因此，可以对初始预测模型中的参数进行调整优化。具体的，可以采用AdamOptimizer优化器，对参数进行优化调整。接着，可以通过重复前述步骤，对调整后的初始预测模型继续训练。相应地，在多轮迭代训练过程中，如果某一轮的初始预测模型的损失值在预设范围内，则可以将该轮的初始预测模型作为语音参数预测模型。

步骤205、根据待合成文本中不同片段的语义，将所述待合成文本划分为多个待合成子文本。

具体的，本步骤的实现方式可以参照前述步骤101，本发明实施例在此不做赘述。

步骤206、根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数。

本步骤中，对于每个待合成子文本，可以利用所述语音参数预测模型，并根据待合成子文本中词语的词向量，生成待合成子文本的文本向量。其中，生成待合成子文本的文本向量时候，可以根据待合成子文本中词语的词向量，生成待合成子文本的词向量矩阵；根据词向量矩阵，生成待合成子文本的初始文本向量；基于待合成子文本的初始文本向量及待合成子文本的上下文片段的初始文本向量，生成待合成子文本的文本向量。具体的，这些步骤的具体实现方式可以参照前述步骤202中的相关描述，本发明实施例在此不做赘述。本发明实施例中，待合成子文本的上下文片段的语义、及情绪与该待合成子文本的语义、情绪往往存在一定的关系，因此，结合两者获取的该文本向量可以更加准确的表示该待合成子文本，进而可以提高基于该文本向量生成的语音参数的准确性。

接着，可以根据待合成子文本的文本向量，对待合成子文本进行分类，以确定所述待合成子文本对应的类别；其中，不同类别表示不同的语音参数。最后，将待合成子文本对应的类别所表示的语音参数，确定为待合成子文本对应的语音参数。具体的，这些步骤的具体实现方式可以参照前述步骤202中的相关描述，本发明实施例在此不做赘述。

步骤207、基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段。

本步骤中，可以通过下述子步骤(6)～子步骤(7)实现：

子步骤(6)：对于每个待合成子文本，将所述待合成子文本转换为初始语音片段。

本步骤中，该初始语音片段可以是通过预设的语音转换技术转换得到的，该初始语音片段的语速及音量可以为默认值。

子步骤(7)：将所述初始语音片段的语音参数待合成子文本对应的语音参数，得到所述待合成子文本对应的语音片段。

示例的，以语音参数包括语速及音量为例，本步骤中，可以根据预设的语速调整算法，实现将初始语音片段的语速调整至语音参数中的语速，根据预设的音量调整算法，实现将初始语音片段的音量调整至语音参数中的音量。其中，该预设的语速调整算法及音量调整算法，可以是根据实际需求预先选取的，本发明实施例对此不作限定。示例的，可以选择基于开源库sountouch的调整算法作为语速调整算法，由于该算法是采用wsola类型的算法，可以实现在调整语音的速度的同时，保持语调不变，因此，根据基于开源库sountouch的调整算法进行语速调整的方式，可以确保调整后的效果。

本发明实施例中，先将待合成子文本转换为初始语音片段，最后基于待合成子文本对应的语音参数对转换后得到的初始语音片段进行调整的方式，无需对语音转换算法进行改进，一定程度上可以降低方案实现的难度。图2-4是本发明实施例提供的一种语音合成过程示意图，如图2-4所示，以待合成文本为“故事文本”，划分得到的多个待合成子文本包括：叙述部分的文本、说话人A对应的文本及说话人B对应的文本，接着，可以利用合成平稳语音模型先合成初始语音片段，以及利用语音参数预测模型生成语速和音量，接着，基于生成的语速和音量调整初始语音片段的语速和音量。相应地，最后，将调整后的初始语音片段组合为待合成文本对应的合成语音。

当然，对于每个待合成子文本，本发明实施例中，也可以根据待合成子文本对应的语音参数，将待合成子文本转换为语音参数均与待合成子文本对应的语音参数相匹配的语音片段。示例的，可以根据待合成子文本对应的语速及音量，将待合成子文本转换为语速及音量均与待合成子文本对应的语速及音量匹配的语音片段，即，这样转换的过程中，即完成对语速及音量的调整。最后，将所有待合成子文本对应的语音片段组合为待合成文本对应的合成语音。这样，无需在转换为语音之后再进行调整，即可得到合成语音，一定程度上可以提高语音合成的效率。具体的，将待合成子文本转换为语音参数均与待合成子文本对应的语音参数相匹配的语音片段的过程可以为：将预设的语音转换算法中预设的固定语音参数调整为该待合成子文本对应的语音参数，例如，将预设的固定语速及音量设置为该待合成子文本对应的语速及音量，然后将待合成子文本作为该调整后的语音转换算法的输入，利用该调整后的语音转换算法进行转换，进而得到语音参数均与待合成子文本对应的语音参数相匹配的语音片段。

需要说明的是，前述生成语音参数预测模型的操作步骤与应用语音参数预测模型进行语音合成的步骤，可以由同一设备实现的，也可以由不同的设备实现。

步骤208、将所述对应的语音片段组合为所述待合成文本对应的合成语音。

具体的，本步骤的实现方式可以参照前述步骤104中的描述，本发明实施例在此不做赘述。

综上所述，本发明实施例提供的语音合成方法，会基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练获取语音参数预测模型，根据待合成文本中不同片段的语义，将待合成文本划分为多个待合成子文本，将每个待合成子文本输入预训练的语音参数预测模型，以生成每个待合成子文本对应的语音参数，最后，基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段，将对应的语音片段组合为待合成文本对应的合成语音。由于该语音参数预测模型是基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的，而真实语音是对所述样本文本的表现程度满足预设要求的语音，因此，预训练的语音参数预测模型可以为子文本预测出使表现程度较好的语音参数。相应地，本发明实施例中，基于语音参数预测模型为待合成子文本生成的语音参数，来生成对应的语音片段，可以使得生成的对应的语音片段更加生动，进而可以提高语音合成的效果。

图3是本发明实施例提供的一种语音合成装置的框图，如图3所示，该装置30可以包括：

第一划分模块301，用于根据待合成文本中不同片段的语义，将所述待合成文本划分为多个待合成子文本。

第一生成模块302，用于根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数。

第二生成模块303，用于基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段；

组合模块305，用于将所述对应的语音片段组合为所述待合成文本对应的合成语音。

可选的，所述语音参数预测模型通过下述具体模块训练得到：

第二划分模块，用于根据样本文本中不同片段的语义，将样本文本划分为多个不同的子文本。

第三生成模块，用于利用预置的初始预测模型，并根据所述子文本中词语的词向量，生成所述子文本的文本向量。

第四生成模块，用于基于所述子文本的文本向量，生成所述子文本的预测语音参数。

调整模块，用于根据所述多个子文本的预测语音参数与真实语音参数之间的误差，调整所述初始预测模型，以训练得到所述语音参数预测模型；其中，所述真实语音参数是所述子文本在所述真实语音中对应的语音片段的语音参数。

可选的，所述第三生成模块，具体用于：

根据所述子文本中词语的词向量，生成所述子文本的词向量矩阵。

根据所述词向量矩阵，生成所述子文本的初始文本向量。

基于所述子文本的初始文本向量及所述子文本的上下文子文本的初始文本向量，生成所述子文本的文本向量。

可选的，所述第三生成模块，还具体用于：

根据所述子文本的文本向量，对所述子文本进行分类，以确定所述子文本对应的类别；其中，不同类别表示不同的语音参数。

将所述子文本对应的类别所表示的语音参数，确定为所述子文本的预测语音参数。

可选的，所述第二生成模块303，具体用于：

对于每个待合成子文本，将所述待合成子文本转换为初始语音片段；将所述初始语音片段的语音参数调整至所述待合成子文本对应的语音参数，得到所述待合成子文本对应的语音片段。

或者，根据所述待合成子文本对应的语音参数，将所述待合成子文本转换为语音参数均与所述待合成子文本对应的语音参数相匹配的语音片段。

可选的，所述第一生成模块302，具体用于：

对于每个待合成子文本，利用所述语音参数预测模型，并根据所述待合成子文本中词语的词向量，生成所述待合成子文本的文本向量。

根据所述待合成子文本的文本向量，对所述待合成子文本进行分类，以确定所述待合成子文本对应的类别；其中，不同类别表示不同的语音参数。

将所述待合成子文本对应的类别所表示的语音参数，确定为所述待合成子文本对应的语音参数。

可选的，所述第一生成模块302，还具体用于：

根据所述待合成子文本中词语的词向量，生成所述待合成子文本的词向量矩阵。

根据所述词向量矩阵，生成所述待合成子文本的初始文本向量。

基于所述待合成子文本的初始文本向量及所述待合成子文本的上下文待合成子文本的初始文本向量，生成所述待合成子文本的文本向量。

综上所述，本发明实施例提供的语音合成装置，可以根据待合成文本中不同片段的语义，将待合成文本划分为多个待合成子文本，根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数。最后，基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段，将对应的语音片段组合为待合成文本对应的合成语音。由于该语音参数预测模型是基于样本文本、样本文本中不同子文本在真实语音中对应的语音片段的语音参数训练得到的，而真实语音是对所述样本文本的表现程度满足预设要求的语音，因此，预训练的语音参数预测模型可以为子文本预测出使表现程度较好的语音参数。相应地，本发明实施例中，基于语音参数预测模型为待合成子文本生成的语音参数，来生成对应的语音片段，可以使得生成的对应的语音片段更加生动，进而可以提高语音合成的效果。。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

根据待合成文本中不同片段的语义，将所述待合成文本划分为多个待合成子文本。

根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数。

将所述对应的语音片段组合为所述待合成文本对应的合成语音。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音合成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音参数预测模型通过下述具体步骤训练得到：

根据样本文本中不同片段的语义，将样本文本划分为多个不同的子文本；

利用预置的初始预测模型，并根据所述子文本中词语的词向量，生成所述子文本的文本向量；

基于所述子文本的文本向量，生成所述子文本的预测语音参数；

根据所述多个子文本的预测语音参数与真实语音参数之间的误差，调整所述初始预测模型，以训练得到所述语音参数预测模型；其中，所述真实语音参数是所述子文本在所述真实语音中对应的语音片段的语音参数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述子文本中词语的词向量，生成所述子文本的文本向量，包括：

根据所述子文本中词语的词向量，生成所述子文本的词向量矩阵；

根据所述词向量矩阵，生成所述子文本的初始文本向量；

4.根据权利要求3所述的方法，其特征在于，所述基于所述子文本的文本向量，生成所述子文本的预测语音参数，包括：

根据所述子文本的文本向量，对所述子文本进行分类，以确定所述子文本对应的类别；其中，不同类别表示不同的语音参数；

5.根据权利要求1所述的方法，其特征在于，所述基于每个待合成子文本对应的语音参数，生成每个待合成子文本对应的语音片段，包括：

对于每个待合成子文本，将所述待合成子文本转换为初始语音片段；将所述初始语音片段的语音参数调整至所述待合成子文本对应的语音参数，得到所述待合成子文本对应的语音片段；

6.根据权利要求1所述的方法，其特征在于，所述根据预训练的语音参数预测模型，生成每个待合成子文本对应的语音参数，包括：

对于每个待合成子文本，利用所述语音参数预测模型，并根据所述待合成子文本中词语的词向量，生成所述待合成子文本的文本向量；

根据所述待合成子文本的文本向量，对所述待合成子文本进行分类，以确定所述待合成子文本对应的类别；其中，不同类别表示不同的语音参数；

7.根据权利要求6所述的方法，其特征在于，所述根据所述待合成子文本中词语的词向量，生成所述待合成子文本的文本向量，包括：

根据所述待合成子文本中词语的词向量，生成所述待合成子文本的词向量矩阵；

根据所述词向量矩阵，生成所述待合成子文本的初始文本向量；

8.一种语音合成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。