CN114333758A

CN114333758A - 语音合成方法、装置、计算机设备、存储介质和产品

Info

Publication number: CN114333758A
Application number: CN202111302064.3A
Authority: CN
Inventors: 林诗伦; 蒙力; 苏文超; 李新辉; 卢鲤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种语音合成方法、装置、计算机设备、存储介质和产品，通过获取待合成语音的文本，以及确定所要合成的语音类型；将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到文本语音特征信息；根据语音类型确定目标时长预测网络；根据目标时长预测网络和文本语音特征信息预测文本单元对应的音频时长信息；根据音频时长信息对文本语音特征信息进行时长匹配处理，得到匹配后文本语音特征信息；根据匹配后文本语音特征信息进行语音合成处理，得到目标语音。该方案可以提取准确的文本语音特征信息，且根据语音类型采用对应的时长预测网络，使得合成的目标语音保留语音类型的音色和韵律等信息，提高语音合成效果。

Description

语音合成方法、装置、计算机设备、存储介质和产品

技术领域

本申请涉及通信技术领域，具体涉及一种语音合成方法、装置、计算机设备、存储介质和产品。

背景技术

语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容也被称为文字转语音(Text to Speech，TTS)，其作用是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的语音并朗读出来。传统的语音合成技术主要基于波形拼接方法或统计参数方法，拼接方法需要提前采集所有发音单元对应的波形，通过波形拼接得到对应的语音，统计参数方法需要先对已有音频进行频谱特性参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。当输入一个文本时，先将文本序列映射出对应的音频特征，根据音频特征输入对应的语音。

其中，波形拼接方法需要针对每个语音类型采集大量的音频，以覆盖所有的发音单元，且由于拼接的原因，导致合成的语音过渡不自然，语音合成效果差，统计参数方法可以不需要采集大量的音频，但由于采用映射的方式，导致合成的语音存在较强的机械感，合成效果差。

发明内容

本申请实施例提供一种语音合成方法、装置、计算机设备、存储介质和产品，可以提高语音合成的合成效果。

本申请实施例提供的一种语音合成方法，包括：

获取待合成语音的文本，以及确定所要合成的语音类型；

将所述语音类型对应的参考音频特征信息与所述文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；

根据所述语音类型从多路时长预测网络中确定对应的目标时长预测网络；

根据所述目标时长预测网络和所述文本语音特征信息预测所述文本中文本单元对应的音频时长信息；

针对每个文本单元，根据所述音频时长信息对所述文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；

根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到所述语音类型的目标语音。

相应的，本申请实施例还提供的一种语音合成装置，包括：

获取单元，用于获取待合成语音的文本，以及确定所要合成的语音类型；

特征融合单元，用于将所述语音类型对应的参考音频特征信息与所述文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；

网络确定单元，用于根据所述语音类型从多路时长预测网络中确定对应的目标时长预测网络；

时长预测单元，用于根据所述目标时长预测网络和所述文本语音特征信息预测所述文本中文本单元对应的音频时长信息；

匹配处理单元，用于针对每个文本单元，根据所述音频时长信息对所述文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；

语音合成单元，用于根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到所述语音类型的目标语音。

在一实施例中，所述特征融合单元，包括：

第一特征提取子单元，用于针对所述文本包含的文本单元进行文本特征提取，得到文本特征信息；

特征融合子单元，用于将所述语音类型对应的参考音频特征信息与所述文本的文本特征信息进行融合处理，得到每个文本单元对应的文本语音特征信息。

在一实施例中，所述特征融合单元，包括：

音频获取子单元，用于获取所述语音类型对应的参考音频；

第二特征提取子单元，用于根据所述文本中的文本单元对所述参考音频进行音频特征提取，得到参考音频特征信息。

在一实施例中，所述语音合成单元，包括：

特征处理网络确定子单元，用于根据所述语音类型从多路特征处理网络中确定目标特征处理网络；

特征解码子单元，用于通过所述目标特征处理网络对匹配后文本语音特征信息进行特征解码处理，得到所述文本对应的声学特征信息；

语音合成子单元，用于根据所述声学特征信息进行语音合成处理，得到所述文本关于所述语音类型的目标语音。

在一实施例中，所述特征解码子单元，包括：

解码模块，用于对所述匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息；

特征转换模块，用于通过所述目标特征处理网络对所述解码后特征信息进行特征转换处理，得到所述文本对应的声学特征信息。

在一实施例中，所述匹配处理单元，包括：

上采样子单元，用于针对每个文本单元，根据所述音频时长信息对所述文本单元对应的文本语音特征信息进行上采样处理，得到所述文本单元对应的至少一个文本语音特征信息；

特征信息确定子单元，用于根据所述文本单元对应的至少一个文本语音特征信息得到所述匹配后文本语音特征信息。

在一实施例中，所述特征融合单元，还用于：

基于融合特征提取网络对所述文本进行文本将所述语音类型对应的参考音频特征信息与所述文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息。

在一实施例中，所述语音合成装置，包括：

样本获取单元，用于获取至少一个训练样本集合中待合成语音的文本样本，所述文本样本对应有音频样本；

特征融合训练单元，用于基于初始融合特征提取网络将所述文本样本与所述音频样本进行融合处理，得到所述文本样本关于文本单元的文本语音特征信息；

网络确定训练单元，用于从所述多路初始时长预测网络中确定与所述训练样本集合匹配的目标初始时长预测网络；

时长预测训练单元，用于根据所述目标初始时长预测网络和所述文本语音特征信息预测所述文本样本中每个文本单元对应的音频时长信息；

时长匹配单元，用于针对每个文本单元，根据所述音频时长信息对所述文本语音特征信息进行时长匹配处理，得到匹配后文本语音特征信息；

解码单元，用于对匹配后文本语音特征信息进行特征解码处理，得到所述文本样本对应的声学特征信息；

语音合成训练单元，用于基于所述文本样本对应的声学特征信息与所述音频样本对应的声学特征信息，分别对所述初始融合特征提取网络以及所述初始目标时长预测网络进行训练，得到融合特征提取网络以及目标时长预测网络。

在一实施例中，所述获取单元，包括：

获取子单元，用于获取待合成语音的初始文本；

规整化子单元，用于根据所述文本单元对所述初始文本进行文本规整化处理，得到所述文本。

相应的，本申请实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本申请实施例提供的任一种语音合成方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本申请实施例提供的任一种语音合成方法。

相应的，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，其中，所述计算机程序/指令被处理器执行时实现本申请实施例提供的任一种语音合成方法。

本申请实施例通过获取待合成语音的文本，以及确定所要合成的语音类型；将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；根据语音类型从多路时长预测网络中确定对应的目标时长预测网络；根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息；针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。

本方案获取不同语音类型对应的参考音频特征信息和待合成语音的文本进行融合处理，可以准确地提取到文本对应的文本语音特征信息，根据不同语音类型对应的时长预测网络确定音频时长信息，使得合成的目标语音保留不同语音类型对应的音色和韵律等音频信息，提高不同语音类型的语音合成效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音合成方法的场景图；

图2是本申请实施例提供的语音合成方法的流程图；

图3是本申请实施例提供的多路融合语音合成系统的示意图；

图4是本申请实施例提供的语音合成方法的另一流程图；

图5是本申请实施例提供的语音合成界面示意图；

图6是本申请实施例提供的语音合成装置示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种语音合成方法、装置、计算机设备和计算机可读存储介质。该语音合成装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

其中，该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC，Personal Computer)、以及车载计算机等。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，如图1所示，终端向计算机设备发送待合成语音的文本，以及指定所要合成的语音类型，计算机设备将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；根据语音类型从多路时长预测网络中确定对应的目标时长预测网络；根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息；针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从语音合成装置的角度进行描述，该语音合成装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

本申请实施例提供一种语音合成方法，如图2所示，该语音合成方法的具体流程如下：

101、获取待合成语音的文本，以及确定所要合成的语音类型。

其中，待合成语音的文本可以包括需要进行语音合成的文本，比如，可以包括拼音(t、o、n、g、1)、音素(t、o、ng)、或者文字(通)等，语音合成也称为文字转语音(Text toSpeech，TTS)，其作用是将计算机设备产生的或外部输入的待合成语音的文本转变为可以听得懂的、流利的语音并朗读出来。

其中，语音类型可以包括多种音色类型，比如，可以包括新闻播音、人工客服、以及可爱萌娃等语音类型。

比如，具体可以是计算机设备从数据库或者是区块链等获取待合成语音的文本，还可以是接收客户端响应用户的输入操作发送的待合成语音的文本；根据待合成语音所在的存储位置或者是对应的标签确定所要合成的目标语音所属的语音类型，还可以是客户端响应用户对语音类型的选择操作，向计算机设备发送语音类型响应的信息，以指示计算机设备确定所要合成的语音类型。

在通常情况下，通常采用文字的形式进行记录，比如，通常会输入“我是一只猫”，而不会采用“wo3shi4yi4zhi1mao1”的形式，因此，可以针对获取的文字形式的文本进行转换，转为以指定文本单元为单位的文本，例如，将“我是一只猫”转换为“wo3shi4yi4zhi1mao1”，即在一实施例中，步骤“获取待合成语音的文本”，具体可以包括：

获取待合成语音的初始文本；

根据文本单元对初始文本进行文本规整化处理，得到待合成语音的文本。

其中，初始文本可以是计算机获取到还未进行处理的文本，可以包括拼音、音素或者是文字形式的文本。

其中，文本单元可以是待合成语音的初始文本的发音单元，例如，可以是拼音、音素或者字符。

其中，文本规整化处理可以包括将初始文本转换为指定文本格式的文本。

比如，具体可以是获取待合成语音的初始文本，根据指定的文本单元对初始文本进行转换，例如，若指定的文本单元为拼音，则将初始文本转换为以拼音形式表示的文本；若指定的文本单元为音素，则将初始文本转换为以音素形式表示的文本；若指定的文本单元为文字，则将初始文本转换为以文字形式表示的文本。

可选的，还可以对初始文本进行文本清洗，去除初始文本中的冗余信息，筛选出需要进行语音合成的内容，以及根据初始文本的语义信息增加停顿等处理。

对初始文本进行文本规整化处理可以提高得到文本在形式和格式上的统一性，提高将文本的文本单元和参考音频特征信息进行融合的便捷性和效率。

102、将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息。

其中，参考音频特征信息可以包括表征语音类型所对应的音色和韵律等音频特征的特征信息。

其中，文本语音特征信息可以是表征文本单元对应的声学特征的特征信息。

比如，具体可以是获取语音类型对应的参考音频特征信息，将参考音频特征信息和文本中的文本单元对应的特征信息通过特征相加或者特征相乘等方式进行融合，得到文本中每个文本单元的文本语音特征信息。

文本单元对应的特征信息可以通过对文本单元进行文本特征提取得到，即在一实施例中，步骤“将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息”，具体可以包括：

针对文本包含的文本单元进行文本特征提取，得到文本特征信息；

将语音类型对应的参考音频特征信息与文本的文本特征信息进行融合处理，得到每个文本单元对应的文本语音特征信息。

比如，具体可以是通过独热(one-hot)编码或者特征嵌入(Embedding)等方式对文本包含的文本单元进行文本特征提取，得到文本对应的关于文本单元的文本特征信息。

将文本特征信息和参考音频特征信息进行特征相加，以将文本特征信息和音频特征信息进行融合，得到每个文本单元对应的文本语音特征信息。

针对每个语音类型可以预设好参考音频特征信息，也可以是获取语音类型对应的参考音频，根据参考音频得到参考音频特征信息，即在一实施例中，步骤“将语音类型对应的参考音频特征信息与文本的文本特征信息进行融合处理，得到每个文本单元对应的文本语音特征信息”之前，具体还可以包括：

获取语音类型对应的参考音频；

根据文本中的文本单元对参考音频进行音频特征提取，得到参考音频特征信息。

其中，参考音频可以包括至少一个语音类型对应的音频。

比如，具体可以是获取至少一个语音类型对应的音频作为参考音频，对参考音频进行音频特征提取，得到文本中每个文本单元对应的音色以及韵律等音频特征，得到文本单元对应的参考音频特征。

可选的，以上将参考音频特征信息和文本单元进行融合处理，得到文本语音特征信息的过程可以通过融合特征网络进行处理，即在一实施例中，步骤“将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息”，具体可以包括：

基于融合特征提取网络对文本进行文本将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息。

其中，融合特征提取网络可以包括对文本进行文本特征提取的文本特征提取模型和对参考音频进行音频特征提取的音频特征提取模型。

比如，具体可以是通过融合特征提取网络对文本进行文本特征提取，得到文本对应的文本特征信息，以及对参考音频进行音频特征提取，得到参考音频特征信息，并将文本特征信息和音频特征信息进行特征相加处理，得到文本语音特征信息。

融合特征提取网络通过预先训练得到，即在一实施例中，本申请实施例提供的语音合成方法中，具体还可以包括：

获取至少一个训练样本集合中待合成语音的文本样本，文本样本对应有音频样本；

基于初始融合特征提取网络将文本样本与音频样本进行融合处理，得到文本样本关于文本单元的文本语音特征信息；

从多路初始时长预测网络中确定与训练样本集合匹配的目标初始时长预测网络；

根据目标初始时长预测网络和文本语音特征信息预测文本样本中每个文本单元对应的音频时长信息；

针对每个文本单元，根据音频时长信息对文本语音特征信息进行时长匹配处理，得到匹配后文本语音特征信息；

对匹配后文本语音特征信息进行特征解码处理，得到文本样本对应的声学特征信息；

基于文本样本对应的声学特征信息与音频样本对应的声学特征信息，分别对初始融合特征提取网络以及初始目标时长预测网络进行训练，得到融合特征提取网络以及目标时长预测网络。

其中，训练样本集合可以包括至少一个文本样本，每个文本样本对应有一段音频样本，不同训练样本集合包含的音频对应的语音类型不同，例如，训练样本集合A可以包括新闻类的音频样本以及对应的文本样本，训练样本集合B可以包括客服类的音频样本以及对应的文本样本等。

其中，初始融合特征提取网络可以是还未训练好的特征提取网络。

比如，具体可以是获取至少一个训练样本集合中待合成语音的文本样本，以及文本样本对应的音频样本，通过初始融合特征提取网络对文本样本进行文本特征提取，得到文本样本对应的文本特征信息，以及通过初始融合特征提取网络对音频样本进行音频特征提取，得到音频样本对应的音频特征信息，将文本特征信息和音频特征信息进行融合处理，得到文本样本关于文本单元的文本语音特征信息。

融合特征提取网络可以对不同的训练样本集合中的文本样本和音频样本进行特征提取，即不同的训练样本集合共同对初始融合特征提取网络进行训练，不同的训练样本集合共同对初始融合特征提取网络进行训练可以提高融合特征提取网络提取文本特征以及音频特征的能力。

若不同的训练样本集合采用不同的特征提取网络，则基于低质量的训练样本集合(例如，样本数量少的训练样本集合、录音质量差倒是音频样本质量低的训练样本集合、以及说话人发音不标准导致音频样本质量低的训练样本集合)训练得到的特征提取网络的特征提取能力差，而采用融合特征提取网络，可以充分利用高质量的训练样本集合的高质量样本，协助融合特征提取网络准确提取低质量的训练样本集合中的文本语音特征信息。

通过包含不同语音类型的音频样本的训练样本集合对初始融合特征提取网络进行训练，可以提高融合特征提取网络对不同训练样本集合的特征提取能力，为了保留不同训练样本集合的语音风格，每个训练样本集合可以对应有一个时长预测网络，时长预测网络用于根据训练样本集合根据文本语音特征信息预测与训练样本集合的语音风格匹配的音频时长信息。

根据文本样本对应的训练样本集合从多个目标时长预测网络中确定对应的目标时长预测网络。将文本样本和音频样本进行融合得到的文本音频特征信息输入目标时长预测网络，通过目标时长预测网络基于文本语音特征信息预测每个文本单元的音频时长信息。

根据每个文本单元对应的时长信息对文本语音特征信息进行时长匹配处理，得到匹配后文本语音特征信息。

对匹配后文本语音特征信息进行特征解码处理，得到预测的声学特征信息，将音频样本对应的声学特征信息作为样本标签，基于预测的声学特征信息和音频样本对应的声学特征信息之间的误差对初始融合特征网络进行训练，得到融合特征提取网络，以及对训练样本集合对应的目标初始时长预测网络进行训练，得到目标时长预测网络。

可选的，对匹配后文本语音特征信息进行特征解码处理可以通过融合初步解码网络和多路特征处理网络实现。例如，通过融合初步解码网络对匹配后文本语音特征信息进行初步解码，得到解码后特征信息，再通过训练样本集合对应的目标特征处理网络对解码后特征信息进行二次解码以及后处理等，得到声学特征。同时，基于预测的声学特征信息和音频样本对应的声学特征信息之间的误差对融合初步解码网络和目标特征处理网络进行训练，得到训练后融合初步解码网络和目标特征处理网络。

其中，关于时长匹配处理以及特征解码处理的具体实现过程参考后续实施例中的相关描述，在此不做赘述。

103、根据语音类型从多路时长预测网络中确定对应的目标时长预测网络。

其中，多路时长预测网络可以包括多个时长预测网络，时长预测网络可以根据文本音频特征信息预测每个文本单元的音频时长信息，使得合成的目标语音保留有语音类型的语音风格，例如，音色和韵律等。

比如，具体可以是不同的语音类型对应有不同的时长预测网络，从多路时长预测网络中确定语音类型对应的时长预测网络。

104、根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息。

其中，音频时长信息可以包括文本单元的发音长度，例如，1s、500ms、或者是5帧音频帧等。

比如，具体可以是将文本语音特征信息作为目标时长预测网络的输入，通过目标时长预测网络基于融合特征信息预测每个文本单元对应的音频时长信息，同一文本单元对于不同语音类型来说，所需要的音频时长信息是不同，根据语音类型对应的目标时长预测网络可以使合成的目标语音符合语音类型对应的音色和韵律等。

105、针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息。

比如，具体可以是每个文本特征信息可以对应得到一帧音频帧，根据音频时长信息确定每个文本单元所需的发音时长，对文本单元对应的文本语音特征信息进行复制，或者根据文本语音特征信息进行调整得到相似得文本语音特征信息，使得根据文本单元对应的文本特征信息可以得到与音频时长信息匹配的音频帧。

对文本语音特征信息进行时长匹配处理可以通过上采样实现，即在一实施例中，步骤“针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息”，具体可以包括：

针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行上采样处理，得到文本单元对应的至少一个文本语音特征信息；

根据文本单元对应的至少一个文本语音特征信息得到匹配后文本语音特征信息。

比如，具体可以是根据音频时长信息确定每个文本单元对应的音频帧数量，将文本单元对应的文本语音特征信息进行复制，得到多个文本语音特征信息，文本单元对应的文本语音特征信息的数量等于音频时长信息指示的音频帧数量。

针对每个文本单元对应的文本语音特征信息均进行上采样处理，得到文本中每个文本单元的匹配后文本语音特征信息。

106、根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。

比如，具体可以是根据匹配后文本语音特征信息进行特征解码处理，得到每个文本单元对应的声学特征信息，由声码器将声学特征信息转换为目标语音。声码器(Vocoder)源自人声编码器(Voice Encoder)的缩写，又称语音信号分析合成系统，其作用是将声学特征转换为声音。

不同语音类型对应有不同的时长预测网络，对应地，可以对不同语音类型设置对应的特征处理网络用于对匹配后文本语音特征信息进行特征解码处理，可以更好地将匹配后文本语音特征信息进行转换为声学特征信息，即在一实施例中，步骤“根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音”，具体可以包括：

根据语音类型从多路特征处理网络中确定目标特征处理网络；

通过目标特征处理网络对匹配后文本语音特征信息进行特征解码处理，得到文本对应的声学特征信息；

根据声学特征信息进行语音合成处理，得到文本关于语音类型的目标语音。

其中，多路特征处理网络可以包括每个语音类型对应的特征处理网络。

比如，具体可以是从多路特征处理网络中确定与语音类型对应的目标特征处理网络，通过目标处理网络对匹配后文本语音特征信息进行特征解码处理，得到文本对应的声学特征信息。

通过声码器基于声学特征信息进行语音合成处理，得到语音类型的目标语音。

可选的，特征处理网络可以包括二次解码网络和后处理网络，二次解码网络用于对匹配后文本语音特征信息进行特征解码处理，得到初始声学特征信息，后处理网络用于对初始声学特征信息进行平滑调整等处理，得到声学特征信息。

若多路特征处理网络中存在由于训练样本不足或者样本质量较低的情况，导致该支路的特征处理网络进行特征解码存在不稳定的情况，因此，可以在通过支路的特征处理网络进行特征解码之前，先进行初步解码处理，以得到稳定的解码结果供支路的特征处理网络处理，可以减少由于训练样本不足以及样本质量低导致的解码效果差，即在一实施例中，步骤“通过目标特征处理网络对匹配后文本语音特征信息进行特征解码处理，得到文本对应的声学特征信息”，具体可以包括：

对匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息；

通过目标特征处理网络对解码后特征信息进行特征转换处理，得到文本对应的声学特征信息。

比如，具体可以是对匹配后文本语音特征信息进行处理解码处理，得到解码后特征信息，再通过目标特征处理网络对解码后特征信息进行二次解码，将二次解码得到解码后特征信息转化为对应的声学特征信息。

由上可知，本申请实施例计算机设备通过获取待合成语音的文本，以及确定所要合成的语音类型；将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；根据语音类型从多路时长预测网络中确定对应的目标时长预测网络；根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息；针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。本方案获取不同语音类型对应的参考音频特征信息和待合成语音的文本进行融合处理，可以准确地提取到文本对应的文本语音特征信息，根据不同语音类型对应的时长预测网络确定音频时长信息，使得合成的目标语音保留不同语音类型对应的音色和韵律等音频信息，提高不同语音类型的语音合成效果。

在上述实施例的基础上，下面将举例做进一步详细说明。

本实施例将从语音合成装置的角度进行描述，该语音合成装置具体可以集成在计算机设备中，该计算机设备可以是服务器。

本申请实施例中，融合特征提取网络、多路时长预测网络以及特征处理网络集成于多路融合语音合成系统，多路融合语音合成系统的结构如图3所示，多路融合语音合成系统可以包括融合部分和多路部分，融合部分：不同的语音类型的文本和训练样本集合共享一个融合特征合成网络和一个融合初步解码网络，多路部分：不同的语音类型的文本和训练样本集合对应有独立的时长预测网络和特征处理网络。

本申请实施例提供的一种语音合成方法，如图4所示，该语音合成方法的具体流程可以如下：

201、服务器获取至少一个训练样本集合中待合成语音的文本样本和对应的音频样本。

其中，训练样本集合可以是一个音库，音库中可以包括特定语音类型的音频样本以及对应的文本样本。例如，音库A可以包括新闻类的音频样本以及对应的文本样本，音库B可以包括客服类的音频样本以及对应的文本样本等。多个音库在文本丰富度和录音质量等方面存在着不同程度的差异。对于音库A的文本样本通常覆盖丰富的内容，且音频样本一般为高质量的专业录音棚级录音，这类音库对训练得到的神经网络稳定性好，对于音库B发音人专业度相对较低，且文本内容多为客服场景下的内容，音库B的样本质量较低。

比如，具体可以是获取至少一个训练样本集合中待合成语音的文本样本，以及文本样本对应的音频样本。

202、服务器通过多路融合语音合成系统的初始融合特征提取网络对文本样本和音频样本进行特征提取以及融合处理，得到文本语音特征信息。

比如，具体可以是通过路融合语音合成系统的初始融合特征提取网络对文本样本进行文本特征提取，得到文本样本对应的文本特征信息，以及通过初始融合特征提取网络对音频样本进行音频特征提取，得到音频样本对应的音频特征信息，将文本特征信息和音频特征信息进行融合处理，得到文本样本关于文本单元的文本语音特征信息。

融合多个训练样本集合对初始融合特征提取网络进行训练，利用高质量音库和低质量音库同时参与训练可以解决了低质量音库文本覆盖不全以及录音质量不高所带来的网络不稳定等问题，提高融合特征提取网络提取文本特征以及音频特征的能力。

203、服务器通过与训练样本集合对应的目标初始时长预测网络，基于文本语音特征信息预测文本样本中每个文本单元对应的音频时长信息。

比如，为了保留不同训练样本集合发音人的音色及韵律等音频信息，每个训练样本集合可以对应有一个时长预测网络，时长预测网络用于根据训练样本集合根据文本语音特征信息预测与训练样本集合的语音风格匹配的音频时长信息。

根据文本样本对应的训练样本集合从多个目标时长预测网络中确定对应的目标时长预测网络。将文本样本和音频样本进行融合得到的文本音频特征信息输入目标时长预测网络，通过目标时长预测网络基于文本音频特征信息预测每个文本单元的音频时长信息。

204、服务器根据音频时长信息对文本语音特征信息进行上采样处理，得到文本样本对应的匹配后文本语音特征信息。

比如，具体可以是根据音频时长信息确定文本样本中每个文本单元对应的音频帧数量，将文本单元对应的文本语音特征信息进行复制，得到多个文本语音特征信息，文本单元对应的文本语音特征信息的数量等于音频时长信息指示的音频帧数量。

针对每个文本单元对应的文本语音特征信息均进行上采样处理，得到文本样本中每个文本单元的匹配后文本语音特征信息。

205、服务器通过多路融合语音合成系统的融合初步解码网络，对匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息。

其中，融合初步解码网络可以包含初步解码器。

比如，具体可以是通过多路融合语音合成系统的融合初步解码网络，对匹配后文本语音特征信息进行解码处理，得到解码后特征信息，不同训练样本集合共享初步解码网络有助于获得一个稳定的初步解码结果供特征处理网络使用，避免由于训练样本集合的样本质量低导致训练得到的解码网络不稳定、解码结果不正确等问题。通过结合高质量训练样本和低质量训练样本对初步解码网络进行训练，使得初始解码网络能够输入稳定的解码结果，特征处理网络无需大量的样本进行训练即可获取稳定的输出结果。

206、服务器通过与训练样本集合对应的目标特征处理网络，对解码后特征信息进行特征解码处理，得到文本样本对应的声学特征信息。

比如，具体可以是从多路特征处理网络中确定与训练样本集合对应的目标特征处理网络，通过目标处理网络的二次解码网络对匹配后文本语音特征信息进行二次解码处理，得到初始声学特征信息，再通过后处理网络用于对初始声学特征信息进行平滑调整等处理，得到声学特征信息。

207、服务器基于文本样本对应的声学特征信息与音频样本对应的声学特征信息，对多路融合语音合成系统中的各个网络进行训练，得到训练后的多路融合语音合成系统。

比如，对匹配后文本语音特征信息进行特征解码处理，得到预测的声学特征信息，将音频样本对应的声学特征信息作为样本标签，基于预测的声学特征信息和音频样本对应的声学特征信息之间的误差，对多路融合语音合成系统中文本样本对应的支路所包含的融合特征提取网络、目标时长预测网络、初步解码网络以及目标特征处理网络进行训练，得到训练后的多路融合语音合成系统。

例如，文本样本a来自训练样本集合A，训练样本集合对应时长预测网络Ⅰ和特征处理网络Ⅰ，则基于预测的声学特征信息和音频样本对应的声学特征信息之间的误差，对融合特征提取网络、初步解码网络、时长预测网络Ⅰ和特征处理网络Ⅰ进行训练。

208、服务器接收客户端发送的语音合成请求，根据语音合成请求获取待合成语音的文本，以及确定所要合成的语音类型。

比如，如图5所示，客户端提供语音合成界面，语音合成界面可以包括文本输入区域和语音类型选择控件，语音合成界面还包括语音合成控件，客户端响应用户针对语音合成控件的确认操作，获取文本输入区域中的文本作为待合成语音的文本，以及根据对语音类型选择控件的选择操作确定所要合成的语音类型，并向服务器发送语音合成请求。

服务器根据语音合成请求确定待合成语音的文本，以及确定所要合成的语音类型。

209、服务器通过融合特征提取网络对文本和音频进行特征提取以及融合处理，得到文本语音特征信息。

比如，具体可以是通过独热(one-hot)编码或者特征嵌入(Embedding)等方式对文本包含的文本单元进行文本特征提取，得到文本对应的关于文本单元的文本特征信息。获取至少一个语音类型对应的音频作为参考音频，对参考音频进行音频特征提取，得到文本中每个文本单元对应的音色以及韵律等音频特征，得到文本单元对应的参考音频特征，然后，将文本特征信息和音频特征信息进行特征相加处理，得到文本语音特征信息。

210、服务器通过语音类型对应的目标时长预测网络对文本语音特征信息进行上采样处理，得到匹配后文本语音特征信息。

211、服务器通过初步解码网络对匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息。

比如，具体可以是对匹配后文本语音特征信息进行处理解码处理，得到解码后特征信息。

212、服务器通过语音类型对应的目标特征处理网络，对解码后特征信息进行特征解码处理，得到文本对应的声学特征信息。

比如，具体可以是从多路特征处理网络中确定与语音类型对应的目标特征处理网络，通过目标处理网络的二次解码网络对匹配后文本语音特征信息进行二次解码处理，得到初始声学特征信息，再通过后处理网络对初始声学特征信息进行平滑调整等处理，得到文本对应的声学特征信息。

213、服务器通过声码器将声学特征信息转换为目标语音，并返回给客户端。

通过声码器基于声学特征信息进行语音合成处理，得到语音类型的目标语音，并将目标语音发送给客户端。

由上可知，本申请实施例服务器通过获取至少一个训练样本集合中待合成语音的文本样本和对应的音频样本；通过多路融合语音合成系统的初始融合特征提取网络对文本样本和音频样本进行特征提取以及融合处理，得到文本语音特征信息；通过与训练样本集合对应的目标初始时长预测网络，基于文本语音特征信息预测文本样本中每个文本单元对应的音频时长信息；根据音频时长信息对文本语音特征信息进行上采样处理，得到文本样本对应的匹配后文本语音特征信息；通过多路融合语音合成系统的融合初步解码网络，对匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息；通过与训练样本集合对应的目标特征处理网络，对解码后特征信息进行特征解码处理，得到文本样本对应的声学特征信息；基于文本样本对应的声学特征信息与音频样本对应的声学特征信息，对多路融合语音合成系统中的各个网络进行训练，得到训练后的多路融合语音合成系统。服务器接收客户端发送的语音合成请求，根据语音合成请求获取待合成语音的文本，以及确定所要合成的语音类型；通过融合特征提取网络对文本和音频进行特征提取以及融合处理，得到文本语音特征信息；通过语音类型对应的目标时长预测网络对文本语音特征信息进行上采样处理，得到匹配后文本语音特征信息；通过初步解码网络对匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息；通过语音类型对应的目标特征处理网络，对解码后特征信息进行特征解码处理，得到文本对应的声学特征信息；通过声码器将声学特征信息转换为目标语音，并返回给客户端。

本方案采用多路融合语音合成系统，通过融合特征提取网络和融合初步解码网络可以充分利用高质量训练样本集合文本覆盖面广和录音质量高的特点提高低质量训练样本集合的合成准确性和稳定性，根据不同语音类型采用对应的时长预测网络，使得合成的目标语音保留各自训练样本集合对应的音色和韵律等音频信息，此外，在实际使用中，无需引入多余的计算，与单音库训练的模型计算量一致。

为了便于更好地实施本申请实施例提供的语音合成方法，在一实施例中还提供了一种语音合成装置。其中名词的含义与上述语音合成方法中相同，具体实现细节可以参考方法实施例中的说明。

该语音合成装置具体可以集成在计算机设备中，如图6所示，该语音合成装置可以包括：获取单元301、特征融合单元302、网络确定单元303、时长预测单元304、匹配处理单元305和语音合成单元306，具体如下：

(1)获取单元301：用于获取待合成语音的文本，以及确定所要合成的语音类型。

在一实施例中，获取单元301可以包括获取子单元和规整化子单元，具体地：

获取子单元：用于获取待合成语音的初始文本；

规整化子单元：用于根据文本单元对初始文本进行文本规整化处理，得到文本。

(2)特征融合单元302：用于将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息。

在一实施例中，特征融合单元302可以包括第一特征提取子单元和特征融合子单元，具体地：

第一特征提取子单元：用于针对文本包含的文本单元进行文本特征提取，得到文本特征信息；

特征融合子单元：用于将语音类型对应的参考音频特征信息与文本的文本特征信息进行融合处理，得到每个文本单元对应的文本语音特征信息。

在一实施例中，特征融合单元302可以包括音频获取子单元和第二特征提取子单元，具体地：

音频获取子单元：用于获取语音类型对应的参考音频；

第二特征提取子单元：用于根据文本中的文本单元对参考音频进行音频特征提取，得到参考音频特征信息。

在一实施例中，特征融合单元302，还可以用于：

在一实施例中，语音合成装置还可以包括样本获取单元、特征融合训练单元、网络确定训练单元、时长预测训练单元、时长匹配单元、解码单元和语音合成训练单元，具体地：

样本获取单元：用于获取至少一个训练样本集合中待合成语音的文本样本，文本样本对应有音频样本；

特征融合训练单元：用于基于初始融合特征提取网络将文本样本与音频样本进行融合处理，得到文本样本关于文本单元的文本语音特征信息；

网络确定训练单元：用于从多路初始时长预测网络中确定与训练样本集合匹配的目标初始时长预测网络；

时长预测训练单元：用于根据目标初始时长预测网络和文本语音特征信息预测文本样本中每个文本单元对应的音频时长信息；

时长匹配单元：用于针对每个文本单元，根据音频时长信息对文本语音特征信息进行时长匹配处理，得到匹配后文本语音特征信息；

解码单元：用于对匹配后文本语音特征信息进行特征解码处理，得到文本样本对应的声学特征信息；

语音合成训练单元：用于基于文本样本对应的声学特征信息与音频样本对应的声学特征信息，分别对初始融合特征提取网络以及初始目标时长预测网络进行训练，得到融合特征提取网络以及目标时长预测网络。

(3)网络确定单元303：用于根据语音类型从多路时长预测网络中确定对应的目标时长预测网络。

(4)时长预测单元304：用于根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息。

(5)匹配处理单元305：用于针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息。

在一实施例中，匹配处理单元305可以包括上采样子单元和特征信息确定子单元，具体地：

上采样子单元：用于针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行上采样处理，得到文本单元对应的至少一个文本语音特征信息；

特征信息确定子单元：用于根据文本单元对应的至少一个文本语音特征信息得到匹配后文本语音特征信息。

(6)语音合成单元306：用于根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。

在一实施例中，语音合成单元306可以包括特征处理网络确定子单元、特征解码子单元和语音合成子单元，具体地：

特征处理网络确定子单元：用于根据语音类型从多路特征处理网络中确定目标特征处理网络；

特征解码子单元：用于通过目标特征处理网络对匹配后文本语音特征信息进行特征解码处理，得到文本对应的声学特征信息；

语音合成子单元：用于根据声学特征信息进行语音合成处理，得到文本关于语音类型的目标语音。

在一实施例中，特征解码子单元可以包括解码模块和特征转换模块，具体地：

解码模块：用于对匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息；

特征转换模块：用于通过目标特征处理网络对解码后特征信息进行特征转换处理，得到文本对应的声学特征信息。

由上可知，本申请实施例语音合成装置通过获取单元301获取待合成语音的文本，以及确定所要合成的语音类型；通过特征融合单元302将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；由网络确定单元303根据语音类型从多路时长预测网络中确定对应的目标时长预测网络；由时长预测单元304根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息；通过匹配处理单元305针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；最后，通过语音合成单元306根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。本方案获取不同语音类型对应的参考音频特征信息和待合成语音的文本进行融合处理，可以准确地提取到文本对应的文本语音特征信息，根据不同语音类型对应的时长预测网络确定音频时长信息，使得合成的目标语音保留不同语音类型对应的音色和韵律等音频信息，提高不同语音类型的语音合成效果。

本申请实施例还提供一种计算机设备，该计算机设备可以是终端，也可以是服务器，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器1001可包括一个或多个处理核心；优选的，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和计算机程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

计算机设备还包括给各个部件供电的电源1003，优选的，电源1003可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1001会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的计算机程序，从而实现各种功能，如下：

获取待合成语音的文本，以及确定所要合成的语音类型；

将语音类型对应的参考音频特征信息与文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息；

根据语音类型从多路时长预测网络中确定对应的目标时长预测网络；

根据目标时长预测网络和文本语音特征信息预测文本中文本单元对应的音频时长信息；

针对每个文本单元，根据音频时长信息对文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息；

根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到语音类型的目标语音。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由上可知，本申请实施例的计算机设备可以获取不同语音类型对应的参考音频特征信息和待合成语音的文本进行融合处理，可以准确地提取到文本对应的文本语音特征信息，根据不同语音类型对应的时长预测网络确定音频时长信息，使得合成的目标语音保留不同语音类型对应的音色和韵律等音频信息，提高不同语音类型的语音合成效果。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序，能够被处理器进行加载，以执行本申请实施例所提供的任一种语音合成方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音合成方法，因此，可以实现本申请实施例所提供的任一种语音合成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音合成方法、装置、计算机设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待合成语音的文本，以及确定所要合成的语音类型；

2.根据权利要求1所述的方法，其特征在于，所述将所述语音类型对应的参考音频特征信息与所述文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息，包括：

针对所述文本包含的文本单元进行文本特征提取，得到文本特征信息；

将所述语音类型对应的参考音频特征信息与所述文本的文本特征信息进行融合处理，得到每个文本单元对应的文本语音特征信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述语音类型对应的参考音频特征信息与所述文本的文本特征信息进行融合处理，得到每个文本单元对应的文本语音特征信息之前，所述方法还包括：

获取所述语音类型对应的参考音频；

根据所述文本中的文本单元对所述参考音频进行音频特征提取，得到参考音频特征信息。

4.根据权利要求1所述的方法，其特征在于，所述根据每个文本对应的匹配后文本语音特征信息进行语音合成处理，得到所述语音类型的目标语音，包括：

根据所述语音类型从多路特征处理网络中确定目标特征处理网络；

通过所述目标特征处理网络对匹配后文本语音特征信息进行特征解码处理，得到所述文本对应的声学特征信息；

根据所述声学特征信息进行语音合成处理，得到所述文本关于所述语音类型的目标语音。

5.根据权利要求4所述的方法，其特征在于，所述通过所述目标特征处理网络对匹配后文本语音特征信息进行特征解码处理，得到所述文本对应的声学特征信息，包括：

对所述匹配后文本语音特征信息进行初步解码处理，得到解码后特征信息；

通过所述目标特征处理网络对所述解码后特征信息进行特征转换处理，得到所述文本对应的声学特征信息。

6.根据权利要求1所述的方法，其特征在于，所述针对每个文本单元，根据所述音频时长信息对所述文本单元对应的文本语音特征信息进行时长匹配处理，得到每个文本单元对应的匹配后文本语音特征信息，包括：

针对每个文本单元，根据所述音频时长信息对所述文本单元对应的文本语音特征信息进行上采样处理，得到所述文本单元对应的至少一个文本语音特征信息；

根据所述文本单元对应的至少一个文本语音特征信息得到所述匹配后文本语音特征信息。

7.根据权利要求1所述的方法，其特征在于，所述将所述语音类型对应的参考音频特征信息与所述文本中的文本单元进行融合处理，得到每个文本单元对应的文本语音特征信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取至少一个训练样本集合中待合成语音的文本样本，所述文本样本对应有音频样本；

基于初始融合特征提取网络将所述文本样本与所述音频样本进行融合处理，得到所述文本样本关于文本单元的文本语音特征信息；

从所述多路初始时长预测网络中确定与所述训练样本集合匹配的目标初始时长预测网络；

根据所述目标初始时长预测网络和所述文本语音特征信息预测所述文本样本中每个文本单元对应的音频时长信息；

针对每个文本单元，根据所述音频时长信息对所述文本语音特征信息进行时长匹配处理，得到匹配后文本语音特征信息；

对匹配后文本语音特征信息进行特征解码处理，得到所述文本样本对应的声学特征信息；

基于所述文本样本对应的声学特征信息与所述音频样本对应的声学特征信息，分别对所述初始融合特征提取网络以及所述初始目标时长预测网络进行训练，得到融合特征提取网络以及目标时长预测网络。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述获取待合成语音的文本，包括：

获取待合成语音的初始文本；

根据所述文本单元对所述初始文本进行文本规整化处理，得到所述待合成语音的文本。

10.一种语音合成装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至9任一项所述的语音合成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行权利要求1至9任一项所述的语音合成方法。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至9任一项所述的语音合成方法中的步骤。