CN117133269A

CN117133269A - 语音合成的方法、装置、电子设备及存储介质

Info

Publication number: CN117133269A
Application number: CN202311129852.6A
Authority: CN
Inventors: 杨喜鹏; 岳鹏飞; 陈云琳
Original assignee: Shanghai Mobvoi Information Technology Co ltd
Current assignee: Shanghai Mobvoi Information Technology Co ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-11-28

Abstract

本公开提供了一种语音合成的方法，包括：根据关于输入文本中各个音素的时长指令，将时长指令所指示的发音时长与相应音素的文本特征进行对齐，以确定各个音素的帧级别特征；响应于对各个音素的音高指令，将音高指令所指示的音高特征与相应音素的帧级别特征进行融合，以生成对应于各个音素的目标音素特征；基于各个目标音素特征，构建对应于输入文本的目标音频，其中目标音频中的各个语音帧具备时长指令所指示的发音时长和音高指令所指示的音高特征。本公开还提供一种语音合成的装置、电子设备及存储介质。

Description

语音合成的方法、装置、电子设备及存储介质

技术领域

本公开设计智能语音技术领域，特别涉及一种语音合成的方法、装置、电子设备及存储介质。

背景技术

韵律是体现语音节奏和情感表达的主要元素，不同韵律的音频数据表达着不同的主体情绪，也提供了不同的听觉体验。音高是韵律的组成单元，通过控制各个音素的音高可以使得音频数据呈现出一定的韵律。

随着语音合成技术的发展，通过修改音频数据的音高而对其韵律进行控制，已然成为音频优化的发展趋势。但是，相关技术中对于音高的控制方式多为使用单独的参考编码器神经网络来实现的，其具有一定的局限性：其一，这种方式需要训练复杂的神经网络，并且需要说话人的音频输入作为参考，在没有说话人自适应的情况下不适用；其二，这种方式中仅能控制神经网络在样本中学习到语音的音高，而不能提供人为的显示控制，无法为用户提供针对于各个文字音高的可视化精准调控。

发明内容

为了解决前文所述的至少一个问题，本公开提供了一种语音合成的方法、装置、电子设备及存储介质。

根据本公开的一个方面提供了一种语音合成的方法，包括：根据关于输入文本中各个音素的时长指令，将所述时长指令所指示的发音时长与相应所述音素的文本特征进行对齐，以确定各个所述音素的帧级别特征；响应于对各个所述音素的音高指令，将所述音高指令所指示的音高特征与相应所述音素的帧级别特征进行融合，以生成对应于各个所述音素的目标音素特征；基于各个所述目标音素特征，构建对应于所述输入文本的目标音频，其中所述目标音频中的各个语音帧具备所述时长指令所指示的发音时长和所述音高指令所指示的音高特征。

在一些实施方式中，在所述确定各个所述音素的帧级别特征之前，包括：获取关于各个所述音素的所述时长指令，包括：调用时长预测器对各个所述音素的文本特征进行分析，获取各个所述音素对应的所述发音时长，以形成包含所述发音时长的所述时长指令；或者调用时长设定窗口获取用户对各个所述音素下达的所述时长指令，其中所述时长指令用于指示所述音素的发音时长。

在一些实施方式中，所述生成对应于各个所述音素的目标音素特征之前，包括：获取关于各个所述音素的所述音高指令，包括：对所述帧级别特征进行分析，确定关于各个所述音素的音高特征；调用音高调整窗口获取用户对至少部分所述音素的音高调整结果，以所述音高调整结果作为至少部分所述音素的音高特征；以及构建包含所述音高特征的所述音高指令。

在一些实施方式中，所述基于各个所述目标音素特征，构建对应于所述输入文本的目标音频，包括：将各个所述目标音素特征分别转换为对应的音频隐变量；调用目标解码器对所述音频隐变量进行解码，以获得关于相应所述音素的语音帧；以及依所述输入文本的语序，整合各个所述音素对应的所述语音帧，形成关于所述输入文本的所述目标音频。

在一些实施方式中，所述调用目标解码器对所述音频隐变量进行解码，包括：对所述音高特征进行处理，形成音高特征向量；以及将所述音高特征向量与所述音频隐变量进行融合切片处理，并将处理结果进行解码，以所述解码结果作为相应所述音素的语音帧。

在一些实施方式中，还包括：获取各个所述音素的所述文本特征，包括：将各个所述音素转换为音素标号；以及对所述音素标号进行编码分析，以形成用于表征所述音素的语义信息的所述文本特征。

在一些实施方式中，还包括：对预测所述发音时长的时长预测器进行训练，以使得所述时长预测器所预测的所述发音时长与期望时长吻合。

根据本公开的另一个方面提供了一种语音合成的装置，包括：帧级别特征确定模块，用于根据关于输入文本中各个音素的时长指令，将所述时长指令所指示的发音时长与相应所述音素的文本特征进行对齐，以确定各个所述音素的帧级别特征；目标音素特征确定模块，用于响应于对各个所述音素的音高指令，将所述音高指令所指示的音高特征与相应所述音素的帧级别特征进行融合，以生成对应于各个所述音素的目标音素特征；以及音频生成模块，用于基于各个所述目标音素特征，构建对应于所述输入文本的目标音频，其中所述目标音频中的各个语音帧具备所述时长指令所指示的发音时长和所述音高指令所指示的音高特征。

根据本公开的又一个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如上述任一实施方式所述的语音合成的方法。

根据本公开的再一个方面提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上述任一实施方式所述的语音合成的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为根据本公开的一个实施方式的语音合成的方法流程图。

图2为根据本公开的一个实施方式的语音合成的方法架构图。

图3为根据本公开的一个实施方式的目标解码器执行流程图。

图4为根据本公开的一个实施方式的语音合成的装置框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

本文使用的术语是为了描述具体实施例的目的，而不是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1为根据本公开的一个实施方式的语音合成的方法流程图；图2为根据本公开的一个实施方式的语音合成的方法架构图；图3为根据本公开的一个实施方式的目标解码器执行流程图。下面结合图1至图3对本公开的语音合成的方法S100进行阐述。

步骤S102，根据关于输入文本中各个音素的时长指令，将时长指令所指示的发音时长与相应音素的文本特征进行对齐，以确定各个音素的帧级别特征。

输入文本为需要转换为目标音频的文本形式内容，其由若干字符或者字母形成。输入文本具有一定的含义，其中的每一个字符或者字母均结合于所处的上下文环境被赋予相应语义。

音素是对应于输入文本的最小语音单位。当输入文本为汉语时，输入文本被转换为拼音形式，并以拼音中的各个字母作为一个音素。同一音素在不同的上下文环境中表征不同的含义，也就对应着不同的文本特征。在本公开中，将输入文本进行音素转换，为后续对各个音素进行音高和发音时长的调整做铺垫，提升了韵律控制的精度。

时长指令是用于指示读取音素的时间长度的控制信号，其表征各个因素的发音时长。发音时长利用时长预测器预测而得；同时，在本公开中还为用户提供时长设定窗口，以便用户根据对各个音素的发音时长需求而精准调整。换言之，本公开的时长指令的获取方式更多样化，避免了用户逐一进行发音时长设定所花费的高人力成本和高时间成本，同时满足了用户的个性化、精准化的发音时长定制需求。

发音时长是指读取相应音素所消耗的时长，不同的发音时长会使得读取相应音素所呈现的语言节奏等产生差异。

文本特征是用于表征相应音素在输入文本所给出的上下文环境中的语义等信息，同一因素在输入文本的不同位置会对应着不同的语义信息。

文本特征仅表示文本维度的音素属性，但是为了将各个音素由文本形式转换为音频形式，那么需要对其文本特征进行时间维度的扩展，以将其转换为帧级别的特征。换言之，需要将文本维度的文本特征和时间维度的发音时长进行长度规整，以确定各个音素所对应的帧级别特征。

帧级别特征包含相应音素的文本特征和时间维度的发音时长，帧级别特征已经可以用于转换为相应的语音帧，但是由于没有音高特征，目前获得的语音帧难以具有丰富的韵律表现。

步骤S104，响应于对各个音素的音高指令，将音高指令所指示的音高特征与相应音素的帧级别特征进行融合，以生成对应于各个音素的目标音素特征

音高指令是用于指示相应音素的音高的控制信号，其表征相应音素的音高特征。音高特征主要为音素的频率和波长，频率越高和波长越短所对应的音素的音调越高。各个音素的音高特征串联，使得最终输出的目标音频呈现一定的韵律，提高了目标音频的情绪表现力。

音高特征的获取方式包括：调用音高预测模块对帧级别特征进行分析而获得；以及，为用户提供音高调整窗口，便于用户对所获得的各个音素的音高特征进行确认，并根据需求将至少部分音素的音高特征调整为满足需求的音高特征。其中，音高调整窗口的设置，为用户精准控制各个音素的音高提供便利。

目标音素特征用于表征相应音素的文本特征、发音时长和音高特征，其具备转换为音频所具备的文本维度、时间维度和韵律维度的参数。当然，为了使得目标因素特征更丰富，还可融合包含音色特征在内的更多语音特征，均落入本公开的保护范围。

步骤S106，基于各个目标音素特征，构建对应于输入文本的目标音频。

目标音频是由多个语音帧依据输入文本的语序串联的结果。目标音频中的各个语音帧具备时长指令所指示的发音时长，并且各个语音帧还具备音高指令所指示的音高特征。

在一些实施方式中，在步骤S102之前，包括：获取关于各个音素的时长指令。

具体地，时长指令的获取方式为：调用时长预测器对各个音素的文本特征进行分析，获取各个音素对应的发音时长，以形成包含发音时长的时长指令；或者调用时长设定窗口获取用户对各个音素下达的时长指令，其中时长指令用于指示音素的发音时长。

换言之，时长指令中所包含的发音时长，可以由时长预测器预测而得，也可以由用户根据需求进行设定，在避免了用户对各个因素逐一进行时长设定的成本开销，也为其提供了个性化、精准化设定的渠道。

在一些实施方式中，还包括：对预测发音时长的时长预测器进行训练，以使得时长预测器所预测的发音时长与期望时长吻合。

具体地，时长预测器在投入使用之前，需要调用样本进行训练，并将训练过程中输出的预测时长与样本中实际音频的相应音素的发音时长进行比较；计算二者之间的均方差损失值；若二者之间的均方差损失值大于均方差损失值阈值，则将损失值反馈给时长预测器进行优化训练，直至其输出的预测时长与实际音频的相应音素的发音时长之间的均方差损失值小于或等于均方差损失值阈值，则获得训练调优之后的时长预测器。该时长预测器具备根据音素的文本特征预测出符合常规场景的发音时长的能力。

在一些实施方式中，在步骤S104之前，包括：获取关于各个音素的音高指令。

具体地，对帧级别特征进行分析，确定关于各个音素的音高特征；调用音高调整窗口获取用户对至少部分音素的音高调整结果，以音高调整结果作为至少部分音素的音高特征；以及构建包含音高特征的音高指令。

其中，在本公开中调用了音高预测模块，以实现对帧级别特征进行分析的过程。

由于输入文本中的音素的数据量较大，若由用户为各个因素进行音高特征的赋值，那么将花费大量的人力和物力成本，并且最终形成的目标音频的韵律可能也与常规韵律存在差异。因此，本公开提出了音高预测模块，通过该模块首先对各个音素预测出相应的音高特征。但是，为了满足用户的个性化需求，为用户提供了音高调整窗口，以便于其根据自身需求对部分音素的音高特征进行替换或者调整，为用户提供了便捷个性化定制音高特征的途径。

需要说明的是，音高预测模块可以采用音频编辑软件，例如reaper，用于音高特征的提取。在此之前，通常采用大量的样本对音高预测模块进行训练，以使得其预测的音高特征符合通常场景的韵律需求。

在一些实施方式中，步骤S106包括：将各个目标音素特征分别转换为对应的音频隐变量；调用目标解码器对音频隐变量进行解码，以获得关于相应音素的语音帧；以及依输入文本的语序，整合各个音素对应的语音帧，形成关于输入文本的目标音频。

音频隐变量代表了目标音素特征中的内部特征，比如音素的音色等语音属性。通过音频隐变量，使得所获得语音帧能够更丰富地呈现相应音素的语音特点。

音频隐变量是通过隐变量生成模型flow获取的。需要说明的是，在训练过程中，调用了变分自编码器(Variational auto-encoder，VAE)获取先验编码器的均值和方差。进而，调用后验编码器提取实际音频提取的线性谱，并输出相应的期望隐变量、期望均值和期望方差。将期望隐变量、期望均值和期望方差与模型输出的音频隐变量、均值和方差进行比较，获取二者之间的损失值；将超过损失值阈值的结果反馈给模型进行权重调整，使其输出的音频隐变量与期望隐变量之间的损失值符合要求。

语音帧是对应于音素的声音信号，每个音素对应一个语音帧。

目标音频是按照输入文本的语序，对各个语音帧进行串联的结果。目标音频能按照对各个因素的需求发音时长和音高进行发声，以获得具有目标韵律的声音呈现。

具体地，在对音频隐变量进行解码时，调用了目标解码器。目标解码器的工作过程为：对音高特征进行处理，形成音高特征向量；以及将音高特征向量与音频隐变量进行融合切片处理，并将处理结果进行解码，以解码结果作为相应音素的语音帧。

图3为根据本公开的一个实施方式的目标解码器执行流程图。参考图3，目标解码器包括解码器单元、降采样单元、CNN(卷积神经网络)全局信息学习单元、上采样单元、正弦变换单元和高斯噪声添加单元构成，是对常规解码器的优化结果，通过目标解码器能够使得目标音频呈现更好的声音表现。

其中，音高特征作为输入，由正弦变换单元进行正弦变化；并调用高斯噪声添加单元为其增加高斯噪声；然后经过上采样单元对其进行上采样；进而，由CNN全局信息学习单元对齐进行全局信息分析；进而，经过降采样单元对分析结果进行降采样操作，获得关于音高特征的音高特征向量；更进一步地，对音高特征向量和输入的音频隐变量进行相加，并做切片处理；最终，调用解码器单元将融合切片的处理结果进行解码处理，以输出目标音频。调用目标解码器所获得的目标音频具有更好的声音表现力，效果更加自然和逼真。

在一些实施方式中，还包括：获取各个音素的文本特征，包括：将各个音素转换为音素标号；以及对音素标号进行编码分析，以形成用于表征音素的语义信息的文本特征。

具体地，通过映射表的方式，确定各个音素的音素标号。进而，将音素标号作为编码器的输入，进而由编码器输出各个音素对应的文本特征。

本公开提出的语音合成的方法，通过对输入文本的音素进行时长和音高的逐一预测，并且为用户提供了时长设定窗口和音高调整窗口，使得在语音合成的过程中，提高了音频的控制精度，并且为音高和时长的控制提供了可视化的条件。

图4为根据本公开的一个实施方式的语音合成的装置框图。

如图4所示，根据本公开的另一个方面提供了一种语音合成的装置1000，包括：帧级别特征确定模块1002，用于根据关于输入文本中各个音素的时长指令，将时长指令所指示的发音时长与相应音素的文本特征进行对齐，以确定各个音素的帧级别特征；目标音素特征确定模块1002，用于响应于对各个音素的音高指令，将音高指令所指示的音高特征与相应音素的帧级别特征进行融合，以生成对应于各个音素的目标音素特征；以及音频生成模块1006，用于基于各个目标音素特征，构建对应于输入文本的目标音频，其中目标音频中的各个语音帧具备时长指令所指示的发音时长和音高指令所指示的音高特征。

语音合成的装置1000中的各个模块是为了实现语音合成的方法中的各个步骤而提出的，因此各个模块的执行步骤和与原理可参考前述，在此不再赘述。

该装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

本公开提出的语音合成的装置，通过对输入文本的音素进行时长和音高的逐一预测，并且为用户提供了时长设定窗口和音高调整窗口，使得在语音合成的过程中，提高了音频的控制精度，并且为音高和时长的控制提供了可视化的条件。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种语音合成的方法，其特征在于，包括：

根据关于输入文本中各个音素的时长指令，将所述时长指令所指示的发音时长与相应所述音素的文本特征进行对齐，以确定各个所述音素的帧级别特征；

响应于对各个所述音素的音高指令，将所述音高指令所指示的音高特征与相应所述音素的帧级别特征进行融合，以生成对应于各个所述音素的目标音素特征；

基于各个所述目标音素特征，构建对应于所述输入文本的目标音频，其中所述目标音频中的各个语音帧具备所述时长指令所指示的发音时长和所述音高指令所指示的音高特征。

2.根据权利要求1所述的语音合成的方法，其特征在于，在所述确定各个所述音素的帧级别特征之前，包括：

获取关于各个所述音素的所述时长指令，包括：

调用时长预测器对各个所述音素的文本特征进行分析，获取各个所述音素对应的所述发音时长，以形成包含所述发音时长的所述时长指令；或者

调用时长设定窗口获取用户对各个所述音素下达的所述时长指令，其中所述时长指令用于指示所述音素的发音时长。

3.根据权利要求1所述的语音合成的方法，其特征在于，所述生成对应于各个所述音素的目标音素特征之前，包括：

获取关于各个所述音素的所述音高指令，包括：

对所述帧级别特征进行分析，确定关于各个所述音素的音高特征；

调用音高调整窗口获取用户对至少部分所述音素的音高调整结果，以所述音高调整结果作为至少部分所述音素的音高特征；以及

构建包含所述音高特征的所述音高指令。

4.根据权利要求1所述的语音合成的方法，其特征在于，所述基于各个所述目标音素特征，构建对应于所述输入文本的目标音频，包括：

将各个所述目标音素特征分别转换为对应的音频隐变量；

调用目标解码器对所述音频隐变量进行解码，以获得关于相应所述音素的语音帧；以及

依所述输入文本的语序，整合各个所述音素对应的所述语音帧，形成关于所述输入文本的所述目标音频。

5.根据权利要求4所述的语音合成的方法，其特征在于，所述调用目标解码器对所述音频隐变量进行解码，包括：

对所述音高特征进行处理，形成音高特征向量；以及

将所述音高特征向量与所述音频隐变量进行融合切片处理，并将处理结果进行解码，以所述解码结果作为相应所述音素的语音帧。

6.根据权利要求1所述的语音合成的方法，其特征在于，还包括：

获取各个所述音素的所述文本特征，包括：

将各个所述音素转换为音素标号；以及

对所述音素标号进行编码分析，以形成用于表征所述音素的语义信息的所述文本特征。

7.根据权利要求1所述的语音合成的方法，其特征在于，还包括：

对预测所述发音时长的时长预测器进行训练，以使得所述时长预测器所预测的所述发音时长与期望时长吻合。

8.一种语音合成的装置，其特征在于，包括：

帧级别特征确定模块，用于根据关于输入文本中各个音素的时长指令，将所述时长指令所指示的发音时长与相应所述音素的文本特征进行对齐，以确定各个所述音素的帧级别特征；

目标音素特征确定模块，用于响应于对各个所述音素的音高指令，将所述音高指令所指示的音高特征与相应所述音素的帧级别特征进行融合，以生成对应于各个所述音素的目标音素特征；

音频生成模块，用于基于各个所述目标音素特征，构建对应于所述输入文本的目标音频，其中所述目标音频中的各个语音帧具备所述时长指令所指示的发音时长和所述音高指令所指示的音高特征。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1至7中任一项所述的语音合成的方法。

10.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至7中任一项所述的语音合成的方法。