CN112382272B

CN112382272B - 可控制语音速度的语音合成方法、装置、设备及存储介质

Info

Publication number: CN112382272B
Application number: CN202011461280.8A
Authority: CN
Inventors: 孙奥兰; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-05-23
Anticipated expiration: 2040-12-11
Also published as: WO2022121187A1; CN112382272A

Abstract

本申请涉及人工智能技术领域，揭示了一种可控制语音速度的语音合成方法、装置、设备及存储介质，其中方法包括：根据待参考的梅尔频谱数据得到待参考的语音风格特征数据；对待合成语音的文本序列和预设语音速度进行状态向量转换得到待合成的状态向量数据；对待参考的语音风格特征数据和待合成的状态向量数据进行线性投影处理得到线性投影后的向量数据；根据待合成语音的文本序列和线性投影后的向量数据进行字符对齐处理得到字符对齐后的向量数据；对字符对齐后的向量数据进行梅尔频谱解码得到目标梅尔频谱数据；对目标梅尔频谱数据进行语音转换得到目标语音数据。实现将语音速度和语音的其他属性解耦合，改变语音速度时不会改变语音的其他属性。

Description

可控制语音速度的语音合成方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种可控制语音速度的语音合成方法、装置、设备及存储介质。

背景技术

现有技术在语音合成的风格控制领域上，通过从一条参考语音中抽取指标，然后采用文本转换语音系统根据抽取的指标生成与参考语音的风格相似的语音。因为语音的各个特征是很难拆分的，所以抽取指标的模型是通过无监督的方式进行训练的，而无监督的训练机制使得训练过程需要有一个具有多种语音风格并且规模较大的风格语音数据集，并且每一种风格的语音数据的数量需要足够充分，导致增加了成本。并且，采用文本转换语音系统根据抽取的指标生成与参考语音的风格相似的语音，在改变语音速度时也会改变语音的其他属性，导致影响了生成的语音的质量。

发明内容

本申请的主要目的为提供一种可控制语音速度的语音合成方法、装置、设备及存储介质，旨在解决现有技术的采用文本转换语音系统根据抽取的参考语音的指标生成与参考语音的风格相似的语音，在改变语音速度时也会改变语音的其他属性，导致影响了生成的语音的质量的技术问题。

为了实现上述发明目的，本申请提出一种可控制语音速度的语音合成方法，所述方法包括：

获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；

对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；

对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；

对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；

根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；

对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；

对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。

进一步的，所述获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据的步骤之前，包括：

获取参考样本对，所述参考样本对包括：参考样本文本序列、参考样本梅尔频谱数据；

根据所述参考样本文本序列进行字符数量计算，得到所述参考样本对对应的字符数量；

根据所述参考样本梅尔频谱数据进行语音总时长计算，得到所述参考样本对对应的语音总时长；

将所述参考样本对对应的字符数量除以所述参考样本对对应的语音总时长，得到所述预设语音速度。

进一步的，所述对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据的步骤，包括：

采用GST编码器对所述待参考的梅尔频谱数据进行语音风格特征提取，得到所述待参考的语音风格特征数据。

进一步的，所述对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据的步骤，包括：

对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据；

采用文本编码器对所述嵌入拼接后的向量数据进行状态向量转换，得到所述待合成的状态向量数据。

进一步的，所述对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据的步骤，包括：

对所述待合成语音的文本序列进行字符数量计算，得到所述待合成语音的文本序列对应的目标字符数量；

采用所述目标字符数量将所述预设语音速度进行嵌入向量扩充，得到所述预设语音速度对应的嵌入向量数据；

对所述待合成语音的文本序列进行编码转换，得到所述待合成语音的文本序列对应的编码向量；

将所述预设语音速度对应的嵌入向量数据和所述待合成语音的文本序列对应的编码向量进行依次拼接，得到所述嵌入拼接后的向量数据。

进一步的，所述对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据的步骤包括：

将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接，得到待投影处理的向量数据；

采用全连接层对所述待投影处理的向量数据进行编码及维度变换，得到所述线性投影后的向量数据。

进一步的，所述根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据的步骤，包括：

采用注意力机制基于所述待合成语音的文本序列对所述线性投影后的向量数据进行字符对齐处理，得到所述字符对齐后的向量数据。

本申请还提出了一种可控制语音速度的语音合成装置，所述装置包括：

数据获取模块，用于获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；

语音风格特征提取模块，用于对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；

状态向量转换模块，用于对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；

线性投影处理模块，用于对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；

字符对齐处理模块，用于根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；

梅尔频谱解码模块，用于对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；

语音转换模块，用于对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的可控制语音速度的语音合成方法、装置、设备及存储介质，通过首先对待合成语音的文本序列和预设语音速度进行状态向量转换得到待合成的状态向量数据，以及对待参考的梅尔频谱数据进行语音风格特征提取得到待参考的语音风格特征数据，其次对待参考的语音风格特征数据和待合成的状态向量数据进行线性投影处理得到线性投影后的向量数据，然后根据待合成语音的文本序列和线性投影后的向量数据进行字符对齐处理得到字符对齐后的向量数据，最后对字符对齐后的向量数据进行梅尔频谱解码得到目标梅尔频谱数据，对目标梅尔频谱数据进行语音转换得到目标语音数据，从而实现将语音速度和语音的其他属性解耦合，改变语音速度时不会改变语音的其他属性，提高了生成的语音数据的质量。

附图说明

图1为本申请一实施例的可控制语音速度的语音合成方法的流程示意图；

图2为本申请一实施例的可控制语音速度的语音合成方法装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决了现有技术的采用文本转换语音系统根据抽取的参考语音的指标生成与参考语音的风格相似的语音，在改变语音速度时也会改变语音的其他属性，导致影响了生成的语音的质量的技术问题，本申请提出了一种可控制语音速度的语音合成方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的语音处理技术领域。所述可控制语音速度的语音合成方法通过先预设的语音速度和文本序列进行状态向量转换，以及，根据参考的梅尔频谱数据进行语音风格特征提取，然后对状态向量转换结果和语音风格特征提取结果进行线性投影处理，将线性投影处理进行字符对齐处理、梅尔频谱解码、语音转换得到目标语音数据，目标语音数据是采用了参考的梅尔频谱数据的语音风格特征并采用了预设的语音速度，从而实现将语音速度和语音的其他属性解耦合，改变语音速度时不会改变语音的其他属性，提高了生成的语音数据的质量。

参照图1，本申请实施例中提供一种可控制语音速度的语音合成方法，所述方法包括：

S1：获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；

S2：对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；

S3：对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；

S4：对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；

S5：根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；

S6：对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；

S7：对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。

本实施例通过首先对待合成语音的文本序列和预设语音速度进行状态向量转换得到待合成的状态向量数据，以及对待参考的梅尔频谱数据进行语音风格特征提取得到待参考的语音风格特征数据，其次对待参考的语音风格特征数据和待合成的状态向量数据进行线性投影处理得到线性投影后的向量数据，然后根据待合成语音的文本序列和线性投影后的向量数据进行字符对齐处理得到字符对齐后的向量数据，最后对字符对齐后的向量数据进行梅尔频谱解码得到目标梅尔频谱数据，对目标梅尔频谱数据进行语音转换得到目标语音数据，从而实现将语音速度和语音的其他属性解耦合，改变语音速度时不会改变语音的其他属性，提高了生成的语音数据的质量。

对于S1，可以获取用户输入的待合成语音的文本序列，也可以是第三方应用系统发送的待合成语音的文本序列。

可以获取用户输入的待参考的梅尔频谱数据，也可以是第三方应用系统发送的待参考的梅尔频谱数据，还可以从数据库中获取的待参考的梅尔频谱数据。

可以获取用户输入的预设语音速度，也可以是第三方应用系统发送的预设语音速度，还可以从数据库中获取的预设语音速度。可以理解的是，还可以将预设语音速度写入实现本申请的软件程序中。

待合成语音的文本序列，是需要采用预设语音速度并参考待参考的梅尔频谱数据的风格生成语音的文本序列。

可选的，待合成语音的文本序列是待合成语音的文本对应的字符转化得到的字符表示向量。比如，中文是“您好”的拼音及声调对应的字符是nin2hao3，则您好对应的待合成语音的文本序列为：[nin2hao3]，[nin2hao3]就是字符表示向量，在此举例不做具体限定。

预设语音速度，是指每秒语音对应的字符数量。

待参考的梅尔频谱数据，是对待参考的语音数据进行转换得到的梅尔频谱数据。

对于S2，对所述待参考的梅尔频谱数据的语音风格特征进行提取，将提取得到的语音风格特征作为待参考的语音风格特征数据。

语音风格特征，是指语音风格特征。语音风格特征用于表征一个人的说话风格、说话特点或者语言表现力。语音风格特征一般是指与时长和韵律起伏相关性较高的时长韵律特征、基频特征、能量特征中的至少一种。所述时长韵律特征一般包括某个字/词的时长、停顿、是否重音等特征。基频特征，通过基音周期描述，基音周期(Pitch)是声带振动频率的倒数，基音周期指的是人发出浊音时气流通过声道促使声带振动的周期，声带震动的周期即为基音周期，基音周期的估计称为基音检测(Pitch Detection)。能量特征，是指声音的能量。

对于S3，将所述待合成语音的文本序列和所述预设语音速度先进行嵌入拼接处理，然后再进行状态向量转换，将得到的状态向量作为待合成的状态向量数据，从而将不同的嵌入向量与待合成语音的文本序列共同进行编码之后转换为状态向量。

对于S4，先将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接，对拼接的结果进行线性投影处理，得到线性投影后的向量数据，从而使所述待参考的语音风格特征数据融入所述待合成的状态向量数据。

对于S5，将所述线性投影后的向量数据按所述待合成语音的文本序列中每个文字进行字符对齐处理，将字符对齐处理后的所述线性投影后的向量数据作为字符对齐后的向量数据，从而为进行梅尔频谱解码提供了基础。

对于S6，采用音频解码器对所述字符对齐后的向量数据进行梅尔频谱解码，将梅尔频谱解码得到的梅尔频谱作为目标梅尔频谱数据。

音频解码器的实现方法可以从现有技术中选择，在此不做赘述。

对于S7，采用文本转换语音系统对所述目标梅尔频谱数据进行语音转换，将语音转换得到的语音作为待合成语音的文本序列对应的目标语音数据。

可以理解的是，可以基于Tacotron模型训练得到语音合成模型以用于实现步骤S2至步骤S7的方法步骤。

在一个实施例中，上述获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据的步骤之前，包括：

S011：获取参考样本对，所述参考样本对包括：参考样本文本序列、参考样本梅尔频谱数据；

S012：根据所述参考样本文本序列进行字符数量计算，得到所述参考样本对对应的字符数量；

S013：根据所述参考样本梅尔频谱数据进行语音总时长计算，得到所述参考样本对对应的语音总时长；

S014：将所述参考样本对对应的字符数量除以所述参考样本对对应的语音总时长，得到所述预设语音速度。

本实施例实现了基于参考样本对确定预设语音速度，从而有利于用户直观的了解语音速度，满足了用户个性化的需求，提高了用户体验。

对于S011，可以获取用户输入的参考样本对，也可以是第三方应用系统发送的参考样本对，还可以从数据库中获取的参考样本对。

参考样本文本序列，是希望参考语音数据对应的文本的字符表示向量。

参考样本梅尔频谱数据，是参考样本文本序列对应的梅尔频谱。

对于S012，对所述参考样本文本序列进行字符数量计算，将计算得到的字符数量作为所述参考样本对对应的字符数量。

比如，参考样本文本序列为：[nin2hao3]，则所述参考样本对对应的字符数量为8，在此举例不做具体限定。

对于S013，根据所述参考样本梅尔频谱数据进行语音总时长计算的方法可以从现有技术中选择，在此不做赘述。

对于S014，将所述参考样本对对应的字符数量除以所述参考样本对对应的语音总时长，将相除的结果作为所述参考样本对对应的所述预设语音速度。

比如，所述参考样本对对应的字符数量为8，所述参考样本对对应的语音总时长为1秒，8除以1得到8，则所述参考样本对对应的所述预设语音速度为：8(也就是每秒8个字符)，在此举例不做具体限定。

在一个实施例中，上述对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据的步骤，包括：

本实施例实现了对待参考的梅尔频谱数据进行语音风格特征提取，从而实现了将语音速度和语音的其他属性解耦合。

GST(风格)编码器，也就是风格编码器。风格编码器会无监督的学习风格特征。可以理解的是，风格编码器不需学习语音速度。

采用GST编码器对所述待参考的梅尔频谱数据进行语音风格特征提取，将提取得到的语音风格特征作为所述待参考的语音风格特征数据。可以理解的是，所述待参考的语音风格特征数据是向量数据。

在一个实施例中，上述对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据的步骤，包括：

S31：对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据；

S32：采用文本编码器对所述嵌入拼接后的向量数据进行状态向量转换，得到所述待合成的状态向量数据。

本实施例实现了将根据预设语音速度确定的嵌入向量与待合成语音的文本序列共同进行编码以实现转换为状态向量，从而使所述待合成语音的文本序列和所述预设语音速度进行融合。

对于S31，根据所述预设语音速度确定嵌入向量，将得到的嵌入向量与所述待合成语音的文本序列进行拼接，得到嵌入拼接后的向量数据。

对于S32，文本编码器的实现方法可以从现有技术中选择，在此不做赘述。

比如，待合成语音的文本序列为：[nin2hao3]，所述预设语音速度为8，文本编码器对所述嵌入拼接后的向量数据进行状态向量转换，得到维度为[8,512](也就是8行512列的向量)的隐状态向量，在此举例不做具体限定。

在一个实施例中，上述对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据的步骤，包括：

S311：对所述待合成语音的文本序列进行字符数量计算，得到所述待合成语音的文本序列对应的目标字符数量；

S312：采用所述目标字符数量将所述预设语音速度进行嵌入向量扩充，得到所述预设语音速度对应的嵌入向量数据；

S313：对所述待合成语音的文本序列进行编码转换，得到所述待合成语音的文本序列对应的编码向量；

S314：将所述预设语音速度对应的嵌入向量数据和所述待合成语音的文本序列对应的编码向量进行依次拼接，得到所述嵌入拼接后的向量数据。

本实施例实现了对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，从而实现了将不同的嵌入向量与待合成语音的文本序列共同进行编码。

对于S311，对所述待合成语音的文本序列的每个字符进行数量计算，将计算得到的数量作为所述待合成语音的文本序列对应的目标字符数量。

比如，待合成语音的文本序列为：[nin2hao3]，所述待合成语音的文本序列对应的目标字符数量为8，在此举例不做具体限定。

对于S312，将所述目标字符数量作为嵌入向量的列数，将所述预设语音速度作为嵌入向量的元素值，将扩充得到的嵌入向量作为所述预设语音速度对应的嵌入向量数据。

比如，所述待合成语音的文本序列对应的目标字符数量为8，所述预设语音速度为8，则所述预设语音速度对应的嵌入向量数据为[8,8,8,8,8,8,8,8](也就是1*8的向量)，在此举例不做具体限定。

比如，所述待合成语音的文本序列对应的目标字符数量为8，所述预设语音速度为6，则所述预设语音速度对应的嵌入向量数据为[6,6,6,6,6,6,6,6](也就是1*8的向量)，在此举例不做具体限定。

对于S313，将所述待合成语音的文本序列中每个字符在字符表中查找到编码，根据查找到的编码作为所述待合成语音的文本序列对应的编码向量。

比如，待合成语音的文本序列为：nin2hao3，所述待合成语音的文本序列对应的编码向量为[14,12,14,29,8,1,15,20](也就是1*8的向量)，在此举例不做具体限定。

对于S314，比如，所述预设语音速度对应的嵌入向量数据为[8,8,8,8,8,8,8,8]，所述待合成语音的文本序列对应的编码向量为[14,12,14,29,8,1,15,20]，所述嵌入拼接后的向量数据为[8,8,8,8,8,8,8,8][14,12,14,29,8,1,15,20](也就是2*8的向量)，在此举例不做具体限定。

在一个实施例中，上述对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据的步骤包括：

S41：将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接，得到待投影处理的向量数据；

S42：采用全连接层对所述待投影处理的向量数据进行编码及维度变换，得到所述线性投影后的向量数据。

本实施例实现了将所述待参考的语音风格特征数据投影到所述待合成的状态向量数据中，从而使所述待参考的语音风格特征数据融入所述待合成的状态向量数据。

对于S41，保持向量行数不变的情况下将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接，将拼接得到的向量作为待投影处理的向量数据。

比如，所述待参考的语音风格特征数据是[8,512](也就是8*512的向量)的隐状态向量，所述待合成的状态向量数据是[8,128](也就是8*128的向量)，将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接得到[8,640](也就是8*640的向量)的向量，待投影处理的向量数据是[8,640]，在此举例不做具体限定。

对于S42，比如，待投影处理的向量数据是[8,640]，采用全连接层对所述待投影处理的向量数据进行编码及维度变换得到[8,1024](也就是8*1024的向量)，在此举例不做具体限定。

在一个实施例中，上述根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据的步骤，包括：

本实施例实现了根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，从而为后续进行进行梅尔频谱解码提供了基础。

采用注意力机制将所述线性投影后的向量数据根据所述待合成语音的文本序列中每个字符进行对齐，将字符对齐处理的所述线性投影后的向量数据作为所述字符对齐后的向量数据。

参照图2，本申请还提出了一种可控制语音速度的语音合成装置，所述装置包括：

数据获取模块100，用于获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；

语音风格特征提取模块200，用于对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；

状态向量转换模块300，用于对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；

线性投影处理模块400，用于对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；

字符对齐处理模块500，用于根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；

梅尔频谱解码模块600，用于对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；

语音转换模块700，用于对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。

在一个实施例中，所述装置还包括：预设语音速度确定模块；

所述预设语音速度确定模块，用于获取参考样本对，所述参考样本对包括：参考样本文本序列、参考样本梅尔频谱数据，根据所述参考样本文本序列进行字符数量计算，得到所述参考样本对对应的字符数量，根据所述参考样本梅尔频谱数据进行语音总时长计算，得到所述参考样本对对应的语音总时长，将所述参考样本对对应的字符数量除以所述参考样本对对应的语音总时长，得到所述预设语音速度。

在一个实施例中，所述语音风格特征提取模块200包括：风格特征提取子模块；

所述风格特征提取子模块，用于采用GST编码器对所述待参考的梅尔频谱数据进行语音风格特征提取，得到所述待参考的语音风格特征数据。

在一个实施例中，所述状态向量转换模块300包括：嵌入拼接处理子模块、状态向量转换子模块；

所述嵌入拼接处理子模块，用于对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据；

所述状态向量转换子模块，用于采用文本编码器对所述嵌入拼接后的向量数据进行状态向量转换，得到所述待合成的状态向量数据。

在一个实施例中，所述嵌入拼接处理子模块包括：字符数量计算单元、嵌入向量扩充单元、编码转换单元、嵌入拼接后的向量数据确定单元；

所述字符数量计算单元，用于对所述待合成语音的文本序列进行字符数量计算，得到所述待合成语音的文本序列对应的目标字符数量；

所述嵌入向量扩充单元，用于采用所述目标字符数量将所述预设语音速度进行嵌入向量扩充，得到所述预设语音速度对应的嵌入向量数据；

所述编码转换单元，用于对所述待合成语音的文本序列进行编码转换，得到所述待合成语音的文本序列对应的编码向量；

所述嵌入拼接后的向量数据确定单元，用于将所述预设语音速度对应的嵌入向量数据和所述待合成语音的文本序列对应的编码向量进行依次拼接，得到所述嵌入拼接后的向量数据。

在一个实施例中，所述线性投影处理模块400包括：待投影处理的向量数据确定子模块、编码及维度变换子模块；

所述待投影处理的向量数据确定子模块，用于将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接，得到待投影处理的向量数据；

所述编码及维度变换子模块，用于采用全连接层对所述待投影处理的向量数据进行编码及维度变换，得到所述线性投影后的向量数据。

在一个实施例中，所述字符对齐处理模块500包括：字符对齐处理子模块；

所述字符对齐处理子模块，用于采用注意力机制基于所述待合成语音的文本序列对所述线性投影后的向量数据进行字符对齐处理，得到所述字符对齐后的向量数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存可控制语音速度的语音合成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种可控制语音速度的语音合成方法。所述可控制语音速度的语音合成方法，包括：获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种可控制语音速度的语音合成方法，包括步骤：获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。

上述执行的可控制语音速度的语音合成方法，通过首先对待合成语音的文本序列和预设语音速度进行状态向量转换得到待合成的状态向量数据，以及对待参考的梅尔频谱数据进行语音风格特征提取得到待参考的语音风格特征数据，其次对待参考的语音风格特征数据和待合成的状态向量数据进行线性投影处理得到线性投影后的向量数据，然后根据待合成语音的文本序列和线性投影后的向量数据进行字符对齐处理得到字符对齐后的向量数据，最后对字符对齐后的向量数据进行梅尔频谱解码得到目标梅尔频谱数据，对目标梅尔频谱数据进行语音转换得到目标语音数据，从而实现将语音速度和语音的其他属性解耦合，改变语音速度时不会改变语音的其他属性，提高了生成的语音数据的质量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种可控制语音速度的语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据的步骤之前，包括：

3.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据的步骤，包括：

4.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据的步骤，包括：

5.根据权利要求4所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据的步骤，包括：

6.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据的步骤包括：

7.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据的步骤，包括：

8.一种可控制语音速度的语音合成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。