CN115985282A

CN115985282A - 语速调整方法、装置、电子设备及可读存储介质

Info

Publication number: CN115985282A
Application number: CN202111199704.2A
Authority: CN
Inventors: 吴梦林
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-04-18
Also published as: WO2023061259A1

Abstract

本公开涉及一种语速调整方法、装置、电子设备及可读存储介质，其中，该方法包括：获取待合成文本，将待合成文本输入至语音合成模型，语音合成模型包括编码网络、注意力网络和解码网络，编码网络将输入的待合成文本转换为声学特征序列；注意力网络用于输出注意力向量，解码网络用于根据注意力向量、声学特征序列以及状态转移控制因子，输出待合成文本对应的目标频谱；通过待合成文本对应的目标频谱，获得具有目标语速的目标音频。通过在语音合成模型中引入状态转移控制因子，利用状态转移控制因子动态地控制待合成文本对应的目标频谱的数量，在语音合成过程中实现灵活的语速调整。且通过本方法合成的音频的声音自然度较高，有利于提升用户体验。

Description

语速调整方法、装置、电子设备及可读存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种语速调整方法、装置、电子设备及可读存储介质。

背景技术

电子设备常常需要对音频进行语速调整，例如，用户使用电子设备播放视频时，常常会以1.25倍、1.5倍、2.0倍等速度进行倍速播放，则需要对视频中的音频进行语速调整，以适应倍速播放。

现有技术中，针对音频的语速调整通常是利用数字信号处理(digital siginalprocessing，DSP)技术，对音频进行丢弃、重采样、插值等处理，从而对音频的时长进行延长或缩短，实现音频的语速调整。然而，采用上述方式，无法实现灵活的语速调整。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语速调整方法、装置、电子设备及可读存储介质。

第一方面，本公开提供了一种语速调整方法，包括：

获取待合成文本；

将所述待合成文本输入至语音合成模型，获取所述语音合成模型输出的所述待合成文本对应的目标频谱；其中，所述语音合成模型包括编码网络、注意力网络以及解码网络，所述编码网络用于将输入的所述待合成文本转换为声学特征序列；所述注意力网络用于输出注意力向量，所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱；所述状态转移控制因子用于控制所述待合成文本对应的目标频谱的数量；

根据所述待合成文本对应的目标频谱，获取目标音频，所述目标音频具有目标语速。

作为一种可能的实施方式，若所述状态转移控制因子小于预设阈值，则所述目标音频的目标语速小于参考语速；

若所述状态转移控制因子大于所述预设阈值，则所述目标音频的目标语速大于所述参考语速；

若所述状态转移控制因子等于所述预设阈值，则所述目标音频的目标语速等于所述参考语速。

作为一种可能的实施方式，所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层；

所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱，包括：

将所述注意力向量与所述声学特征序列进行加权计算，获得当前步的目标向量，将所述当前步的目标向量输入至所述循环神经网络层；

所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量；

将所述当前步的目标状态量输入至所述第一全连接层，获取所述第一全连接层输出的所述当前步的目标频谱；将所述当前步的目标状态量输入至所述第二全连接层，获取所述第二全连接层输出的停止符；

若所述停止符指示未达到所述待合成文本的结束位置，则通过所述线性层提取所述当前步的目标频谱输入至所述注意力网络，以使所述注意力网络更新所述注意力向量；

返回执行将所述注意力向量与所述声学特征序列进行加权计算，获得所述当前步的目标向量，且将所述当前步的目标向量输入至所述循环神经网络层；所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量；以及，将所述当前步的目标状态量输入至所述第一全连接层，获取所述第一全连接层输出的所述当前步的目标频谱；将所述当前步的目标状态量输入至所述第二全连接层，获取所述第二全连接层输出的停止符，直至所述停止符指示达到所述待合成文本的结束位置。

作为一种可能的实施方式，所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量，包括：

根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量进行掩模加权融合，获取所述当前步的目标状态量。

作为一种可能的实施方式，所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量进行掩模加权融合，获取所述当前步的目标状态量，包括：

根据所述目标向量，获取当前步的初始状态量；

根据所述状态转移控制因子生成掩模，根据所述掩模对所述当前步的初始状态量和上一步的目标状态量进行加权融合，获取所述当前步的目标状态量。

作为一种可能的实施方式，所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量之前，所述方法还包括：

更新所述当前步对应的状态转移控制因子的大小。

作为一种可能的实施方式，所述更新所述当前步对应的状态转移控制因子的大小，包括：

根据所述目标语速、所述待合成文本对应的声学特征序列以及所述当前步对应的文本内容的重要性中的一项或多项，更新所述当前步对应的状态转移控制因子的大小。

第二方面，本公开提供了一种语速调整装置，包括：

获取模块，用于获取待合成文本；

频谱特征提取模块，用于将所述待合成文本输入至语音合成模型，获取所述语音合成模型输出的所述待合成文本对应的目标频谱；其中，所述语音合成模型包括编码网络、注意力网络以及解码网络，所述编码网络用于将输入的所述待合成文本转换为声学特征序列；所述注意力网络用于输出注意力向量，所述解码网络用于根据输入的所述注意力向量、声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱；所述状态转移控制因子用于控制所述目标频谱的数量；

音频处理模块，用于根据所述待合成文本对应的目标频谱，获取目标音频，所述目标音频具有目标语速。

作为一种可能的实施方式，若所述状态转移控制因子小于预设阈值，则所述目标音频的目标语速小于参考语速；若所述状态转移控制因子大于所述预设阈值，则所述目标音频的目标语速大于所述参考语速；若所述状态转移控制因子等于所述预设阈值，则所述目标音频的目标语速等于所述参考语速。

频谱特征提取模块，具体用于将所述注意力向量与所述声学特征序列进行加权计算，获得目标向量，且通过所述循环神经网络将所述目标向量分别输入至所述第一全连接层和所述第二全连接层；

所述第一全连接层根据输入的所述目标向量、状态转移控制因子以及已存在的目标频谱，获取当前步的目标频谱；所述第二全连接层根据输入的所述目标向量，获取停止符；

若根据所述停止符确定不满足预设停止条件，则通过所述线性层和所述循环神经网络层，将所述当前步的目标频谱输入至所述注意力网络，以使所述注意力网络更新所述注意力向量；

返回执行将所述注意力向量与所述声学特征序列进行加权计算，获得目标向量，且通过所述循环神经网络将所述目标向量分别输入至所述第一全连接层和所述第二全连接层，以使所述第一全连接层根据输入的所述目标向量、状态转移控制因子以及已存在的目标频谱，获取所述当前步的目标频谱；所述第二全连接层根据输入的所述目标向量，获取所述停止符，直至根据所述停止符确定达到所述停止条件。

作为一种可能的实施方式，频谱特征提取模块，具体用于根据所述目标向量，获取当前步的初始频谱；根据所述状态转移控制因子对所述当前步的初始频谱和所述已存在的目标频谱进行掩模加权融合，获取所述当前步的目标频谱。

作为一种可能的实施方式，频谱特征提取模块，具体用于根据所述状态转移控制因子对所述当前步的初始频谱和上一步的目标频谱进行掩模加权融合，获取所述当前步的目标频谱；所述已存在的目标频谱包括所述上一步的目标频谱。

作为一种可能的实施方式，频谱特征提取模块，还用于更新所述当前步对应的状态转移控制因子的大小。

作为一种可能的实施方式，频谱特征提取模块，具体用于根据所述目标语速、所述待合成文本对应的声学特征序列以及所述当前步对应的文本内容的重要性中的一项或多项，更新所述当前步对应的状态转移控制因子的大小。

第三方面，本公开提供了一种电子设备，包括：存储器和处理器；

所述存储器被配置为存储计算机程序指令；

所述处理器被配置为执行所述计算机程序指令，使得所述电子设备实现如第一方面任一项所述的语速调整方法。

第四方面，本公开提供一种可读存储介质，包括：计算机程序指令；所述计算机程序指令被电子设备的至少一个处理器执行时，使得所述电子设备实现如第一方面任一项所述的语速调整方法。

第五方面，本公开提供一种程序产品，所述程序产品包括：计算机程序指令；所述计算机程序指令存储在可读存储介质中，电子设备从所述可读存储介质获取所述计算机程序指令，所述电子设备的至少一个处理器执行所述计算机程序指令时，使得所述电子设备实现如第一方面任一项所述的语速调整方法。

本公开提供一种语速调整方法、装置、电子设备及可读存储介质，其中，该方法包括：获取待合成文本，将待合成文本输入至语音合成模型，语音合成模型包括编码网络、注意力网络和解码网络，其中，编码网络将输入的待合成文本转换为声学特征序列；注意力网络用于输出注意力向量，解码网络用于根据注意力向量、声学特征序列以及状态转移控制因子，输出待合成文本对应的目标频谱；再通过待合成文本对应的目标频谱，获得具有目标语速的目标音频。本公开，通过在语音合成模型中引入状态转移控制因子，利用状态转移控制因子动态地控制待合成文本对应的目标频谱的数量，从而在语音合成过程中实现灵活的语速调整。且通过本公开提供的方法合成的音频的声音自然度较高，有利于提升用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一实施例提供的语速调整方法的流程图；

图2为本公开一实施例提供的语音合成模型的结构示意图；

图3为本公开另一实施例提供的语音合成模型的结构示意图；

图4为本公开一实施例提供的语速调整装置的结构示意图；

图5为本公开一实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

利用DSP技术对音频进行语速调整时，由于DSP技术只能针对整段音频进行同一速率调节，无法实现不同时刻的语速灵活调整，导致整个音频中的一些音频片段的语速可能并不适合该音频片段。

此外，利用DSP技术进行语速调节，会对有效频谱进行调整，容易导致调整语速后的音频的音调改变，即音色发生了变化，从而导致声音的自然度较低。

基于此，本公开提供一种语速调整方法、装置、电子设备、可读存储介质及计算机程序产品，其中，该方法通过在语音合成模型中引入状态转移控制因子，利用状态转移控制因子控制语音合成模型输出的待合成文本对应的目标频谱的数量，从而在语音合成过程中实现灵活地进行语速调整。且通过本公开提供的方法合成的音频的声音自然度较高，有利于提升用户体验。

本公开提供的语速调整方法可以由电子设备来执行。示例性地，电子设备可以但不限于包括平板电脑、手机(如折叠屏手机、大屏手机等)、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等物联网(the internet of things，IOT)设备等等，本公开对电子设备的具体类型不作任何限制。

下述实施例中，以电子设备执行语速调整方法为例，结合附图以及应用场景，对本公开提供的语速调整方法进行详细介绍。

请参阅图1，图1为本公开一实施例提供的语速调整方法的流程图。如图1所示，本实施例提供的语速调整方法可以包括：

S101、获取待合成文本。

电子设备可以获取用于合成目标音频的待合成文本，待合成文本包括用于合成音频的各元素。其中，待合成文本可以包括用于合成音频的各字符，或者，待合成文本可以包括用于合成音频的各音素。

本公开对于待合成文本的获取方式不做限定，例如，待合成文本可以是用户输入的，也可以是电子设备通过音频识别、翻译等等方式获得的。本公开对于待合成文本的语言种类不做限定，待合成文本可以是中文的，也可以是英文的，当然，也可以是其他语言种类的。此外，本公开对于待合成文本包括元素数量(即文本的长短)、文本内容等其他参数均不做限定。

S102、将待合成文本输入至语音合成模型，获取语音合成模型输出的待合成文本对应的目标频谱。

语音合成模型为预先训练好的能够进行语音合成的机器学习模型，其中，语音合成模型在语音合成的过程中，还能够控制合成的音频的语速。本公开对于语音合成模型的类型、网络结构等等不做限定。

作为一种可能的实施方式，参照图2所示实施例，语音合成模型10可以包括：编码网络11、解码网络12以及注意力网络13，其中，注意力网络13设置在编码网络11和解码网络12之间。

具体地，编码网络11接收待合成文本作为输入，能够通过对待合成文本中的各元素进行不同声学维度的声学特征序列分析，获取每个元素分别对应的声学特征，其中，每个元素对应的声学特征按照各元素的先后顺序构成待合成文本对应的声学特征序列。

上述不同声学维度可以包括但不限于：音调维度、停顿维度、音素之间的关联性、词边界维度等等中的一个或多个维度，本公开对于编码网络11的结构以及将待合成文本转换为声学特征序列的实现方式不做限定。

需要说明的是，若待合成文本包括用于合成音频的字符，则可以将字符先转换为音素，语音合成模型对各音素进行声学特征序列分析，将字符转换为音素可以由语音合成模型执行，也可以由独立于语音合成模型之外的其他模块实现，本公开对此不做限定。若待合成文本包括用于合成音频的音素，则编码网络11可以直接对各音素进行声学特征序列分析。

还需要说明的是，对待合成文本包括的各元素进行声学特征序列分析时，针对每个音素可以通过对位于该音素前后的多个音素进行整体分析，因此，获得的该音素对应的声学特征序列信息是能够体现前后音素之间的上下文信息的。

解码网络12能够根据注意力网络13输入的注意力向量、编码网络11输出的声学特征序列以及状态转移控制因子，输出待合成文本对应的目标频谱。其中，状态转移控制因子用于控制待合成文本对应的目标频谱的数量。

即，本方案中，电子设备可采用具备注意力机制的语音合成模型，基于声学特征序列以及状态转移控制因子，控制语音合成模型输出的待合成文本对应的目标频谱的数量，从而灵活控制合成的目标音频的语速快慢。其中，频谱的数量越多，音频的语速越慢；频谱的数量越少，音频的语速越快。

可选地，目标频谱可以包括：梅尔频谱、BFCC和基频(pitch)信息两者组合、或者频谱包络(spectral envelope)等等任一种或多种类型的频谱。

作为一种可能的实施方式，在语音合成的过程中，状态转移控制因子是可以动态变化，以适应待合成文本中不同语句的语速需求。即，在语音合成的过程中，通过预设的状态转移控制因子更新策略，动态调整状态转移控制因子的大小，从而控制不同的音频片段的发音时长，从而实现在语音合成过程中，针对一些音频片段或者音频位置的语速根据需求相应的语速加快或者减慢。

本公开对于预设的状态转移控制因子更新策略的具体实现方式不做限定。例如，预设的状态转移控制因子更新策略可以与下述一个或多个因素具备关联关系：目标语速(也可以理解为语速调整比例，或者，也可以理解为目标音频的语速与标准语速的差异)、待合成文本对应的声学特征序列、当前步所要表达的文本内容的重要性、当前步所属语句(或者所属段落)的时长情况等等。

示例性地，若目标语速较快，则可以减小状态转移控制因子的大小；若目标语速较慢，则可以增大状态转移控制因子的大小。

示例性地，若根据待合成文本的声学特征序列进行分析，确定当前步对应的声学特征序列信息与当前步之前的声学特征序列关联性较强，则可以针对当前步增大状态转移控制因子的大小；若根据待合成文本的声学特征序列进行分析，确定当前步对应的声学特征序列信息与当前步之后的声学特征序列关联性较强，则可以针对当前步减小状态转移控制因子的大小。

示例性地，若当前步所要表达的文本内容的重要性较高，则可以针对当前步减小状态转移控制因子的大小；若当前步所要表达的文本内容的重要性较低，则可以针对当前步增大状态转移控制因子的大小。

示例性地，若当前步所属语句的时长较长，但文字内容较少，则可以将此处的语速减慢，因此，可以增大状态转移控制因子的大小；若当前步所属语句的时长较短，但文字内容较多，则可以将此处的语速加快，因此，可以减小状态转移控制因子的大小。

S103、根据待合成文本对应的目标频谱，获得目标音频，所述目标音频具有目标语速。

电子设备可以根据待合成文本对应的目标频谱，按照预设播放速率播放，即可获得具有目标语速的目标音频。

本实施例的方法，获取待合成文本，将待合成文本输入至语音合成模型，语音合成模型包括编码网络、注意力网络和解码网络，其中，编码网络将输入的待合成文本转换为声学特征序列；注意力网络用于输出注意力向量，解码网络用于根据注意力向量、声学特征序列以及状态转移控制因子，输出待合成文本对应的目标频谱；再通过待合成文本对应的目标频谱，获得具有目标语速的目标音频。本公开，通过在语音合成模型中引入状态转移控制因子，利用状态转移控制因子动态地控制待合成文本对应的目标频谱的数量，从而在语音合成过程中实现灵活的语速调整。且通过本公开提供的方法合成的音频的声音自然度较高，有利于提升用户体验。

接下来，示例性地对本公开提供的语音合成模型以及解码网络的实现方式进行详细介绍。

请参阅图3，图3为本公开一实施例提供的语音合成模型的结构示意图。在图2所示实施例的基础上，可知，本实施例提供的语音合成模型10可以包括：编码网络11、解码网络12以及注意力网络13。且注意力网络13设置在编码网络11和解码网络12之间。

其中，编码网络11和解码网络12分别包括循环神经网络。

其中，编码网络11可以包括：嵌入层(embedding层)11a、卷积层11b、第一循环神经网络层11c。

编码网络11主要用于接收待合成文本，并利用嵌入层11a将待合成文本包括的各元素转换或者映射为数学向量表达；且将待合成文本包括的各元素对应的数学向量表达输入至卷积层11b进行卷积处理，得到卷积处理后的特征向量；将卷积处理得到的特征向量输出给第一循环神经网络层11c，第一循环神经网络层11c对卷积层11b输出的特征向量进行特征提取、升维等处理，获得每个元素对应的高维的声学特征信息，这些元素分别对应的声学特征信息按照元素的先后顺序拼接在一起，从而获得待合成文本对应的声学特征序列。

其中，嵌入层11a可以如图3所示属于编码网络11中的一部分；在实际应用中，嵌入层11a也可以是独立于编码网络11的一个网络层，设置在编码网络11之前，嵌入层11a是否与编码网络11绑定可根据需求灵活部署。

其中，解码网络12可以包括：第二循环神经网络层12a、第一全连接层12b、第二全连接层12c以及线性层12d(pre-net layer)。

其中，第二循环神经网络层12a主要用于从注意力网络13接收当前步对应的目标向量，且对当前步对应的目标向量进行转换，获取当前步的目标状态量。其中，当前步对应的目标向量是根据注意力网络13输出的注意力向量和待合成文本对应的声学特征序列进行加权计算得到的。

其中，第二循环神经网络层12a可以通过下述方式获得当前步的目标状态量，示例性地，可以包括以下步骤：

步骤(a)对输入的当前步的目标向量进行转换，获得当前步对应的初始状态量。

步骤(b)根据状态转移控制因子生成掩模。

步骤(c)基于掩模对当前步的初始状态量和上一步的目标状态量进行加权处理，获得当前步的目标状态量。

以第二循环神经网络层12a包括LSTM网络为例，每一步对应的目标状态量包括第一目标状态量和第二目标状态量，其中，第一目标状态量可以表示为hidden state，第二目标状态量可以表示为cell state；相应地，当前步的目标状态量，可通过公式(1)表示如下：

公式(1)中，c_t表示当前步的第一目标状态量，h_t表示当前步的第二目标状态量，c_t-1表示上一步的第一目标状态量，h_t-1表示上一步的第二目标状态量，c_t′表示当前步的第一初始状态量，h_t′表示当前步的第二初始状态量，

表示根据当前步对应的状态转移控制因子生成的针对c_t的掩模，

表示根据当前步对应的状态转移控制因子生成的针对h_t的掩模。

需要说明的是，第二循环神经网络层12a在每一步输出的目标状态量与最终输出的该步的目标频谱之间具有对应关系，其中，每一步输出的目标频谱为观测量，该步的目标状态量为解码网络12在进行频谱特征提取的中间隐藏量。

将当前步的目标状态量分别输出至第一全连接层12b和第二全连接层12c。

第二循环神经网络层12a采用LSTM实现时，可将当前步的第一目标状态量分别输出至第一全连接层12b和第二全连接层12c；第二循环神经网络层12a记录当前步的第二目标状态量，用于对下一步的初始状态量的计算。

第一全连接层12b，主要用于将接收到的当前步对应的目标状态转换为当前步对应的目标频谱。本公开对于第一全连接层12b的实现方式不做限定。

第二全连接层12c，用于将接收到的当前步对应的目标状态量转换为一维的停止符(stop token)。本公开对于第二全连接层12c计算获得停止符的计算方式不做限定，例如，第二全连接层12c可以通过对当前步的目标状态量进行加权计算，获得一维的停止符；又如，第二全连接层12c可以通过对当前步的目标状态量进行加权计算，获得加权计算结果，再利用sigmoid函数对加权计算结果进行分类，获得一维的停止符。

其中，停止符用于指示当前步是否达到待合成文本的结束位置，若停止符指示当前步已达到待合成文本的结束位置，则结束针对待合成文本预测目标频谱，若停止符指示当前步未达到待合成文本的结束位置，则需要继续针对待合成文本预测目标频谱。

若停止符指示当前步未达到待合成文本的结束位置，则线性层12d通过从已存在的目标频谱中提取有效信息，且将提取的有效信息传递给注意力网络13，进而使得注意力网络13更新注意力向量并进行下一步的目标频谱的预测。

一种可能的实施方式，线性层12d可以直接将从已存在的目标频谱中提取有效信息，输入至注意力网络13。如图3中带箭头的虚线所示。

另一种可能的实施方式，线性层12d也可以将从已存在的目标频谱中提取有效信息输入至第二循环神经网络层12a，以通过第二循环神经网络层12a将从已存在的目标频谱中提取有效信息传递给注意力网络13。如图3中由第二循环神经网络层12a指向注意力网络13的带箭头的实线所示。

其中，第二循环神经网络层12a可以采用预设算法对从已存在的目标频谱信息中提取的有效信息进行转换，本公开对于预设算法不做限定。当然，第二循环神经网络层12a也可以不对从已存在的目标频谱信息中提取的有效信息进行处理。

其中，线性层12d可以理解为是一种前置的辅助网络层，通过提取已存在的目标频谱中的有效信息，忽略目标频谱中的无效信息。例如，线性层12d可以提取当前步的目标频谱的有效信息，用于预测下一步的目标频谱；或者，线性层12d也可以提取倒数多步分别对应的目标频谱的有效信息，用于预测下一步的目标频谱，本公开对此不作限定。

注意力网络13，主要用于接收第二循环神经网络层12a输出的已存在的目标频谱的有效信息(例如，当前步的目标频谱的有效信息)，且根据接收的目标频谱的有效信息，生成更新注意力向量，更新后的注意力向量与待合成文本对应的声学特征序列进行加权计算，加权计算的结果将作为解码网络12预测下一步的目标频谱的输入。

本方案，通过将注意力向量与声学特征序列进行加权计算，并将加权计算结果传入解码网络12，相当于将声学特征序列的信息以及注意力机制均传递给解码网络12，使得解码网络12在预测目标频谱时，能够确定应该将注意力集中在声学特征序列的哪些相关区域，从而忽略声学特征序列包括的无关特征或者相关性较低的区域。此外，加权计算结果维度较低，有利于减少解码网络12的计算量。

此外，在解码网络12预测第一步的目标频谱时，注意力向量的初始值可以是预设的，或者，还可以是电子设备通过分析待合成文本对应的声学特征序列确定的，本公开对于确定注意力向量的初始值的实现方式不做限定。

还需要说明的是，解码网络12在预测目标频谱时，根据状态转移控制因子对当前步的初始状态量和上一步的目标状态量进行掩模加权融合时，若上一步的目标状态量的作用越大，则当前步的目标状态量与上一步的目标状态量越接近，生成的当前步的目标频谱与上一步的目标频谱也越接近；若上一步的目标频谱的作用越小，则当前步的目标状态量与上一步的目标状态量的差异越大，生成的当前步的目标频谱与上一步的目标频谱差异越大。其中，控制上一步的目标状态量在掩模加权融合时的作用大小则是通过状态转移控制因子实现。

其中，上一步的目标状态量的作用越大，当前步的目标频谱与上一步的目标频谱越接近时，注意力网络13基于线性层12d提取当前步的目标频谱的有效信息作为注意力的查询量，查询到的用于预测下一步的目标频谱的声学特征序列与预测当前步的目标频谱的声学特征序列更为接近，注意力网络生成的注意力向量与上一步的注意力向量较为接近，这表现出来就是在待合成文本的文本位置上移动速度较慢，在文本位置上的移动速度越慢，得到的目标频谱的数量也就越多，进而得到的目标音频的语速越慢；类似地，上一步的目标状态量的作用越小，当前步的目标频谱与上一步的目标频谱差异越大时，注意力网络13基于线性层12d提取当前步的目标频谱的有效信息作为注意力的查询量，查询到的用于预测下一步的目标频谱的声学特征序列与预测当前步的目标频谱的声学特征序列差异越大，注意力网络生成的注意力向量与上一步的注意力向量差异越大，这表现出来就是在待合成文本的文本位置上移动速度较快，在文本位置上的移动速度越快，得到的目标频谱的数量也就越少，进而得到的目标音频的语速越快。通过上述方式，实现了通过状态转移控制因子控制目标频谱的数量，即通过状态转移控制因子控制目标频谱的数量，进而控制目标音频的语速。

作为一种可能的实施方式，第一循环神经网络层11c可以包括长短期记忆人工神经网络(long short term memory，LSTM)、门循环单元(gate recurrent unit，GRU)、简单循环神经网络单元(simple recurrent unit，SRU)等任一类型的循环神经网络。

作为一种可能的实施方式，第二循环神经网络层12a可以包括LSTM、GRU、SRU等等任一类型的循环神经网络。作为一种可能的实施方式，第二循环神经网络层12a可以包括多个循环神经网络，例如图3所示实施例，第二循环神经网络层12a包括依次相连接的两个LSTM网络。

此外，第一循环神经网络层11c和第二循环神经网络层12a还可以包括其他类型的循环神经网络。上述仅是示例，并不是对第一循环神经网络层11c和第二循环神经网络层12a所采用的网络类型的限制。

另外，第一循环神经网络层11c和第二循环神经网络层12a可以采用相同类型的循环神经网络，也可以采用不同类型的循环神经网络，本公开对此不做限定。

在图1至图3所示实施例的基础上，下面通过一具体示例对本公开提供的语速调整方法进行详细介绍。

假设，待合成文本为A，包括N个音素，其中，第一个音素记表示为A₁，第二个音素记表示为A₂，第三个音素记表示为A₃，以此类推，最后一个音素表示为A_N。

结合图2以及图3所示实施例提供的语音合成模型10，将待合成文本A输入至编码网络11中，编码网络11输出的待合成文本A对应的声学特征序列X。编码网络11将待合成文本A转换为声学特征序列X的实现方式可参照前述实施例的描述，简明起见，此处不再赘述。

在预测第一步的目标频谱时，注意力网络13提供的注意力向量的初始值记为S₀，将S₀与声学特征序列X进行加权计算，获得第一步对应的目标向量Y₁，将目标向量Y₁₁输入至解码网络12。

解码网络12的第二循环神经网络层12a通过对目标向量Y₁₁进行转换，获取第一步对应的初始状态量，再通过第一步对应的状态转移控制因子K₁对第一步对应的初始状态量和上一步的目标状态量进行掩模加权融合，输出第一步对应的目标状态量。需要说明的是，在进行第一步的掩模加权融合时，采用的上一步的目标状态量可以为预先设定的，例如，上一步的目标状态量可以为0。

其中，第二循环神经网络层12a包括两层相连接的LSTM时，第一步对应的初始状态量包括第一初始状态量和第二初始状态量，第一步的目标状态量包括第一目标状态量和第二目标状态量，根据掩模分别对第一初始状态量和第二初始状态量进行加权融合，获得第一目标状态量和第二目标状态量，可结合前述公式(1)进行计算，简明起见，此处不再赘述。

假设第一步对应的目标状态量包括第一目标状态量c1和第二目标状态量h1。

将第一步的第二目标状态量h1分别输入至第一全连接层12b和第二全连接层12c。

第一全连接层12b通过对第二目标状态量h1进行转换，输出第一步的目标频谱P₁。

第二全连接层12c通过对第二目标状态量h1进行计算，输出第一步对应的停止符R₁。

示例性地，若第二全连接层12c通过对目标向量Y₁进行加权计算，获得加权计算结果，则加权计算结果即为停止符R₁，若停止符R₁大于或等于预设阈值，则确定停止符指示达到待合成文本的结束位置；若停止符R₁小于预设阈值，则确定停止符指示未达到待合成文本的结束位置。

示例性地，若第二全连接层12c通过对目标向量Y₁进行加权计算，获得加权计算结果，对加权计算结果采用sigmoid函数进行分类，获得的分类结果即为停止符R₁。假设分类结果采用0或1表示，若停止符R₁为1，则确定停止符指示达到待合成文本的结束位置；若停止符R₁为0，则确定停止符指示未达到待合成文本的结束位置。

若停止符R₁指示未达到待合成文本A的结束位置，则线性层12d提取目标频谱P₁的有效信息，并将目标频谱P₁的有效信息传递给注意力网络13。

一种可能的实施方式，线性层12d可以将目标频谱P₁的有效信息直接输入至注意力网络13。另一种可能的实施方式，线性层12d也可以将目标频谱P₁的有效信息输入至第二循环神经网络层12a，以通过第二循环神经网络层12a将目标频谱P₁的有效信息传递给注意力网络13。

其中，第二循环神经网络层12a可以采用预设算法对目标频谱信息P₁的有效信息进行转换，本公开对于预设算法不做限定。当然，第二循环神经网络层12a也可以不对目标频谱信息P₁的有效信息进行处理。

注意力网络13接收目标频谱P₁的有效信息作为查询量，查询声学特征序列X，并输出更新后的注意力向量S₁，将注意力向量S₁与声学特征序列X进行加权计算，获得第二步对应的目标向量Y₂，且将目标向量Y₂输入至解码网络12，以使解码网络12预测第二步对应的目标频谱。

其中，解码网络12预测第二步对应的目标频谱的实现方式与解码网络12预测第一步对应的目标频谱的实现方式类似，此处不再赘述。

假设，第一全连接层12b输出第二步的目标频谱P₂，第二全连接层12c输出第二步对应的停止符R₂。若停止符R₂指示未达到待合成文本A的结束位置，则线性层12d提取目标频谱P₂的有效信息，并将目标频谱P₂的有效信息传递给注意力网络13，以使注意力网络13根据目标频谱P₂的有效信息查询声学特征序列X，输出用于预测第三步的目标频谱的注意力向量S₂。将注意力向量S₂与声学特征序列X进行加权计算，获得第三步对应的目标向量Y₃，且将目标向量Y₃输入至解码网络12，以使解码网络12预测第三步对应的目标频谱P₃。

以此类推，直至停止符指示达到待合成文本A的结束位置，则停止针对待合成文本A预测目标频谱。

在上述过程中，每一步对应的状态转移控制因子可以是动态变化的，从而实现语音合成过程中，灵活控制最终合成的目标音频中不同音频片段的语速。其中，更新每一步对应的状态转移控制因子的实现方式可参照前文中的详细介绍，简明起见，此处不再赘述。

之后，将解码网络12输出的每一步对应的目标频谱按照先后顺序拼接在一起，即为待合成文本A对应的目标频谱，通过将目标频谱按照预设速率播放，即可获得目标语速的目标音频。

本实施例的方法，通过获取待合成文本，将待合成文本输入至语音合成模型，语音合成模型包括编码网络、注意力网络和解码网络，其中，编码网络将输入的待合成文本转换为声学特征序列；注意力网络用于输出注意力向量，解码网络用于根据注意力向量、声学特征序列以及状态转移控制因子，输出目标频谱；再通过目标频谱，获得具有目标语速的目标音频。本公开，通过在语音合成模型中引入状态转移控制因子，利用状态转移控制因子动态地控制目标频谱的数量，从而在语音合成过程中实现灵活的语速调整。且通过本公开提供的方法合成的音频的声音自然度较高，有利于提升用户体验。

示例性地，本公开还提供一种语速调整装置。

图4为本公开一实施例提供的语速调整装置的结构示意图。如图4所示，本实施例提供的语速调整装置400可以包括：

获取模块401，用于获取待合成文本。

频谱特征提取模块402，用于将所述待合成文本输入至语音合成模型，获取所述语音合成模型输出的所述待合成文本对应的目标频谱；其中，所述语音合成模型包括编码网络、注意力网络以及解码网络，所述编码网络用于将输入的所述待合成文本转换为声学特征序列；所述注意力网络用于输出注意力向量，所述解码网络用于根据输入的所述注意力向量、声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱；所述状态转移控制因子用于控制所述目标频谱的数量。

音频处理模块403，用于根据所述待合成文本对应的目标频谱，获取目标音频，所述目标音频具有目标语速。

作为一种可能的实施方式，所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层。

相应地，频谱特征提取模块402，具体用于将所述注意力向量与所述声学特征序列进行加权计算，获得当前步的目标向量，将所述当前步的目标向量输入至所述循环神经网络层；所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量；将所述当前步的目标状态量输入至所述第一全连接层，获取所述第一全连接层输出的所述当前步的目标频谱；将所述当前步的目标状态量输入至所述第二全连接层，获取所述第二全连接层输出的停止符；若所述停止符指示未达到所述待合成文本的结束位置，则通过所述线性层提取所述当前步的目标频谱输入至所述注意力网络，以使所述注意力网络更新所述注意力向量；返回执行将所述注意力向量与所述声学特征序列进行加权计算，获得所述当前步的目标向量，且将所述当前步的目标向量输入至所述循环神经网络层；所述循环神经网络层根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量；以及，将所述当前步的目标状态量输入至所述第一全连接层，获取所述第一全连接层输出的所述当前步的目标频谱；将所述当前步的目标状态量输入至所述第二全连接层，获取所述第二全连接层输出的停止符，直至所述停止符指示达到所述待合成文本的结束位置。

作为一种可能的实施方式，频谱特征提取模块402，具体用于根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量进行掩模加权融合，获取所述当前步的目标状态量。

作为一种可能的实施方式，频谱特征提取模块402，具体用于根据所述目标向量，获取当前步的初始状态量；根据所述状态转移控制因子生成掩模，根据所述掩模对所述当前步的初始状态量和上一步的目标状态量进行加权融合，获取所述当前步的目标状态量。

作为一种可能的实施方式，频谱特征提取模块402，还用于根据当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量之前，更新所述当前步对应的状态转移控制因子的大小。

作为一种可能的实施方式，频谱特征提取模块402，具体用于根据所述目标语速、所述待合成文本对应的声学特征序列以及所述当前步对应的文本内容的重要性中的一项或多项，更新所述当前步对应的状态转移控制因子的大小。

本实施例提供的语速调整装置用于执行上述任一方法实施例提供的技术方案，其实现原理以及技术效果类似，可参照前述方法实施例的详细描述，简明起见，此处不再赘述。

示例性地，本公开还提供一种电子设备。

图5为本公开一实施例提供的电子设备的结构示意图。如图5所示，本实施例提供的电子设备500包括：存储器501和处理器502。

其中，存储器501可以是独立的物理单元，与处理器502可以通过总线503连接。存储器501、处理器502也可以集成在一起，通过硬件实现等。

存储器501用于存储程序指令，处理器502调用该程序指令，执行以上任一方法实施例提供的语速调整方法。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述电子设备500也可以只包括处理器502。用于存储程序的存储器501位于电子设备500之外，处理器502通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器502可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器502还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器501可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

本公开还提供一种计算机可读存储介质(也可以称为可读存储介质)，计算机可读存储介质中包括计算机程序指令，所述计算机程序指令在被电子设备的至少一个处理器执行时，使得电子设备实现以上任一方法实施例提供的语速调整方法。

本公开还提供一种计算机程序产品，所述计算机程序产品包括计算机程序指令，所述计算机程序指令存储在可读存储介质中，所述电子设备的至少一个处理器可以从所述可读存储介质中读取所述计算机程序指令，所述至少一个处理器执行所述计算机程序指令使得所述电子设备实现如上任一方法实施例提供的语速调整方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语速调整方法，其特征在于，包括：

获取待合成文本；

2.根据权利要求1所述的方法，其特征在于，若所述状态转移控制因子小于预设阈值，则所述目标音频的目标语速小于参考语速；

3.根据权利要求1所述的方法，其特征在于，所述解码网络包括第一全连接层、第二全连接层、线性层以及循环神经网络层；

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量进行掩模加权融合，获取所述当前步的目标状态量，包括：

根据所述目标向量，获取当前步的初始状态量；

6.根据权利要求3至5任一项所述的方法，其特征在于，所述根据所述当前步的目标向量、状态转移控制因子以及上一步的目标状态量，获取当前步的目标状态量之前，所述方法还包括：

更新所述当前步对应的状态转移控制因子的大小。

7.根据权利要求6所述的方法，其特征在于，所述更新所述当前步对应的状态转移控制因子的大小，包括：

8.一种语速调整装置，其特征在于，包括：

获取模块，用于获取待合成文本；

频谱特征提取模块，用于将所述待合成文本输入至语音合成模型，获取所述语音合成模型输出的所述待合成文本对应的目标频谱；其中，所述语音合成模型包括编码网络、注意力网络以及解码网络，所述编码网络用于将输入的所述待合成文本转换为声学特征序列；所述注意力网络用于输出注意力向量，所述解码网络用于根据输入的所述注意力向量、所述声学特征序列以及状态转移控制因子，输出所述待合成文本对应的目标频谱；所述状态转移控制因子用于控制所述目标频谱的数量；

9.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器被配置为存储计算机程序指令；

所述处理器被配置为执行所述计算机程序指令，使得所述电子设备实现如权利要求1至7任一项所述的语速调整方法。

10.一种可读存储介质，其特征在于，包括：计算机程序指令；

所述计算机程序指令被电子设备的至少一个处理器执行时，使得所述电子设备实现如权利要求1至7任一项所述的语速调整方法。