CN115410550A

CN115410550A - 一种细粒度韵律可控的情感语音合成方法、系统及存储介质

Info

Publication number: CN115410550A
Application number: CN202211048863.7A
Authority: CN
Inventors: 柯登峰; 邓雅月; 李雅; 谢海山; 潘镭; 郭勇
Original assignee: Individual
Current assignee: Beijing Hearing Technology Co ltd
Priority date: 2022-06-02
Filing date: 2022-08-30
Publication date: 2022-11-29
Anticipated expiration: 2042-08-30
Also published as: CN115410550B

Abstract

本发明提供一种细粒度韵律可控的情感语音合成方法、系统及存储介质，该方法包括，将拼音序列输入第一编码模型得到文本隐藏向量序列，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列；梅尔语谱图输入到第三编码模型得到情感表示向量；将前一帧的声学特征序列进行非线性变换得到中间特征向量；将情感表示向量和中间特征向量相加输入到第一循环神经网络中，得到第一隐藏状态序列；计算能量值，利用递推算法得到当前帧的对齐向量；进行加权求和得到上下文向量；输入到第二循环神经网络中，得到第二隐藏状态序列；输入到第一线性映射层，得到当前帧的声学特征序列，输入到声码器，得到预测的当前帧的语音波形，输出最终的语音数据。

Description

一种细粒度韵律可控的情感语音合成方法、系统及存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种细粒度韵律可控的情感语音合成方法、系统及存储介质。

背景技术

语音合成(Speech synthesis)也被称为文本到语音(Text-to-Speech,TTS)，主要任务是将输入文本转换为输出语音。语音合成技术作为现代人机交互系统不可缺少的组成部分，帮助用户更容易、更直观地获得智能机器的输出，能够使虚拟世界更好的趋向真实，从而受到越来越多的关注。

早期的传统语音合成系统包含多个模块，由文本到音素网络、音频分割网络、音素持续时间预测网络、基频预测网络和声码器组成。每一个模块的构建都需要耗费大量的专家知识，同时需要进行复杂的工程实现。此外，由于模块的堆叠，模块与模块间的结果传递会导致错误的积累使得模型难以训练。在此背景下，自回归的端到端语音合成技术作为一种简化人工干预，减少专家知识和简化流水线流程的语音合成技术被提出来。自回归的端到端语音合成主要包括四个部分：编码器，负责将文本编码为文本隐藏向量序列，提取文本的有效信息，方便注意力机制进行学习；注意力机制，负责学习从文本序列到声学特征序列之间的对齐；解码器，依据对齐结果自回归地解码出声学特征；声码器，将声学特征转化为语音波形。

自回归的端到端语音合成已经能够合成接近人类语音的语音，但是由于注意力对齐训练困难，同时在推理阶段的误差积累，时常会导致重复，跳字的情况出现，极大降低了合成语音的自然度和真实度。除了自然度和真实度上的影响外，在自回归语音合成中，注意力对齐是每个字素的持续时间，也同样影响着合成语速的快慢，因此，现有技术的语音合成方法自然度和真实度较差。

发明内容

鉴于此，本发明的实施例提供了一种细粒度韵律可控的情感语音合成方法、系统及存储介质，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的第一方面提供了一种细粒度韵律可控的情感语音合成方法，所述方法的步骤包括：

获取初始文本数据，将初始文本数据转化为对应的拼音序列，将初始文本数据的拼音序列输入第一编码模型得到文本隐藏向量序列，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列；

将预设的参考音频的梅尔语谱图输入到第三编码模型，得到情感表示向量；

将前一帧的声学特征序列输入预设的预处理模型进行非线性变换，得到中间特征向量；

将所述情感表示向量和中间特征向量相加输入到第一循环神经网络中，得到第一隐藏状态序列；

基于第一隐藏状态序列与文本隐藏向量序列计算能量值，将能量值和韵律向量序列输入注意力机制利用递推算法得到当前帧的对齐向量；

将对齐向量与文本隐藏向量序列进行加权求和得到上下文向量；

将所述上下文向量与第一隐藏状态序列输入到第二循环神经网络中，得到第二隐藏状态序列；

将第二隐藏状态序列输入到第一线性映射层，得到预测的当前帧的声学特征序列，将声学特征序列输入到声码器，得到当前帧的语音波形，组合全部帧的语音波形，输出最终的语音数据。

采用上述方案，本发明的注意力机制中能量值是通过计算转移概率的方式融入对齐的计算中，而不是简单地进行softmax将值域归一化到0和1之间，当前帧的对齐关注到的文本隐藏向量只可能是从上一解码帧关注的文本隐藏向量或者再下一个文本隐藏向量，因此保证对齐是单调而连续地移动，而不容易跳过任何文本隐藏向量，提高了合成语音的自然度和可懂度，缓解了对齐不匹配而造成的重复，跳字，注意力崩溃的问题，提高语音合成方法自然度和真实度。

除了上述合成鲁棒性的提高外，本发明的注意力机制实现韵律可控的方式，是在计算文本到语音的对齐时，通过注入韵律向量序列来控制对齐权重分布，从而实现韵律节奏自然地控制。本发明的注意力机制算法对合成鲁棒性以及韵律可控性两方面都有良好的提升。

在本发明的一些实施方式中，将初始文本数据转化为对应的拼音字符的步骤包括；

获取所述初始文本数据的每个字，在预设的第一匹配库中为每个字匹配对应的拼音字符，根据初始文本数据中字的顺序将拼音字符连接为拼音序列。

在本发明的一些实施方式中，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列的步骤包括：

通过强制对齐方法获取文本中每个字素对应持续时间，按照持续时间长短对字素进行三类等级的划分：持续时间小于第一时间长度的字素标记为快速字素，持续时间中等的字素标记为正常字素，持续时间在第二时间长度以上的字素标记为慢速字素，其中，所述第二时间长度大于所述第一时间长度；

将每个字素按照持续时间进行等级划分后，基于输入的字素序列得到等长的持续时间等级序列；

根据预设的第二匹配库，将持续时间等级序列转换为韵律向量序列。

在本发明的一些实施方式中，根据如下公式，基于第一隐藏状态序列与文本隐藏向量序列计算能量值：

e_i，j＝Tanh(s_i+h_j)

其中，e_i,j表示第i帧的第j个字素的能量值，s_i表示第i帧的第一隐藏状态序列，h_j表示第j个字素的文本隐藏向量序列，Tanh表示双曲正切函数。

在本发明的一些实施方式中，将能量值和韵律向量序列输入注意力机制利用递推算法得到当前帧的对齐向量的步骤包括：

将能量值与所述韵律向量序列相加，并通过线性投影层，得到第一转移概率；

将所述第一转移概率通过sigmoid激活函数进行处理，得到第二转移概率；

基于第二转移概率和上一帧的对齐向量计算当前帧的对齐向量。

其中，第一转移概率可表示为：

其中，

表示第i帧的第j个字素对应的位置的第一转移概率，DNN表示线性投影层，l_i,j表示第i帧的第j个字素对应的位置的韵律向量序列。

第二转移概率可表示为：

其中，w_i,j表示第i帧的第j个字素对应的位置的第二转移概率，sigmoid()表示sigmoid激活函数。

在本发明的一些实施方式中，根据如下公式，基于第二转移概率和上一帧的对齐向量计算当前帧的对齐向量：

a_i,j＝(1-w_i,j)a_i-1,j+w_i,j a_i-1,j-1；

其中，a_i,j表示第i个帧的对齐向量中第j个字素对应的位置的值，w_i,j表示第i个帧的对齐向量中第j个字素对应的位置的第二转移概率，a_i-1,j表示第i-1个帧的对齐向量中第j个字素对应的位置的值，a_i-1,j-1表示第i-1个帧的对齐向量中第j-1个字素对应的位置的值。

在本发明的一些实施方式中，根据如下公式，将对齐向量与文本隐藏向量序列进行加权求和得到上下文向量：

其中，c_i表示第i个帧的上下文向量，a_i,j表示当前第i个帧的对齐向量中第j个字素对应的位置的值，h_j表示第j个字素的文本隐藏向量序列。

在本发明的一些实施方式中，将声学特征序列输入到声码器的步骤包括：

将声学特征序列通过PostNet网络，将PostNet网络输出的序列与初始的声学特征序列相加，得到更新后的声学特征序列。

本发明的第二方面提供了一种细粒度韵律可控的情感语音合成系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现上述方法的步骤。

本发明的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现上述方法的步骤。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为本发明细粒度韵律可控的情感语音合成方法第一种实施方式的示意图；

图2为本发明细粒度韵律可控的情感语音合成方法的实施结构示意图；

图3为由声学特征到梅尔语谱图的转化示意图；

图4为本发明细粒度韵律可控的情感语音合成系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

为解决现有技术中存在的问题，如图1和图2所示，本发明提出一种细粒度韵律可控的情感语音合成方法，所述方法的步骤包括，

步骤S100，获取初始文本数据，将初始文本数据转化为对应的拼音序列，将初始文本数据的拼音序列输入第一编码模型得到文本隐藏向量序列，将初始文本数据和拼音序列成对输入第二编码模型得到韵律向量序列。

在本发明的一些实施方式中，文本隐藏向量序列可以为16*512维度的矩阵，512是特征通道的大小，16为序列长度；韵律向量序列为16*256维矩阵，256是特征通道的大小，16为序列长度。

在本发明的一些实施方式中，所述第一编码模型由tacotron模型中的Convolution bank和双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)构成。

作为示例，若所述初始文本数据为“虽然早已须发皆白”则对应拼音序列为“suei1r an2 z ao3 y i3 x v1 f a4 j ie1 b ai2”，上述拼音序列中的数字用于表示声调。

在本发明的一些实施方式中，所述拼音序列可以通过python的pypinyin获得。

在本发明的一些实施方式中，所述第二编码模型包括蒙特利尔强制对齐器(Montreal Forced Aligner，MFA)模块和查找表(lookuptable)模块。

如图3所示，步骤S200，将预设的参考音频的梅尔语谱图输入到第三编码模型，得到情感表示向量；

在本发明的一些实施方式中，所述情感表示向量可以为1*256维的向量。

在本发明的一些实施方式中，所述预设的参考音频预设有多个，将多个预设的参考音频中任一个的梅尔语谱图输入到第三编码模型中。

在本发明的一些实施方式中，所述第三编码模型包括全局风格令牌(globalstyle tokens，GSTs)模型中的参考编码器(reference encoder)和全局风格令牌(GSTs)模型中的风格令牌层(style tokens layer)。

采用上述方案，参考编码器由两维的卷积银行后接单层单向的门控循环单元(GRU)组成。将参考语音的梅尔谱转换为定长的嵌入向量，并且将其作为查询送入多头注意力层。在多头注意力层中，使用预先初始化的风格令牌序列作为关键词，利用多头注意力机制计算参考语音的定长嵌入向量和每一个风格令牌的相似度。最后根据相似度得分，风格令牌序列进行加权求和生成情感表示向量。

步骤S300，将前一帧的声学特征序列输入预设的预处理模型进行非线性变换，得到中间特征向量。

在本发明的一些实施方式中，所述预处理模型为Tacotron2系统中的PreNet模块，但本发明并不限于此。

在本发明的一些实施方式中，本方案为循环逻辑，根据前一帧的声学特征序列计算下一帧的声学特征序列，若当前帧为第一帧，则将预设的初始声学特征序列带入计算。

步骤S400，将所述情感表示向量和中间特征向量相加输入到第一循环神经网络中，得到第一隐藏状态序列；

在本发明的一些实施方式中，所述第一循环神经网络用语对情感表示向量和中间特征向量进行矩阵运算相加后的向量进行矩阵运算和非线性变换，输出第一隐藏状态序列。

步骤S500，基于第一隐藏状态序列与文本隐藏向量序列计算能量值，将能量值和韵律向量序列输入注意力机制利用递推算法得到当前帧的对齐向量。

采用上述方案，在细粒度韵律可控的注意力机制中，当前解码时间步的对齐权值一部分以的概率来源于上一解码时间步对齐关注的文本隐藏特征，另一部分权值以的概率来源于下一个文本隐藏特征，同时，概率受到韵律表示向量的约束，以此来控制合成语音的韵律节奏。

本发明除了上一帧的声学特征和文本隐藏特征序列作为输入外，注意力机制还额外地利用韵律信息作为输入，影响对齐转移概率的值从而为外部的韵律控制提供了渠道，可以实现细粒度的韵律节奏控制。

步骤S600，将对齐向量与文本隐藏向量序列进行加权求和得到上下文向量。

步骤S700，将所述上下文向量与第一隐藏状态序列输入到第二循环神经网络中，得到第二隐藏状态序列。

在本发明的一些实施方式中，所述第二循环神经网络用于对所述上下文向量与第一隐藏状态序列进行矩阵运算和非线性变换，输出第二隐藏状态序列。

步骤S800，将第二隐藏状态序列输入到第一线性映射层，得到预测的当前帧的声学特征序列，将声学特征序列输入到声码器，得到当前帧的语音波形，组合全部帧的语音波形，输出最终的语音数据。

在本发明的一些实施方式中，所述声码器可以为MelGAN声码器。

在本发明的一些实施方式中，在将声学特征序列输入到声码器之前，将声学特征序列通过PostNet网络进行处理，将处理后的声学特征序列输入到声码器，所述PostNet网络为Tacotron2系统中的PostNet网络。

采用上述方案，本发明的注意力机制中能量值是通过计算转移概率的方式融入对齐的计算中，而不是简单地进行softmax将值域归一化到0和1之间，当前帧的对齐关注到的文本隐藏向量只可能是从上一解码帧关注的文本隐藏向量或者再下一个文本隐藏向量，因此保证对齐是单调而连续地移动，而不容易跳过任何文本隐藏向量，提高了合成语音的自然度和可懂度，缓解了对齐中的文本与声学帧不匹配造成的重复，跳字，注意力崩溃的问题，提高语音合成方法自然度和真实度。

在本发明的一些实施方式中，外部韵律表示，是通过对真实语音进行强制对齐音频和音素后提取每个字素的持续时间信息得到。具体地，由于MFA模块提取到的持续时间是浮点数，因此本发明将其按照长短快慢进行三分类。持续时间小于0.09秒的标记为等级1，持续时间在0.09到0.14秒之间的标记为等级2，持续时间在0.14秒以上的标记为等级3。将每个字素的持续信息按照等级进行分类后，可以对于输入的字素序列得到等长的持续时间等级序列。

在本发明的一些实施方式中，所述细粒度韵律可控的情感语音合成方法的步骤还包括，将第二隐藏状态序列输入到第二线性映射层，输出停止参数，将停止参数与预设的停止阈值进行对比，判定当前帧是否为最后一帧，若是，停止循环；若否，继续循环。

在本发明的一些实施方式中，若停止参数大于预设的停止阈值，则当前帧为最后一帧；若停止参数不大于预设的停止阈值，则当前帧不为最后一帧，所述停止参数大于0小于1，即图2中的stop token(停止令牌)模块。

在本发明的一些实施方式中，所述第一匹配库可以为pypinyin库的匹配库。

通过强制对齐方法获取文本中每个字素对应持续时间，按照持续时间长短对字素进行三类等级的划分：持续时间小于第一时间长度(如相对较少的预定秒数)的字素标记为快速字素，持续时间中等的字素标记为正常字素，持续时间在第二时间长度(如相对较多的预定秒数)以上的字素标记为慢速字素，其中，所述第二时间长度大于所述第一时间长度。将每个字素按照持续时间进行等级划分后，基于输入的字素序列可以得到等长的持续时间等级序列。最后，根据预设的第二匹配库，将持续时间等级序列转换为韵律向量序列。

作为示例，若所述初始文本数据为“虽然早已须发皆白”则韵律向量序列可以为“21 1 2 2 3 2 1 2 2 1 2 2 1 2 3”，其中数字分别用于代表声母或者韵母的持续时间，时间越长则参数越大。

在本发明的一些实施方式中，所述韵律向量序列包含的韵律信息为语速信息，指当前字符所在音节或单词的语速；语速信息包括：正常，慢速，快速。

e_i,j＝Tanh(s_i+h_j)；

将能量值与所述韵律向量序列相加，并通过一个线性投影层，得到第一转移概率；

其中，

表示第i帧的对齐向量中第j个字素对应的位置的第一转移概率，DNN表示线性投影层，l_i,j表示第i帧的对齐向量中第j个字素对应的位置的韵律向量序列。

其中，w_i,j表示第i帧的对齐向量中第j个字素对应的位置的第二转移概率，sigmoid()表示sigmoid激活函数。

在本发明的一些实施方式中，所述激活函数可以为sigmoid函数。

a_i,j＝(1-w_i,j)a_i-1,j+w_i,j a_i-1,j-1；

如图4所示，本发明的第二方面提供了一种细粒度韵律可控的情感语音合成系统，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现上述方法的步骤。

实验例

本方案的实验例用于评估实测音质各项指标；

本发明的评估实验，针对合成系统的两方面性能进行评估：鲁棒性和韵律控制能力，采用客观和主观的相结合方式进行综合的评价如下：

(1)以采用统计合成音频字错误数量的方法，作为客观评价指标，来衡量合成系统的鲁棒性。

错误数量统计，为衡量合成语音鲁棒性的一项常用客观评估指标，其统计合成句子中的重复、跳跃以及注意力崩溃的次数。

如下表一所示，从所选模型中统计的字错误量

上述表一的名词解释如下：

Baseline：原始的Tacotron2结构，其采用的是位置敏感注意力机制；

GMM：采用GMMv2b替换原本Tacotron2中的注意力机制；

FA：采用Forward Attention(前向注意力)机制替换原本Tacotron2中的注意力机制；

Proposed：采用RC-Attention(Representation Correct Attention，表征纠错注意力)机制替换原本Tacotron2中的注意力机制；

GMMv2b：Graves等人在2013年的文章“Generating Sequences With RecurrentNeural Networks”中提出的注意力机制。

Forward Attention：Zhang等人在2018年提出的一个对齐注意力机制，以加快对齐收敛速度，同时，能够控制推理阶段的合成语速。

在本评估中，分别在四个模型下合成40条话语，以提供给受试者进行随机错误统计抽查，其中每个模型在每个情感下合成40条相同文本的域外长难句。该长难句从近期的新闻通稿中选择，每句包含汉字平均为147，与训练文本的平均长度14相比，属于长难句范围。结果如上图所示，数值越低表示鲁棒性越好，粗体表示所有模型中性能最好的。可以看出，即使是测试文本也比训练文本长近十倍，所提出的注意方法也获得了最好的鲁棒性。尽管GMMv2b的注意力具有几乎相同的鲁棒性，但它没有控制韵律的能力。

(2)采用偏好测试作为主观评价指标，来衡量合成语音的韵律自然度。

偏好测试是评估合成语音各方面表现的一个常用主观指标，受试者按照一定的偏好规则，在预先提供的成对音频上做出偏好选择。

在偏好测试中，受试者根据偏好规则，从A选项、B选项或者无偏好中进行选择，如表2所示。

参与者被要求根据测试样本对节奏的自然度的总体印象来选择偏好的样本。选择偏好选项时，主要依据的规则有以下两点：(1)音频的准确度，音质：判断音频是否存在错字，漏字，模糊听不清的情况。(2)韵律，语速自然度：判断音频是否有不恰当的语速或者停顿。

表2 偏好测试选项说明

结果如下表3所示，在大多是情况下获得了更多的偏好，表示本发明所提出的模型能够更好地合成出韵律自然的语音。

表3 偏好测试结果

(3)采用主观平均意见打分作为主观评价指标，来评估合成语音的情感表达能力。

由于持续时间是情绪的一个重要体现，不同情绪对韵律节奏的有着不同的控制。反之，良好的韵律控制能够促进情感表现力的表达。因此，本评估也探究了在各个先进的注意力机制下合成的音频中存在的情感表现力的差异，并且利用主观平均意见评分进行了评估。

本工作采用主观平均意见评分作为指标，对情感表现力进行评估。主观平均意见评分是广泛认同的一种量化评价标准，通过该指标，人类对语音的主观感知被量化。在进行主观打分的过程中，受试者需要遵循相同的评分规则，并且保持各个受试者的设备和实验环境保持一致。

本次评估规则主要依据合成语音的整体情感表现力，即根据所给音频的整体情感表达给出综合的分数。

主观平均意见评分的评分标准细节如下所示：

表4 主观平均意见打分分值说明

表5 高兴情绪下各模型的平均意见得分

表6 生气情绪下各模型的平均意见得分

结果如表5和表6所示。可知，在高兴和生气情绪下，本研究所提出的注意力机制均获得了最好的平均意见得分，分别为3.71和3.79。在同一情绪下，GMMv2b模型的情感表现力是最接近本发明模型的，其次是基线模型，最后是Forward Attention模型。本研究把Forward Attention在情感表现力方面的失败归结于其生硬的韵律控制。

有益效果说明：

以上的实测音质的各项评估均验证本发明模型具有更强的鲁棒性和自然的韵律节奏控制能力，对合成系统的鲁棒性和可控性两方面均有提升。

首先，对于语音合成的鲁棒性，本文采用客观评价指标--字错误统计，来衡量各个注意力机制对于合成语音鲁棒性的影响，实验表明，所提出的注意机制可以提高合成语音的鲁棒性。

其次，对于韵律节奏的自然控制，由于在本发明提出的迭代注意力算法中，除了声学信息、风格信息、文本信息作为输入外，还考虑到音素级别的持续时间信息，通过控制每一个解码时间步下，对齐帧的前进速度，来控制合成语音的节奏和韵律。实验结果表明，所提出的注意机制实现了更自然的节奏控制，并且可以提升各种情绪的表现力。

本发明可以在合成情感语音时进行细粒度的韵律节奏控制，以提高情感表现力。该方法包括以下步骤：将待合成文本对应的字符转化为字符表示向量；将字符表示向量通过文本编码器，得到文本隐藏向量序列；外部韵律表示通过节奏控制编码器得到韵律表示向量；将参考情感语音的声学特征梅尔谱通过情感编码器，得到情感表示向量；情感表示向量与上一帧的声学特征进行相加相继通过解码器中的预处理网络和第一层循环神经网络；文本隐藏向量序列和第一层循环神经网络的隐藏细胞状态进行能量值计算；韵律表示向量和能量值通过细粒度韵律可控注意力机制得到上下文向量，送入解码器中的第二层循环神经网络；解码器依据上下文向量、情感表示向量和上一帧的声学特征解码出当前帧的声学特征和预测停止点；将预测出的声学特征转化为具备韵律节奏的情感语音输出。

本发明可实现细粒度的韵律控制，提高语音情感的表现力，并且有效缓解自回归语音合成中的文本与声学帧不匹配的对齐问题，加速对齐收敛速度。

本发明的细粒度韵律可控的情感语音合成方法和系统由于提高了语音合成方法自然度和真实度，可以与虚拟现实(VR)、增强现实(AR)和混合现实(MR)技术相结合，从而可以应用于元宇宙中。在元宇宙中目前已经产生了高表现力高逼真度的数字虚拟人，与本发明的细粒度韵律可控的情感语音合成技术相结合，可以让虚拟世界越来越逼近真实世界，使得虚拟与现实的距离进一步缩小，让虚拟世界和现实世界的边界越来越模糊，进一步增强用户在虚拟世界的沉浸感，实现数字物品、虚拟环境和人之间更加真实的多模式交互。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种细粒度韵律可控的情感语音合成方法，其特征在于，所述方法的步骤包括，

2.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，将初始文本数据转化为对应的拼音字符的步骤包括；

3.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，将初始文本数据和对应的音频数据输入第二编码模型得到韵律向量序列的步骤包括：

通过强制对齐方法获取文本中每个字素对应的持续时间，按照持续时间长短对字素进行三类等级的划分：持续时间小于第一时间长度的字素标记为快速字素，持续时间中等的字素标记为正常字素，持续时间在第二时间长度以上的字素标记为慢速字素，其中，所述第二时间长度大于所述第一时间长度；

4.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，根据如下公式，基于第一隐藏状态序列与文本隐藏向量序列计算能量值：

e_i，j＝Tanh(s_i+h_j)；

e_i，j表示第i帧的第j个字素的能量值，s_i表示第i帧的第一隐藏状态序列，h_j表示第j个字素的文本隐藏向量序列，Tanh表示双曲正切函数。

5.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，将能量值和韵律向量序列输入注意力机制利用递推算法得到当前帧的对齐向量的步骤包括：

6.根据权利要求5所述的细粒度韵律可控的情感语音合成方法，其特征在于，根据如下公式，基于第二转移概率和上一帧的对齐向量计算当前帧的对齐向量：

a_i，j＝(1-w_i，j)a_i-1，j+w_i，ja_i-1，j-1；

其中：

a_i，j表示第i个帧的对齐向量中第j个字素对应的位置的值，w_i，j表示第i个帧的对齐向量中第j个字素对应的位置的第二转移概率，a_i-1，j表示第i-1个帧的对齐向量中第j个字素对应的位置的值，a_i-1，j-1表示第i-1个帧的对齐向量中第j-1个字素对应的位置的值；sigmoid()表示sigmoid激活函数；

表示第i帧的对齐向量中第j个字素对应的位置的第一转移概率，DNN表示线性投影层，l_i，j表示第i帧的对齐向量中第j个字素对应的位置的韵律向量序列。

7.根据权利要求1所述的细粒度韵律可控的情感语音合成方法，其特征在于，根据如下公式，将对齐向量与文本隐藏向量序列进行加权求和得到上下文向量：

其中，c_i表示第i个帧的上下文向量，a_i，j表示当前第i个帧的对齐向量中第j个字素对应的位置的值，h_j表示第j个字素的文本隐藏向量序列。

8.根据权利要求1-7任一项所述的细粒度韵律可控的情感语音合成方法，其特征在于，将声学特征序列输入到声码器的步骤包括：

9.一种细粒度韵律可控的情感语音合成系统，其特征在于，该系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1-8任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时以实现如权利要求1-8任一项所述方法的步骤。