CN114566143B

CN114566143B - 一种可局部修改内容的语音合成方法及语音合成系统

Info

Publication number: CN114566143B
Application number: CN202210343885.XA
Authority: CN
Inventors: 易中华
Original assignee: Beijing Dipai Intelligent Technology Co ltd
Current assignee: Beijing Dipai Intelligent Technology Co ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-10-11
Anticipated expiration: 2042-03-31
Also published as: CN114566143A

Abstract

本申请提供了一种可局部修改内容的语音合成方法及语音合成系统，以语音音色一致、而文本及语音内容不同的两组训练数据作为一个训练样本，以一组数据中文本的发音单元和语音的语音特征，以及另一组数据中文本的发音单元作为输入，以该另一组数据中语音的语音特征作为训练目标，预测该另一组数据中文本的发音单元对应的预测语音特征，使得基于该预测语音特征合成得到的预测语音的音色与作为输入的语音的音色一致，且内容与另一组数据中的文本一致。在训练语音合成系统时，仅需保证一个训练样本的两组训练数据来自相同发音人，使用该语音合成系统可以通过修改任意发音人的一组数据中的文本内容合成出与该发音人音色一致且内容为修改后的内容的语音。

Description

一种可局部修改内容的语音合成方法及语音合成系统

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种可局部修改内容的语音合成方法及语音合成系统。

背景技术

人机交互(human-computer interaction，HCI)是指人类与机器通过语音对话进行信息交换的技术，在人机交互过程中，机器会用特定的语音内容，即特定文本回复用户，为了提高回复的针对性，该特定文本通常由固定文本和变量文本组成，其中，固定文本是指交互时所使用的通用文本，变量文本是指针对于该用户或者当前交互场景的文本。机器回复用户时，首先将固定文本对应的语音与变量文本对应的语音进行拼接，就可以得到特殊文本对应的完整语音，然后通过播放该完整语音以实现对用户的回复。

通常，固定文本对应的语音也是固定不变的，因此，可以通过提前录制的方式，得到固定文本对应的语音，在拼接完整语音时，可以直接使用已经录制好的语音。而由于变量文本是动态变化的，变量文本对应的语音也是动态变化的，因此，为了保证变量文本的语音准确性，通常采用语音合成技术实时合成与变量文本对应的语音。

拼接得到的完整语音容易存在音色不一致的问题，例如固定文本对应的语音是女声，而通过合成得到的变量文本对应的语音是男声，播放音色不一致的完整语音会大大降低用户的交互体验感。为了保证变量文本对应的语音与固定文本对应的语音音色一致，通常，会预先针对录制该固定文本对应的语音的录音员，录制一个语音合成音库，该语音合成音库中的各个语音材料与固定文本对应的语音音色一致。合成变量文本对应的语音时，从该语音合成音库中选取与变量文本对应的语音材料，对这些语音材料进行合成，就可以得到与固定文本对应的语音音色一致的变量文本对应的语音。为了可以适应更广泛的交互场景，该语音合成音库通常包含海量的语音材料，且一旦更换录音员，就需要重新录制一个语音合成音库，语音合成库的录制成本较高，可持续性较低。为了解决录制语音合成音库产生的问题，可以通过实时训练一个语音合成模型来合成变量文本对应的语音，从而无需预先录制语音合成音库。为了保证该语音合成模型得到的语音与固定文本的语音音色一致，仍然需要该录音员预先录制一定数量的语音样本。而且，该语音合成模型的训练过程需要耗费一定的时间，且该语音合成模型专用于合成与该录音员的音色一致的语音，一旦固定文本的语音由其他录音员录制，则需要重新训练对应的语音合成模型。

发明内容

本申请实施例提供了一种可局部修改内容的语音合成方法及语音合成系统，以通过音色相同、内容局部不同的成对训练样本训练得到一个语音合成模型，并在对任意发音人的语音内容修改之后，可以通过该语音合成模型针对修改后的语音内容准确地合成出与该任意发音人音色一致的语音。

第一方面，本申请实施例提供了一种可局部修改内容的语音合成方法，包括：

获取训练样本，所述训练样本包括一组第一语音和第一文本，以及一组第二语音和第二文本，其中，所述第一语音与所述第二语音的音色一致，且所述第一文本与所述第二文本之间存在至少一个区别文本单元；

分别提取所述第一语音和所述第二语音对应的语音特征帧，得到第一语音特征帧序列和第二语音特征帧序列；

分别将所述第一语音特征帧序列、所述第一文本、所述第二语音特征帧序列、所述第二文本分别进行编码，得到对应的第一语音编码序列、第一文本发音编码序列、第二语音编码序列、第二文本发音编码序列，其中，每个语音编码序列包括与各语音特征帧对应的语音特征向量，每个文本发音编码序列包括各发音单元向量；

按照语音特征帧与发音单元的时间映射关系，将所述第一语音编码序列中的语音特征向量与所述第一文本发音编码序列中对应的发音单元向量进行融合，得到对应的融合序列，其中，所述融合序列中的第一文本发音编码序列经过扩增处理，以使所述发音单元向量的数量与所述第一语音编码序列中的语音特征向量的数量相等；

基于所述融合序列，预测所述第二文本发音编码序列中每个发音单元向量对应的语音特征向量的数量，并基于预测得到的语音特征向量的数量扩增所述第二文本发音编码序列，得到第二文本发音扩增编码序列；

基于所述融合序列与所述第二文本发音扩增编码序列，预测所述第二文本发音扩增编码序列中每个向量对应的预测语音特征向量，得到第二语音特征帧预测序列；

以所述第二语音特征帧预测序列与所述第二语音特征帧序列的损失距离，以及所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的所述预测得到的语音特征向量的数量的损失距离作为训练语音合成系统的监督信号，当所述语音合成系统训练收敛后，将所述第二特征帧预测序列耦合至声码器，所述声码器用于根据所述第二语音特征帧预测序列生成第二预测语音并输出。

本申请实施例提供的技术方案，构建并训练了一种语音合成系统，该语音合成系统在训练时，以语音音色一致、而文本及语音内容不同的两组训练数据作为一个训练样本，以一组数据中文本的发音单元和语音的语音特征，以及另一组数据中文本的发音单元作为输入，以该另一组数据中语音的语音特征作为训练目标，预测该另一组数据中文本的发音单元对应的预测语音特征，以使得基于该预测语音特征合成得到的预测语音的音色与作为输入的语音的音色一致，且内容与另一组数据中的文本一致。由此，在训练该语音合成系统时，仅需保证一个训练样本的两组训练数据来自同一个发音人，使用该语音合成系统可以通过修改任意发音人的一组数据中的文本内容合成出与该发音人音色一致且内容为修改后的内容的语音。

在一种实现方式中，所述区别文本单元与全部文本单元的数量占比小于预设比例阈值。

在一种实现方式中，通过以下步骤获取目标语音对应的语音特征帧序列，所述目标语音为所述第一语音和所述第二语音：

将所述目标语音的时域信号以帧为单位转换为频域信号；

提取每一帧所述频域信号的语音特征向量，得到所述目标语音的语音特征帧；

按照时间顺序排列各个语音特征帧，得到对应的语音特征序列。

在一种实现方式中，通过以下步骤编码目标文本，所述目标文本为所述第一文本和所述第二文本：

将所述目标文本按照文本单元划分为对应的发音单元，得到发音单元序列；

通过词嵌入层将所述发音单元序列中的各个发音单元进行向量化处理，得到文本发音编码序列。

在一种实现方式中，所述第一语音和所述第二语音采用同一个语音编码器，所述第一文本和所述第二文本采用同一个文本编码器。

在一种实现方式中，通过以下步骤融合所述第一语音编码序列与所述第一文本发音编码序列：

确定所述第一语音编码序列与所述第一文本发音编码序列中具有对应关系的语音特征向量和发音单元向量；

将每个发音单元向量复制目标次数，得到第一文本发音扩增编码序列，所述目标次数等于所述发音单元向量在所述第一语音编码序列中对应位置持续的语音特征向量的数量，以使所述第一文本发音扩增编码序列中向量的总数量等于所述第一语音编码序列中语音特征向量的总数量；

将所述第一文本发音扩增编码序列和所述第一语音编码序列中的向量按对应位置逐个进行融合，得到所述融合序列，其中，所述第一文本发音扩增编码序列和所述第一语音编码序列中向量融合的方式采用将两个向量在对应维度上的数值直接相加。

在一种实现方式中，通过动态规划算法获取所述第一文本发音编码序列中每个发音单元向量的目标次数，其中，所述动态规划算法通过一个预训练的隐马尔可夫HiddenMarkov Model模型进行强制对齐force alignment实现，或者通过注意力神经网络的注意力矩阵实现。

在一种实现方式中，所述基于所述融合序列，预测所述第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量，得到第二语音特征帧预测序列，包括：

基于所述融合序列，通过注意力机制确定所述第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量的数量；

将所述第二文本发音编码序列中每一个发音单元向量复制指定次数，得到第二文本发音扩增编码序列，所述指定次数等于对应预测语音特征向量的数量；

基于所述融合序列与所述第二文本发音扩增编码序列，通过注意力机制预测所述第二文本发音扩增编码序列中各向量对应的预测语音特征帧，得到所述第二语音特征帧预测序列。

在一种实现方式中，所述方法还包括：

确定所述第二语音编码序列与所述第二文本发音编码序列中具有对应关系的语音特征帧和发音单元向量；

以所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的预测语音特征帧的数量的损失距离，以及所述第二语音特征帧序列与所述第二语音特征帧预测序列的损失距离作为训练语音合成系统的监督信号，以使所述语音合成系统收敛。

第二方面，本申请实施例提供了一种语音合成系统，包括：存储器和处理器，所述存储器存储有程序指令，当所述程序指令被所述处理器执行时，使得所述语音合成系统执行如下程序步骤：

在一些实现方式中，当程序指令被处理器执行时，使得语音合成系统执行第一方面各个实现方式中的方法步骤。

第三方面，本申请实施例还提供一种计算机可读存储介质，计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法步骤。

第四方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面的方法步骤。

第五方面，本申请实施例还提供了一种芯片系统，该芯片系统包括处理器，用于支持上述系统或系统实现上述方面中所涉及的功能，例如，生成或处理上述方法中所涉及的信息。

附图说明

图1是本申请实施例提供的语音合成系统的逻辑结构图；

图2是本申请实施例提供的可局部修改内容的语音合成方法的流程图；

图3是本申请实施例提供的获取第一语音和第二语音的语音特征帧序列的方法流程图；

图4是本申请实施例提供的编码第一文本和第二文本的方法流程图；

图5是本申请实施例提供的融合第一语音编码序列与第一文本发音编码序列的方法流程图；

图6是本申请实施例提供的预测第二文本发音编码预测序列的方法流程图；

图7是本申请实施例提供的收敛语音合成系统的方法流程图；

图8是本申请实施例提供的语音合成系统的示意图；

图9是本申请实施例提供的语音合成装置的示意图。

具体实施方式

为了解决上述问题，本申请实施例提供了一种可局部修改内容的语音合成方法。

图1是该语音合成系统的逻辑结构图。其中，语音合成系统从输入到输出的数据流整体上从图1的下方向上方传递。具体来说，该语音合成系统从输入侧到输出侧依次包括语音特征提取器、语音编码器、文本编码器1、文本编码器2、语音特征-文本对齐器、语音特征生成器和声码器。本申请实施例提供的语音合成系统是基于多层神经网络实现的，由此，上述各处理器为该多层神经网络中相应层级的网络。其中，在上述各层网络中，前一层网络的输出与后一层网络的输入耦合。此外，上述语音合成系统还可以包含其它网络结构，以优化当前所能够实现的功能，以及实现更多其它的功能。

下面结合图1示出的语音合成系统的逻辑结构，对本申请实施例提供的可局部修改内容的语音合成方法进行具体说明。

图2是本申请实施例提供的可局部修改内容的语音合成方法的流程图。在一个实施例中，该方法如图2所示可以包括以下步骤：

S201、获取训练样本。

在本申请实施例中，一个训练样本包括一组第一语音和第一文本，以及一组第二语音和第二文本，其中，该第一语音与该第二语音的音色一致，且该第一文本与该第二文本之间存在至少一个区别文本单元。

第一语音即为与第一文本对应的语音数据，第二语音即为与第二文本对应的语音数据。第一语音和第二语音均为时域信号，第一语音和第二语音均包含至少一个时间帧的时域信号。第一文本和第二文本均包含至少一个文本单元，本申请实施例的技术方案可以应用在中文语境或者非中文语境，根据语境的不同，文本单元可以是音节或者音素。示例地，在中文语境中，音素是根据语音的自然属性划分出来的细粒度语音单位，在中文中音素包含声母、韵母以及静音；例如，文本“张三你好”对应的拼音zhang1san1ni3hao3中(数字表示声调)的〔ni〕包含有〔n〕〔i〕两个音素。示例地，在英文语境中，音节是构成英文语音序列的一种单位，一个音节可能有元音和/或辅音组成；例如，英语单词“water”

就是由“wa”

和“ter”

两个音节构成的。另外，通过上述示例也可以看出，文本单元的数量一般大于文本的字符或单词的数量。实际实施时，也可以简单的使用字母(中文为拼音中的字母，英文即为字面字母和空格)或/及其他符号作为文本单元处理，也可视不同的语种特点进行选择。

在本实施例中，可以选择一个训练样本训练语音合成系统，为了保证该训练样本中第一语音与第二语音的音色一致，选择同一个录音员进行第一语音和第二语音的录制。在一些实施例中，也可以选择多个训练样本训练语音合成系统，该多个训练样本可以由不同的录音员进行录制，但是，同一个训练样本中的第一语音和第二语音需要由同一个录音员进行录制。

在本实施例中，第一文本与第二文本之间存在至少一个区别文本单元，该区别文本单元可以通过替换、插入、删除等修改方式获得。示例地，第一文本“张三你好”，可以通过替换的方式将“张三”替换为“李四”，得到第二文本“李四你好”，其中，“张三”和“李四”即为区别文本单元。示例地，第一文本为“张三你好”，可以通过插入的方式在“张三”之前插入“嘿”，得到第二文本“嘿张三你好”，其中，“嘿”即为区别文本单元。示例地，第一文本为“张三你好”，可以通过删除的方式删除“张三”，得到第二文本“你好”，其中，“张三”即为区别文本单元。其余修改方式此处不再一一展开。

在一些实施例中，区别文本单元在某一文本中全部文本单元中的数量占比小于预设比例阈值，例如该预设比例阈值为50％。以此保证，第一文本与第二文本之间的文本内容之间具有一定的文本内容重合度，从而保证第一语音与第二语音之间具有语音特征的参考度，进而保证语音合成系统的训练准确性。

S202、分别提取所述第一语音和所述第二语音对应的语音特征帧，得到第一语音特征帧序列和第二语音特征帧序列。

语音特征用于表征语音的信号特征，例如振幅、频率等，一组信号对应的语音特征将形成该组信号的音色，由此，可以通过分析一个语音的语音特征，以得到该语音对应的音色。

在本申请实施例中，将第一语音与第二语音作为输入，分别如图1所示的语音特征提取器，以得到各自对应的语音特征帧序列。在本实施例中，用于提取第一语音和第二语音的语音特征提取器可以为同一个语音特征提取器，也可以是不同的语音特征提取器。

在申请实施例中，可以采用如图3所示的步骤获得第一语音和第二语音的语音特征帧序列：

S301、将所述目标语音的时域信号以帧为单位转换为频域信号。

在本实施例中，将输入语音特征提取器的语音称为目标语音，目标语音为第一语音和第二语音。由上文可知，输入的第一语音和第二语音均为时域信号，首先以时间帧为单位，将该时域信号变换为可以进行后续计算的频域信号。基于此，变换后得到的频域信号也以时间帧(后续简称为帧)为单位，每一帧频域信号对应该语音中的一段时间长度的语音片段。

通常，录音员在朗读文字时，每个文字的发音都需要占用一定的时间，那么，当一个文字的发音时长大于一个帧的时长时，这个文字的发音就会对应多个帧的频域信号。另外，录音员在录制第一语音和第二语音时，不会在开始录制的时刻就立刻开始朗读，也不会在结束朗读时就立刻结束录制，因此，语音的开始和结束位置会各有一段无声音的部分；相应地，语音对应的开头和结尾也会包含一些无声音部分对应的频域信号。另外，录音员在朗读文字时，字与字之间都会有停顿，由此，也会形成语音中的无声音部分；相应地，语音中每隔一段时间就会出现一些无声音部分对应的频域信号。

示例地，以录音员录制第一语音和第二语音时，每个字的朗读时长对应两个时间帧，且字与字之间无停顿为例，第一语音“张三你好”对应8个帧的频域信号，如A1～A8帧频域信号，第二语音“李四你好”对应8个帧的频域信号，如B1～B8帧频域信号。

S302、提取每一帧所述频域信号的语音特征向量，得到所述目标语音的语音特征帧。

每一帧频域信号对应一组语音特征，该组语音特征可以用于表征该帧的频域信号对应的信号特征，该组语音特征可以用语音特征向量表示。由此，每一帧频域信号对应一个语音特征向量，可以将该语音特征向量称为语音特征帧。

接上例，第一语音对应8个语音特征帧，例如F_A1～F_A8；第二语音对应8个语音特征，帧，例如F_B1～F_B8。

S303、按照时间顺序排列各个语音特征帧，得到对应的语音特征序列。

各语音特征帧之间具有时间顺序，按照时间帧之间的先后顺序，可以将对应的语音特征帧进行排列，得到对应的语音特征序列。由此，每个语音特征序列包含相应语音的全部语音特征帧。

接上例，将第一语音的语音特征帧F_A1～F_A8按照时间帧的先后顺序进行排序，得到第一语音特征帧序列F_A＝[F_A1，F_A2，F_A3，F_A4，F_A5，F_A6，F_A7，F_A8]；将第二语音的语音特征帧F_B1～F_B8按照时间帧的先后顺序进行排序，得到第二语音特征帧序列F_B＝[F_B1，F_B2，F_B3，F_B4，F_B5，F_B6，F_B7，F_B8]。

在一些实施例中，可以采用80维过滤器组(Filter Bank，FBank)系数或者梅尔频率倒谱(Mel-frequency cepstral coefficients，MFCC)系数作为语音特征帧。

第一语音特征帧序列可以基于第一语音的全部语音片段对应的语音特征，表征第一语音的音色，第二语音特征帧序列可以基于第二语音的全部语音片段对应的语音特征，表征第二语音的音色。

S203、分别将所述第一语音特征帧序列、所述第一文本、所述第二语音特征帧序列、所述第二文本分别进行编码，得到对应的第一语音编码序列、第一文本发音编码序列、第二语音编码序列、第二文本发音编码序列。

其中，每个语音编码序列包括与各语音特征帧对应的语音特征向量，每个文本发音编码序列包括与各发音单元对应的发音单元向量。

在本申请实施例中，S203主要基于语音合成系统中的编码器encoder实现。通过语音编码器分别编码第一语音特征帧序列和第二语音特征帧序列，得到对应的第一语音编码序列E_A和第二语音编码序列E_B。其中，第一语音编码序列E_A包含与第一语音特征帧序列中8个语音特征帧对应的语音特征向量，如E_A＝[E_A1，E_A2，E_A3，E_A4，E_A5，E_A6，E_A7，E_A8]，E_Ai(i＝1～8)表示语音特征向量。第二语音编码序列E_B包含与第二语音特征帧序列中8个语音特征帧对应的语音特征向量，如E_B＝[E_B1，E_B2，E_B3，E_B4，E_B5，E_B6，E_B7，E_B8]，E_Bi(i＝1～8)表示语音特征向量。在一些实现方式中，语音编码器可以通过神经网络实现。在一些实施例中，用于编码第一语音特征帧序列和第二语音特征帧序列的语音编码器可以为同一个语音编码器，也可以为不同的语音编码器。

通过文本编码器1编码第一文本，得到对应的第一文本发音编码序列，通过文本编码器2编码第二文本，第二文本发音编码序列。在一些实施例中，文本编码器1与文本编码器2可以为不同的编码器，也可以是同一个文本编码器。

在本申请实施例中，可以采用图4所示的步骤编码第一文本和第二文本：

S401、将所述目标文本按照文本单元划分为对应的发音单元，得到发音单元序列。

在本实施例中，将输入文本编码器的文本称为目标文本，目标文本为第一文本和第二文本。由前文介绍可知，第一文本和第二文本均由文本单元构成，一个文本单元对应一个语音单位，例如音素、音节等，而且，语音单位可以用于表征发音。由此，可以按照文本单元划分目标文本，得到对应的发音单元，由这些发音单元组成发音单元序列。

接上例，按照音素划分第一文本“张三你好”，得到发音单元序列t_A＝[zhang1，san1，ni3，hao3]，按照音素划分第二文本“李四你好”，得到发音单元序列t_B＝[li3，si4，ni3，hao3]。

S402、通过词嵌入层将所述发音单元序列中的各个发音单元进行向量化处理，得到文本发音编码序列。

S402可以在语音合成系统的词嵌入层embedding中实现，词嵌入层可以包含一个全连接网络，全连接网络全程为全连接神经网络(Fully Connected，FC)，也称多层感知机(Multilayer Perceptron，MLP)。全连接网络所执行的核心操作是矩阵乘法，能够将一个多维特征空间线性变换到另一个特征空间，以减小特征空间的维度。由此，通过全连接网络可以将高维的发音单元变换为对应的发音单元向量。

接上例，将第一发音单元序列编码后得到低维的第一文本发音编码序列T_A，其中，第一文本发音编码序列T_A包含与第一文本中各发音单元对应的发音单元向量，如T_A＝[T_A1，T_A2，T_A3，T_A4]，T_Ai(i＝1～4)表示发音单元向量；将第二发音单元序列编码后得到低维的第二文本发音编码序列T_B，其中，第二文本发音编码序列T_B包含与第二文本中各发音单元对应的发音单元向量，如T_B＝[T_B1，T_B2，T_B3，T_B4]，T_Bi(i＝1～4)表示发音单元向量。

S204、按照语音特征帧与发音单元的时间映射关系，将所述第一语音编码序列中的语音特征向量与所述第一文本发音编码序列中对应的发音单元向量进行融合，得到对应的融合序列，其中，所述融合序列中的第一文本发音编码序列经过扩增处理，以使所述发音单元向量的数量与所述第一语音编码序列中的语音特征向量的数量相等。

由上文介绍可知，一个文本单元(也就是一个发音单元)对应的朗读时间，包含至少一个帧的时长，即在时间维度上，一个发音单元对应至少一个语音特征帧，也即发音单元与语音特征帧之间存在时间映射关系。

接上例，第一文本中的每个发音单元对应第一语音中的两个语音特征帧，第二文本中的每个发音单元对应第二语音中的两个语音特征帧。上述发音单元与语音特征帧之间的时间映射关系按照时间帧的顺序构建，且不同的发音单元映射不同的语音特征帧。由此，按照上述发音单元与语音特征帧之间的时间映射关系，可以在第一语音编码序列中的各个语音特征向量与第一文本发音编码序列中的各个发音单元向量之间建立映射关系，即进行时间对齐，其中，每个发音单元向量对应至少一个语音特征向量，并将对齐后的第一语音编码序列与第一文本发音编码序列进行融合，得到融合序列X。

在本申请实施例中，可以按照如图5所示的步骤融合第一语音编码序列与第一文本发音编码序列：

S501、确定所述第一语音编码序列与所述第一文本发音编码序列中具有对应关系的语音特征向量和发音单元向量。

在如图1所示的语音特征-文本对齐器中，通过动态规划算法(Dynamicprogramming，DP)将第一语音编码序列与第一文本发音编码序列进行时间对齐，即在第一语音编码序列中的语音特征向量与第一文本发音编码序列中的发音单元向量建立映射关系。

在本实施例中，动态规划算法可以通过一个预训练得到的隐马尔可夫(HiddenMarkov Model，HMM)模型进行强制对齐(Force alignment)实现，也可以通过注意力机制(Attention mechanism)实现。接上例，对第一语音编码序列E_A＝[E_A1，E_A2，E_A3，E_A4，E_A5，E_A6，E_A7，E_A8]与第一文本发音编码序列T_A＝[T_A1，T_A2，T_A3，T_A4]施行注意力机制，其中，T_A1与E_A1和E_A2具有映射关系，T_A2与E_A3和E_A4具有映射关系，T_A3与E_A5和E_A6具有映射关系，T_A4与E_A7和E_A8具有映射关系。上述仅示例性给出语音特征向量与发音单元向量之间的映射关系，在一些实施例中，基于发音人不同的说话习惯、语言类型、情绪等，语音特征向量与发音单元向量之间具有不同的映射关系，例如一个发音单元向量对应n个语音特征向量，其中，n≥1，且同一个文本发音编码序列中的各个发音单元向量可以对应不同数量的语音特征向量。

S502、将每个发音单元向量复制目标次数，得到第一文本发音扩增编码序列，所述目标次数等于所述发音单元向量在所述第一语音编码序列中对应位置持续的语音特征向量的数量，以使所述第一文本发音扩增编码序列中向量的总数量等于所述第一语音编码序列中语音特征向量的总数量。

由上文的介绍可知，一个发音单元向量对应至少一个语音特征向量，由此，发音单元向量的数量小于或者等于语音特征向量的数量，在融合第一语音编码序列与第一文本发音编码序列之前，首先需要将第一语音编码序列与第一文本发音序列变换为等长的两个序列，即需要令第一语音编码序列中语音特征向量的数量与第一文本发音编码序列中发音单元向量的数量相等。

基于S501中确定的语音特征向量与发音单元向量之间的映射关系，可以确定发音单元向量与语音特征向量之间的数量映射关系，例如，T_A1与E_A1和E_A2具有映射关系，则T_A1对应两个语音特征向量，也可以说，一个发音单元持续的时间帧的数量(帧数)为2，T_A1对应的特征帧具体为F_A1和F_A2。由此，T_A1的数量为帧数2时，T_A1的数量与对应的语音特征向量的数量相等。基于上述给出的示例，可以确定每个发音单元向量对应的帧数，并且只有在各发音单元向量的数量均等于对应的帧数时，第一语音编码序列中语音特征向量的数量与第一文本发音编码序列中发音单元向量的数量相等。由此，可以将每个发音单元向量对应的帧数定义为目标次数，将每个发音单元向量复制对应的目标次数，就可以得到数量与帧数相等的发音单元向量。

示例地，T_A1，T_A2，T_A3，T_A4对应的帧数均为2，将T_A1，T_A2，T_A3，T_A4分别复制2次，得到第一文本发音扩增编码序列Z_A，Z_A＝[T_A1，T_A1，T_A2，T_A2，T_A3，T_A3，T_A4，T_A4]。

S503、将所述第一文本发音扩增编码序列和所述第一语音编码序列中的向量按对应位置逐个进行融合，得到所述融合序列，其中，所述第一文本发音扩增编码序列和所述第一语音编码序列中向量融合的方式采用将两个向量在对应维度上的数值直接相加。

将第一文本发音扩增编码序列Z_A与第一语音编码序列E_A进行融合，得到融合序列X_A。在一种实现方式中，可以将Z_A和E_A对应维度的向量直接相加，获得融合后的向量，示例地，X_A＝[E_A1+T_A1，E_A2+T_A1，E_A3+T_A2，E_A4+T_A2，E_A5+T_A3，E_A6+T_A3，E_A7+T_A4，E_A8+T_A4]。在另一种实现方式中，也可以直接将Z_A和E_A进行拼接，示例地，X_A＝[E_A1，E_A2，E_A3，E_A4，E_A5，E_A6，E_A7，E_A8，T_A1，T_A1，T_A2，T_A2，T_A3，T_A3，T_A4，T_A4]。

S205、基于所述融合序列，预测所述第二文本发音编码序列中每个发音单元向量对应的语音特征向量的数量，并基于预测得到的语音特征向量的数量扩增所述第二文本发音编码序列，得到第二文本发音扩增编码序列。

S206、基于所述融合序列与所述第二文本发音扩增编码序列，预测所述第二文本发音扩增编码序列中每个向量对应的预测语音特征向量，得到第二语音特征帧预测序列。

S205和S206中的预测过程可以在图1所示的语音特征生成器中，均通过注意力机制神经网络实现，其中所述融合序列作为注意力机制的key和value，第二文本发音编码序列和第二文本发音扩增编码序列分别作为S205和S206中注意力机制的query，该预测过程本质上为基于现有的语音特征(第一语音的语音特征)和现有的发音单元(第一文本的发音单元)预测第二文本对应的语音特征，以令预测得到预测语音特征所表征的音色与第一语音的语音特征所表征的音色一致，从而保证通过语音合成系统合成得到的第二语音(为了便于区分，定义为第二预测语音)与第一语音的音色一致。其中，第一语音的语音特征基于融合序列表征，第二文本基于第二文本发音编码序列表征，第二预测语音的语音特征基于预测语音特征帧表征。由此，基于第一语音的语音特征预测第二文本对应的语音特征，也就是，基于融合序列X_A，预测第二文本发音编码序列T_B中每个发音单元向量对应的预测语音特征单元E_Bi’，进而得到与该预测语音特征单元对应的预测语音特征帧F_Bi’，即第二语音特征帧预测序列F_B’。

在本申请实施例中，可以参考如图6所示的步骤预测第二语音特征帧预测序列：

S601、基于所述融合序列，通过注意力机制确定所述第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量的数量。

通过注意力机制确定第二文本发音编码序列T_B中每一个发音单元向量对应的语音特征向量(为了便于区分，在本实施例中定义为预测语音特征向量)的数量，也即预测每一个发音单元持续的时间帧的数量(帧数)。

示例地，基于融合序列X_A＝[E_A1+T_A1，E_A2+T_A1，E_A3+T_A2，E_A4+T_A2，E_A5+T_A3，E_A6+T_A3，E_A7+T_A4，E_A8+T_A4]，通过注意力机制，预测到第二文本发音编码序列T_B＝[T_B1，T_B2，T_B3，T_B4]中每一个发音单元向量均对应两个预测语音特征向量，即对应帧数为2。

通过该预测语音特征向量的数量过程，可以保证合成得到的第二预测语音在语速、停顿等影响音色的参数与第一语音保持一致。

为了令语音合成系统预测得到的预测语音特征向量的数量，即预测得到的帧数更加准确，对该预测过程进行训练监督，以所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量作为训练目标，对该预测过程进行收敛训练。

在本申请实施例中，可以参考如图7所示的步骤收敛语音合成系统：

S701、确定所述第二语音编码序列与所述第二文本发音编码序列中具有对应关系的语音特征帧和发音单元向量。

将第二语音作为训练目标，训练语音合成系统。上述确定第二语音编码序列E_B与第二文本发音编码序列T_B中语音特征向量和发音单元向量的对应关系的过程，可以参考S501中公开的通过动态规划手段在第一语音编码序列中的语音特征向量与第一文本发音编码序列中的发音单元向量建立映射关系的过程，此处不再赘述。

示例地，通过动态规划算法，可以确定第二语音编码序列E_B＝[E_B1，E_B2，E_B3，E_B4，E_B5，E_B6，E_B7，E_B8]中各语音特征向量与第二文本发音编码序列T_B＝[T_B1，T_B2，T_B3，T_B4]中各发音单元向量之间的映射关系为：T_B1与E_B1和E_B2具有映射关系，T_B2与E_B3和E_B4具有映射关系，T_B3与E_B5和E_B6具有映射关系，T_B4与E_B7和E_B8具有映射关系。由此，第二文本发音编码序列中每个发音单元向量均对应两个语音特征向量，即每个发音单元对应的帧数为2。

S702、以所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的预测语音特征帧的数量的损失距离，以及所述第二语音特征帧序列与所述第二语音特征帧预测序列的损失距离作为训练语音合成系统的监督信号，以使所述语音合成系统收敛。

通过动态规划算法构建第二文本发音编码序列中每一个发音单元向量对应的语音特征向量的数量与第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量的数量的损失距离DP loss，该损失距离作为训练语音合成系统的监督信号，以监督预测第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量的数量迭代方向，有利于该预测过程快速收敛。

在该预测过程训练收敛后，就可以通过该预测过程，准确确定第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量的数量，即对应的帧数。

S602、将所述第二文本发音编码序列中每一个发音单元向量复制指定次数，得到第二文本发音扩增编码序列，所述指定次数等于对应预测语音特征向量的数量。

基于上文分析可知，发音单元向量的数量小于或者等于语音特征向量的数量，由此，在确定与发音单元向量对应的语音特征向量时，需要首先将文本发音编码序列进行扩增，以得到与语音编码序列等长的扩增序列，此时，发音单元向量与语音特征向量为一一映射的关系，基于该一一映射关系，可以更加准确地预测第二文本发音编码序列中每个发音单元向量对应的预测语音特征向量。扩增第二文本发音编码序列的过程可以参考S502中扩增第一文本发音编码序列的过程，此处不再赘述。

示例地，第二文本发音编码序列扩增后得到第二文本发音扩增编码序列Z_B＝[T_B1，T_B1，T_B2，T_B2，T_B3，T_B3，T_B4，T_B4]。

S603、基于所述融合序列与所述第二文本发音扩增编码序列，通过注意力机制预测所述第二文本发音扩增编码序列中各向量对应的预测语音特征帧，得到所述第二语音特征帧预测序列。

通过注意力机制确定第二文本发音扩增编码序列Z_B中每个发音单元向量对应的预测语音特征向量。

示例地，基于融合序列X_A＝[E_A1+T_A1，E_A2+T_A1，E_A3+T_A2，E_A4+T_A2，E_A5+T_A3，E_A6+T_A3，E_A7+T_A4，E_A8+T_A4]，通过注意力机制，预测到第二文本发音扩增编码序列Z_B中每个发音单元向量对应的预测语音特征向量，例如按照序列中各向量的顺序，T_B1对应E_B1’，T_B1对应E_B2’，T_B2对应E_B3’，T_B2对应E_B4’，T_B3对应E_B5’，T_B3对应E_B6’，T_B4对应E_B7’，T_B4对应E_B8’。

进一步地，基于各预测语音特征向量，可以反向变换得到对应的预测语音特征帧F_Bi’，例如，E_B1’对应F_B1’，E_B2’对应F_B2’，E_B3’对应F_B3’，E_B4’对应F_B4’，E_B5’对应F_B5’，E_B6’对应F_B6’，E_B7’对应F_B7’，E_B8’对应F_B8’。更进一步地，按照时间顺序排列各预测语音特征帧，可以得到第二语音特征帧预测序列F_B’，即F_B’＝[F_B1’，F_B2’，F_B3’，F_B4’，F_B5’，F_B6’，F_B7’，F_B8’]。

通过该预测语音特征帧的过程，可以保证合成得到的第二预测语音在振幅、频率等影响音色的参数与第一语音保持一致。

上述预测得到的第二语音特征帧预测序列，不仅可以表征语速、停顿等影响音色的参数，还可以表征振幅、频率等影响音色的参数，令该第二语音特征帧预测序列所表征的音色可以更加贴近第一语音的音色。

S207、以所述第二语音特征帧预测序列与所述第二语音特征帧序列的损失距离，以及所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的所述预测得到的语音特征向量的数量的损失距离作为训练语音合成系统的监督信号，当所述语音合成系统训练收敛后，将所述第二特征帧预测序列耦合至声码器，所述声码器用于根据所述第二语音特征帧预测序列生成第二预测语音并输出。

为了令语音合成系统预测得到第二语音特征帧预测序列更加准确，可以对该预测过程进行训练监督。具体地，以第二语音特征帧序列作为训练目标，对该预测过程进行收敛训练。

将第二语音特征帧序列作为训练目标，训练语音合成系统。通过动态规划算法构建第二语音特征帧中每一个语音特征帧与第二语音特征帧预测序列中每一个预测语音特征帧的损失距离，该损失距离作为训练语音合成系统的监督信号，以监督预测第二语音特征帧预测序列中每一个预测语音特征帧的迭代方向，有利于该预测过程快速收敛。

在该预测过程训练收敛后，就可以通过该预测过程，准确确定第二语音特征帧预测序列，并将第二语音特征帧预测序列耦合至声码器，使得声码器将该第二语音特征帧预测序列变换为对应的时域信号，并输入该时域信号，以得到第二预测语音。此时，该第二预测语音与第一语音的音色一致，而与语音内容与第一语音不同，即存在对应的区别文本单元。

本申请实施例提供的技术方案，构建并训练了一种语音合成系统，该语音合成系统在训练时，以语音音色一致、而文本内容不同的两组训练数据作为训练样本，以同一组中文本与语音之间发音单元和语音特征的映射关系，以及另一组中文本的发音单元作为输入，以该另一组中语音的语音特征作为训练目标，预测该另一组中文本的发音单元对应的预测语音特征，以使得该预测语音特征与文本单元合成得到的预测语音的音色与作为输入的语音的音色一致。由此，在训练该语音合成系统时，仅需保证同一个训练样本来自同一个录音员，而无需要求全部训练样本均来自同一个录音员。而且，对发音人的音色无要求，即通过该语音合成系统可以针对任意发音人修改后的语音内容合成出与该发音人音色一致的语音，且无需专门针对该发音人进行额外的模型训练，语音合成效率更高。

上述实施例对本申请提供的语音合成方法的各方案进行了介绍。可以理解的是，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件、软件或硬件和软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图8是本申请实施例提供的一种语音合成系统的示意图。在一个实施例中，该系统可以通过硬件结构实现相应的功能。如图7所示，该系统可以包括：存储器801、处理器802、输入设备803和输出设备804。

其中，处理器802例如可以包括系统芯片(system on a chip，SoC)，中央处理器(central processing unit，CPU)应用处理器(application processor，AP)，图形处理器(graphics processing unit，GPU)，神经网络处理器(neural-network processing unit，NPU)或者其他处理器中的一种或者多种的配合。输入设备803例如可以包括键盘、手写板、通用串行总线(universal serial bus，USB)接口或者其他输入设备中的一种或者多种的配合，输入设备803用于在语音合成系统训练阶段接收用户输入的训练数据，或者，用于在语音合成系统的使用阶段接收用户输入的文本等。输出设备804例如可以包括声码器、扬声器、功率放大器(power amplifier，PA)、数字模拟转换器(digital to analog converter，DAC)或者其他输出设备的一种或者多种的配合，用于在语音合成系统的使用阶段将预测得到的语音频谱单元预测序列输入为语音。

存储器801存储有程序指令，当程序指令被处理器执行时，使得训练系统执行如下程序步骤：获取训练样本，所述训练样本包括一组第一语音和第一文本，以及一组第二语音和第二文本，其中，所述第一语音与所述第二语音的音色一致，且所述第一文本与所述第二文本之间存在至少一个区别文本单元；分别提取所述第一语音和所述第二语音对应的语音特征帧，得到第一语音特征帧序列和第二语音特征帧序列；分别将所述第一语音特征帧序列、所述第一文本、所述第二语音特征帧序列、所述第二文本分别进行编码，得到对应的第一语音编码序列、第一文本发音编码序列、第二语音编码序列、第二文本发音编码序列，其中，每个语音编码序列包括与各语音特征帧对应的语音特征向量，每个文本发音编码序列包括各发音单元向量；按照语音特征帧与发音单元的时间映射关系，将所述第一语音编码序列中的语音特征向量与所述第一文本发音编码序列中对应的发音单元向量进行融合，得到对应的融合序列，其中，所述融合序列中的第一文本发音编码序列经过扩增处理，以使所述发音单元向量的数量与所述第一语音编码序列中的语音特征向量的数量相等；基于所述融合序列，预测所述第二文本发音编码序列中每个发音单元向量对应的语音特征向量的数量，并基于预测得到的语音特征向量的数量扩增所述第二文本发音编码序列，得到第二文本发音扩增编码序列；基于所述融合序列与所述第二文本发音扩增编码序列，预测所述第二文本发音扩增编码序列中每个向量对应的预测语音特征向量，得到第二语音特征帧预测序列；以所述第二语音特征帧预测序列与所述第二语音特征帧序列的损失距离，以及所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的所述预测得到的语音特征向量的数量的损失距离作为训练语音合成系统的监督信号，当所述语音合成系统训练收敛后，将所述第二特征帧预测序列耦合至声码器，所述声码器用于根据所述第二语音特征帧预测序列生成第二预测语音并输出。

图9是本申请实施例提供的一种语音合成装置的示意图。在一个实施例中，该装置通过软件模块实现相应的功能。如图9所示，该装置可以包括：

输入模块901，用于获取训练样本，所述训练样本包括一组第一语音和第一文本，以及一组第二语音和第二文本，其中，所述第一语音与所述第二语音的音色一致，且所述第一文本与所述第二文本之间存在至少一个区别文本单元；

特征提取模块902，用于分别提取所述第一语音和所述第二语音对应的语音特征帧，得到第一语音特征帧序列和第二语音特征帧序列；

编码模块903，用于分别将所述第一语音特征帧序列、所述第一文本、所述第二语音特征帧序列、所述第二文本分别进行编码，得到对应的第一语音编码序列、第一文本发音编码序列、第二语音编码序列、第二文本发音编码序列，其中，每个语音编码序列包括与各语音特征帧对应的语音特征向量，每个文本发音编码序列包括各发音单元向量；

融合模块904，用于按照语音特征帧与发音单元的时间映射关系，将所述第一语音编码序列中的语音特征向量与所述第一文本发音编码序列中对应的发音单元向量进行融合，得到对应的融合序列，其中，所述融合序列中的第一文本发音编码序列经过扩增处理，以使所述发音单元向量的数量与所述第一语音编码序列中的语音特征向量的数量相等；

第一预测模块905，用于基于所述融合序列，预测所述第二文本发音编码序列中每个发音单元向量对应的语音特征向量的数量，并基于预测得到的语音特征向量的数量扩增所述第二文本发音编码序列，得到第二文本发音扩增编码序列；

第二预测模块906，用于基于所述融合序列与所述第二文本发音扩增编码序列，预测所述第二文本发音扩增编码序列中每个向量对应的预测语音特征向量，得到第二语音特征帧预测序列；

输出模块907，用于以所述第二语音特征帧预测序列与所述第二语音特征帧序列的损失距离，以及所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的所述预测得到的语音特征向量的数量的损失距离作为训练语音合成系统的监督信号，当所述语音合成系统训练收敛后，将所述第二特征帧预测序列耦合至声码器，所述声码器用于根据所述第二语音特征帧预测序列生成第二预测语音并输出。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请实施例还提供了一种芯片系统，该芯片系统包括处理器，用于支持上述系统实现上述方面中所涉及的功能，例如，生成或处理上述方法中所涉及的信息。在一种可能的设计中，芯片系统还包括存储器，用于保存长连接系统必要的计算机指和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

以上的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种可局部修改内容的语音合成方法，其特征在于，包括：

按照语音特征帧与发音单元的时间映射关系，将所述第一语音编码序列中的语音特征向量与所述第一文本发音编码序列中对应的发音单元向量进行融合，得到对应的融合序列，其中，所述时间映射关系为在时间维度上，一个发音单元对应至少一个语音特征帧，所述融合序列中的第一文本发音编码序列经过扩增处理，所述扩增处理为将每个发音单元向量复制目标次数，得到第一文本发音扩增编码序列，所述目标次数等于所述发音单元向量在所述第一语音编码序列中对应位置持续的语音特征向量的数量，以使所述发音单元向量的数量与所述第一语音编码序列中的语音特征向量的数量相等；

基于所述融合序列，预测所述第二文本发音编码序列中每个发音单元向量对应的语音特征向量的数量，并基于预测得到的语音特征向量的数量，将所述第二文本发音编码序列中每一个发音单元向量复制指定次数，得到第二文本发音扩增编码序列，所述指定次数等于对应预测语音特征向量的数量；

以所述第二语音特征帧预测序列与所述第二语音特征帧序列的损失距离，以及所述第二文本发音编码序列中每一个发音单元向量对应的语音特征帧的数量与所述第二文本发音编码序列中每一个发音单元向量对应的所述预测得到的语音特征向量的数量的损失距离作为训练语音合成系统的监督信号，当所述语音合成系统训练收敛后，将所述第二语音特征帧预测序列耦合至声码器，所述声码器用于根据所述第二语音特征帧预测序列生成第二预测语音并输出。

2.根据权利要求1所述的方法，其特征在于，所述区别文本单元与全部文本单元的数量占比小于预设比例阈值。

3.根据权利要求1所述的方法，其特征在于，通过以下步骤获取目标语音对应的语音特征帧序列，所述目标语音为所述第一语音和所述第二语音：

将所述目标语音的时域信号以帧为单位转换为频域信号；

4.根据权利要求1所述的方法，其特征在于，通过以下步骤编码目标文本，所述目标文本为所述第一文本和所述第二文本：

5.根据权利要求1所述的方法，其特征在于，所述第一语音和所述第二语音采用同一个语音编码器，所述第一文本和所述第二文本采用同一个文本编码器。

6.根据权利要求1所述的方法，其特征在于，通过以下步骤融合所述第一语音编码序列与所述第一文本发音编码序列：

7.根据权利要求6所述的方法，其特征在于，通过动态规划算法获取所述第一文本发音编码序列中每个发音单元向量的目标次数，其中，所述动态规划算法通过一个预训练的隐马尔可夫Hidden Markov Model模型进行强制对齐force alignment实现，或者通过注意力神经网络的注意力矩阵实现。

8.根据权利要求1所述的方法，其特征在于，所述基于所述融合序列，预测所述第二文本发音编码序列中每一个发音单元向量对应的预测语音特征向量，得到第二语音特征帧预测序列，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种语音合成系统，其特征在于，包括：存储器和处理器，所述存储器存储有程序指令，当所述程序指令被所述处理器执行时，使得所述语音合成系统执行如下程序步骤：