CN112634865B

CN112634865B - 语音合成方法、装置、计算机设备和存储介质

Info

Publication number: CN112634865B
Application number: CN202011538151.4A
Authority: CN
Inventors: 张坚; 张坤雷
Original assignee: Aiways Automobile Co Ltd
Current assignee: Aiways Automobile Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-10-28
Anticipated expiration: 2040-12-23
Also published as: CN112634865A

Abstract

本申请涉及一种语音合成方法、装置、计算机设备和存储介质。所述方法包括：获取待处理的中英混合文本；对待处理的中英混合文本进行分段处理，得到中文分段和英文分段；通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；融合中文语音数据和英文语音数据，生成中英混合文本的语音数据。本方法通过采用端到端的向量生成模型，可以简化语音合成系统的结构，加快语音合成的效率。

Description

语音合成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音合成方法、装置、计算机设备和存储介质。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音音频的技术。语音合成技术可以针对单一语种；也可以针对混合语种，例如，中英文。

传统技术中，针对中英文混合的语音合成可以基于由独立的中文模型和英文模型集成的语音合成系统实现。语音合成系统首先通过首先GBK（Chinese Internal CodeSpecification，汉字内码扩展规范）编码将输入的中英混合语句划分成中文、英文语句。然后，对中文、英文语句进行语句分析得到各自对应的语句labels（标注信息）。将中文labels按韵律词进行分段，得到中文分段；英文labels按单词进行分段，得到英文分段。通过中文模型对中文分段进行语音合成；通过英文模型对英文分段进行语音合成。最后，将合成的中英文语音数据存入音频缓冲单元中等待播放。

但是，随着计算机技术的发展，对系统的高效性要求越来越高，因此亟需一种更加高效的语音合成方法。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对中英混合文本进行语音合成效率的语音合成方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种语音合成方法，所述方法包括：

获取待处理的中英混合文本；

对所述中英混合文本进行分段处理，得到中文分段和英文分段；

通过向量生成模型得到所述中文分段的中文语音特征向量，以及所述英文分段的英文语音特征向量；

将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；

融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据。

在其中一个实施例中，所述对所述待处理的中英混合文本进行分段处理，得到中文分段和英文分段，包括：

依次对所述中英混合文本中的每个字符进行检测，得到每个字符的字符类别；

根据所述字符类别对所述中英混合文本进行分段处理，得到所述中文分段和所述英文分段。

在其中一个实施例中，所述根据所述字符类别对所述中英混合文本进行分段处理，得到所述中文分段和所述英文分段，包括：

若检测到当前字符的字符类别为中文，则将所述当前字符输出至当前中文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到所述当前中文分段；

若检测到当前字符的字符类别为英文或空格，则将所述当前字符输出至当前英文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到所述当前英文分段；

直至所述中英混合文本全部检测完毕，得到所述中文分段和所述英文分段。

在其中一个实施例中，所述融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据，包括：

获取对所述中英混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个；

根据所述分段标识或所述分段数量对所述中文语音数据和英文语音数据进行拼接，得到所述语音数据。

在其中一个实施例中，所述向量生成模型包括编码器、注意力块和解码器；

所述通过向量生成模型得到所述中文分段的中文语音特征向量，以及所述英文分段的英文语音特征向量，包括：

通过所述编码器将所述中文分段转换为对应的拼音分段，并对所述拼音分段和所述英文分段进行编码处理，得到各自对应的中文特征序列和英文特征序列；

通过所述注意力块基于注意力机制将所述中文特征序列转换成固定长度的中文语境向量，将所述英文特征序列转换成固定长度的英文语境向量；

通过所述解码器对所述中文语境向量和所述英文语境向量进行解码处理，得到所述中文语音特征向量和所述英文语音特征向量。

在其中一个实施例中，所述将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据，包括：

将所述中文语音特征向量和所述英文语音特征向量进行转换得到各自对应的线性频谱特征向量；

根据所述线性频谱特征向量生成所述中文语音数据和所述英文语音数据。

第二方面，本申请实施例提供一种语音合成装置，所述装置包括：

获取模块，用于获取待处理的中英混合文本；

分段模块，用于对所述中英混合文本进行分段处理，得到中文分段和英文分段；

向量生成模块，用于通过向量生成模型得到所述中文分段的中文语音特征向量，以及所述英文分段的英文语音特征向量；

声码器模块，用于将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；

语音融合模块，用于拼接所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据。

在其中一个实施例中，所述分段模块，包括：

字符检测单元，用于依次对所述中英混合文本中的每个字符进行检测，得到每个字符的字符类别；

分段单元，用于根据所述字符类别对所述中英混合文本进行分段处理，得到所述中文分段和所述英文分段。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的语音合成方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的语音合成方法。

上述语音合成方法、装置、计算机设备和存储介质，通过对待处理的中英混合文本进行分段处理，得到中文分段和英文分段；基于向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据，进而生成中英混合文本的语音数据。通过采用端到端的向量生成模型，可以简化语音合成系统的结构，加快语音合成的效率；通过采用端到端的模型，还可以简化模型的训练生成过程。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1为一个实施例中语音合成方法的应用环境图；

图2为一个实施例中语音合成方法的流程示意图；

图3为一个实施例中对中英混合文本进行分段步骤的流程示意图；

图4为一个实施例中得到语音特征向量步骤的示意图；

图5为一个实施例中向量生成模型的结构示意图；

图6为另一个实施例中语音合成方法的流程示意图；

图7为一个实施例中语音合成系统的结构示意图；

图8为一个实施例中语音合成装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音合成方法，可以应用于如图1所示的应用环境中。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备等。终端110中可以配置有文本划分策略、已训练的向量生成模型、声码器、音频融合逻辑等。具体地，终端110获取待处理的中英混合文本；基于文本划分策略对中英混合文本进行分段处理，得到中文分段和英文分段；通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；基于声码器将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；基于音频融合逻辑融合中文语音数据和英文语音数据，生成中英混合文本的语音数据。终端110可以通过音频播放装置播放得到的语音数据。

在另一个实施例中，本申请提供的语音合成方法可以应用于包括终端和服务器的应用环境中。其中，终端通过网络与服务器进行通信。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。文本划分策略、已训练的向量生成模型、声码器、音频融合逻辑等可以部署在服务器中。由服务器对中英混合文本进行处理，得到语音数据。服务器可以将语音数据发送至终端，以使终端能够通过音频播放装置播放得到的语音数据。

在一个实施例中，如图2所示，提供了一种语音合成方法，以该方法应用于图1中的终端110为例进行说明，包括以下步骤：

步骤S210，获取待处理的中英混合文本。

其中，待处理的中英混合文本可以是用户通过终端实时输入的文本，终端可以响应于用户对输入完成按键的触发操作，获取待处理的中英混合文本。

或者，中英混合文本还可以是从预先存储在本地数据库或者服务器中获取的文本，例如电子书籍中的文本等。终端可以响应于语音合成指令，从本地数据库或者服务器中获取中英混合文本。语音合成指令可以是用户通过点击语音合成控件等方式触发的，也可以是终端或者服务器在检测到满足合成条件时触发的。

步骤S220，对中英混合文本进行分段处理，得到中文分段和英文分段。

其中，中文分段可以是指由至少一个中文字符组成的纯中文分段，数量可以为至少一个。英文分段可以是指由至少一个英文字符组成的纯英文分段，数量可以为至少一个。

具体地，终端中部署有文本划分策略。文本划分策略可以是指基于字符类别进行划分的策略。终端可以根据字符的类别，将中英混合文本中连续的中文字符进行划分得到至少一个中文分段，将连续的英文字符进行划分得到至少一个英文片段。

在一些可能性实施例中，终端还可能获取单一语种文本。这种情况下，终端可以基于所获取的字符类别，不对该单一语种文本进行分段处理。

步骤S230，通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量。

其中，向量生成模型是一种端到端模型，可以是任一种能够用于生成语音特征向量的模型，例如，卷积神经网络模型、循环神经网络模型等。端到端模型可以是指对整个机器学习的流程不进行人为的子问题划分，而是完全通过深度学习模型直接学习从原始数据到期望输出的映射。向量生成模型可以采用包含中文语音样本和英文语音样本的音频样本及对应的文本标签进行训练，从而使该模型同时具有生成中文文本对应的语音特征向量和英文文本对应的语音特征向量的能力。

具体地，终端在获取中文分段和英文分段后，可以按照中文分段和英文分段在中英混合文本中的顺序，将中文分段和英文分段输入至向量生成模型。通过向量生成模型得到中文语音特征向量和英文语音特征向量。

步骤S240，将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据。

具体地，终端可以通过声码器将所获取的中文语音特征向量转换为对应的中文语音数据，将英文语音特征向量转换为对应的英文语音数据。声码器可以用于将声学特征转成可播放的语音波形。声码器可以采用基于相位重构的声码器，例如Griffin Lim（一种声码器）算法；或者基于神经网络的声码器，例如WaveRNN（一种基于神经网络的音频合成模型）、 LPCNet（一种声码器）等。

步骤S250，融合中文语音数据和英文语音数据，生成中英混合文本的语音数据。

具体地，终端可以按照中文分段和英文分段在中英混合文本中的顺序，将将中文语音数据和英文语音数据进行融合处理，最终生成与中英混合文本对应的语音数据。终端可以将该语音数据发送至音频播放装置进行播放。

上述语音合成方法中，通过对待处理的中英混合文本进行分段处理，得到中文分段和英文分段；基于端到端的向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据，进而生成中英混合文本的语音数据。通过采用端到端的向量生成模型，可以简化语音合成系统的结构，加快语音合成的效率；通过采用端到端的模型，还可以简化模型的训练生成过程。

在一个实施例中，对中英混合文本的一种分段方式进行说明。步骤S210，对待处理的中英混合文本进行分段处理，得到中文分段和英文分段，包括：依次对中英混合文本中的每个字符进行检测，得到每个字符的字符类别；根据字符类别对中英混合文本进行分段处理，得到中文分段和英文分段。

其中，字符类别可以包括中文、英文、空格、标点等。具体地，终端在获取中英混合文本后，遍历中英混合文本中的每个字符，得到每个字符的字符类别。根据字符类别将中英混合文本中连续的字符类别相同的字符进行分段，得到中文分段和英文分段。其中，中文分段或英文分段中不排除只有一个字符的情况。

在一个实施例中，基于字符类别进行分段可以通过以下步骤实现：从第一个字符开始，若检测到当前字符的字符类别为中文，则将当前字符输出至当前中文分段，并继续对下一个字符进行检测，直至检测到下一个字符的字符类别发生变更，得到当前中文分段；若检测到当前字符的字符类别为英文或空格，则将当前字符输出至当前英文分段，并继续对下一个字符进行检测，直至检测到下一个字符的字符类别发生变更，得到当前英文分段。直至中英混合文本全部检测完毕，得到中文分段和英文分段。示例性地，中英混合文本为“我喜欢听“yesterday once more”这首英文歌曲”，基于字符类别的方式可以得到“我喜欢听”、“yesterday once more”、“这首英文歌曲”三个分段。

在一个具体的实施例中，字符类别可以包括中文、英文和空格三个类别。如图3所示，基于字符类别进行分段可以通过以下步骤实现：

步骤S310，获取中英混合文本的总长度（即字符总数）以及预先配置的长度索引变量。

其中，中英混合文本的总长度可以特指中文、英文和空格三中字符类别的长度。在Python（一种计算机程序设计语言）语言中，中英混合文本的长度可以通过Len函数（一种用于返回文本字符串中的字符数的函数）得到。每增加一个中文文字或者一个英文字母，都可使总长度的值增加1。长度索引变量的初始值可以为1。

步骤S320，获取当前字符的字符类别。当前字符的字符类别可以为中文、英文和空格中的任一个。

步骤S330，长度索引变量增加1。

步骤S340，若当前字符的字符类别为英文或空格，则继续步骤S350；否则继续步骤S320。

步骤S350，将索引变量的值赋值给当前英文分段，直至下一个字符的字符类别变更为中文，输出当前英文分段的索引最大值和索引最小值。

步骤S360，判断当前长度索引变量是否达到中英混合文本的总长度。若达到，则执行步骤S370；若未达到，则执行步骤S320。

步骤S370，根据英文分段的索引最大值和索引最小值对中英混合文本进行划分。将索引最大值和索引最小值之间的分段作为英文分段。其余部分作为中文分段。

举例说明，英文分段的索引最大值为imax，索引最小值为imin。则可将中英混合文本中索引变量为[1:imin-1]的部分归类为一个中文分段、[imax+1:L]的部分归类为另一个中文分段；将索引变量为[imin:imax]的部分归类为英文分段。

本实施例中，基于字符类别进行分段的方式具有实现流程简单、运算速度快且准确率较高的优点，因此，通过采用该方式有助于提高语音合成的效率和准确性。

在一个实施例中，步骤S250，拼接中文语音数据和英文语音数据，生成中英混合文本的语音数据，包括：获取对中英混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个；根据分段标识或分段数量对中文语音数据和英文语音数据进行拼接，得到语音数据。

其中，分段标识可以用于表征分段在中英混合文本中的位置，例如可以是唯一性序号。每个分段可以是指每个中文分段和每个英文分段。具体地，终端在对中英混合文本进行分段后，可以按照每个分段在中英混合文本中的位置生成与每个分段对应的唯一性分段标识。终端在获取中文语音数据和英文语音数据后，可以根据各自对应的分段标识对中文语音数据和英文语音数据进行拼接处理。

或者，中文分段和英文分段已是按照在中英混合文本中的排序进行顺序处理，因此，终端可以获取分段数量。根据分段数量对中文语音数据和英文语音数据进行分段数量减一次的拼接，得到语音数据。

本实施例中，基于分段标识或者分段数量进行拼接，具有实现流程简单、运算速度快等优点，因此，通过采用该方式有助于提高语音合成的效率。

在一个实施例中，如图4所示，步骤S230，通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量，包括：

步骤S410，通过编码器将中文分段转换为对应的拼音分段，并对拼音分段和英文分段进行编码处理，得到各自对应的中文特征序列和英文特征序列。

步骤S420，通过注意力块基于注意力机制将中文特征序列转换成固定长度的中文语境向量，将英文特征序列转换成固定长度的英文语境向量。

步骤S430，通过解码器对中文语境向量和英文语境向量进行解码处理，得到中文语音特征向量和英文语音特征向量。

其中，向量生成模型用于得到中文分段对应的拼音的语音特征向量，以及英文分段的英文字母的语音特征向量。例如，对于“我喜欢听yesterday once more这首英文歌曲”这个分段后的中英混合文本，经过向量生成模型后可以输出“我喜欢听”、“yesterday oncemore”、“这首英文歌曲”分别对应的语音特征向量。

向量生成模型输出的语音特征向量可以是梅尔倒谱特征向量（MFCC，MelFrequency Cepstral Coefficents）。梅尔倒谱是基于声音频率的非线性梅尔刻度（Melscale）的对数能量频谱的线性变换。训练样本中的梅尔倒谱特征向量可以由短时傅立叶变换转换得到。可以使用包含160个滤波器的梅尔滤波器组，并通过对数动态范围压缩（DRC，Dynamic Range Compression）中的对数映射算法，将语音信号的短时傅立叶变换转化为梅尔倒谱特征。

具体地，如图5所示，向量生成模型可以由图5中的编码器、位置敏感注意力模块、解码器组成，编码器可以将输入的分段文本转换为隐藏的特征表现（充分编码的特征序列）。位置敏感注意力模块可以将充分编码的特征序列变为固定长度的上下文语境向量。解码器可以通过上下文语境向量预测频谱图，得到基准发音人的梅尔倒谱特征向量。

以下参照图5对向量生成模型的检测过程进行说明：

（1）编码器中包括字母转换块、字符嵌入块、编码器卷积网络块、双向长短时记忆网络块。

字母转换块：用于接收中文分段和（或）英文分段。将中文分段转换为对应的拼音分段并传输至字符嵌入块，将由单词组成的英文分段直接传输至字符嵌入块。

字符嵌入块：用于将拼音分段或英文分段序列语句转换为预设维数（可以为256维）的嵌入式特征向量。具体地，字符嵌入块接收到拼音分段或英文分段序列语句后，按照拼音分段或英文分段的字符排序构造对应的字典。根据拼音分段中每个拼音或英文分段中每个英文单词在词典中排序的位置进行独热编码。每个拼音或英文单词的独热编码可视为原始特征。然后，采用Word2vec（一种产生词向量的模型）等算法将每个拼音或英文单词的原始特征转换为词向量的嵌入式特征向量。

编码卷积网络块和双向长短时记忆网络块：用于将嵌入式特征向量转换为完全编码的特征序列。其中，编码卷积网络块从输入至输出依次可以包括三层卷积层。每层卷积层可以包括256个卷积核。每个卷积核可以包括一个修正线性单元，且每个卷积核的大小为5*1。编码卷积网络块用于对上下文中存在的长时依赖进行建模。双向长短时记忆网络块的每个方向可以包括128个长短时记忆单元。双向长短时记忆网络块是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而设计出来的。将编码卷积网络块的输出输入至双向长短时记忆网络块，得到中文特征序列和英文特征序列。

（2）位置敏感注意力块：用于基于注意力机制将编码器的输出转换为固定长度的语境向量。通过位置敏感注意力块可以减少解码过程中潜在的子序列重复或遗漏，从而提高成功的概率。位置敏感注意力块可以包含32个长度为31的一维卷积核，从而可以将输入的中文特征序列、英文特征序列和位置特征投影到128维的固定长度的中文语境向量和英文语境向量。

（3）解码器包括后网络块、线性投影块、解码器长短时记忆网络块、预网络块等功能块。其中：

解码器长短时记忆网络块：可以包括两层长短时记忆单元。每层长短时记忆单元可以包含512个长短时记忆单元。解码器长短时记忆网络块的输入来自串联后的预网络块的输出和位置敏感注意力块输出的语境向量。

预网络模块：可以包括至少一层（可以为两层）全连接层。每层全连接层可以有128个输出节点。相应地，也可以包含128个线性修正单元。

线性投影块：用于接收解码器长短时记忆网络块输出的信号，并将其转换为语音信号对应的频谱，从而实现语音信号频谱的重构。

后网络块：可以包括多层（例如五层）卷积层。每层卷积层可以包含256个5*1的卷积核。后网络块可以后接批量归一化层。每个批量归一化层可以使用256个tanh（双曲正切）激活函数。后网络模块用于预测残差，用以改善频谱重构的效果。

本实施例中，通过采用端到端的向量生成模型，可以简化语音合成系统的结构，加快语音合成的效率；通过使向量生成模型实现中文拼音和英文单词至语音特征向量的直接转换，使模型训练过程中只需将中文转为拼音即可得到中文标签，英文标签则可以直接使用英文单词，从而极大地的简化了模型的训练生成过程。

在一个实施例中，步骤S240，将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据，包括：将中文语音特征向量和英文语音特征向量进行转换得到各自对应的线性频谱特征向量；根据线性频谱特征向量生成中文语音数据和英文语音数据。

具体地，终端将中文语音特征向量和英文语音特征向量转换为各自对应的线性频谱特征向量。基于声码器等将各自对应的线性频谱特征向量转换为对应的语音数据。语音数据可以保存为WAV（波形声音文件）或MP3（Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3）等格式的音频。

以声码器为WaveRNN网络为例。WaveRNN网络主要包含一个门控回归单元层（GRU，Gated Recurrent Unit Recurrent Neural Networks）。门控回归单元层后连接两个全连接层。最后采用softmax层（归一化层）对全连接层的输出进行处理。可以通过以下计算公式实现：

其中，

和

矩阵是GRU单元的权值矩阵；

是激活函数；运算符

表示一个逐个元素的向量乘运算；

是前一个音频采样点的值；

是条件参数。

本实施例中，通过采用WaveRNN网络等声码器进行语音特征向量至音频的转换，基于简单的架构便可实现较好的语音合成效果，从而在不影响音频质量的前提下，简化了语音合成系统的结构。

在一个实施例中，如图6所示，提供了一种语音合成方法，以该方法应用于图7中的语音合成系统为例进行说明。如图6所示，包括以下步骤：

步骤S602，获取待处理的中英混合文本。

步骤S604，检测得到中英混合文本中每个字符的字符类别，根据每个字符的类别对中英混合文本进行分段处理，得到中文分段和英文分段。基于字符类别进行分段的具体实现方式可以参照上述实施例，在此不做具体阐述。

步骤S606，获取分段后的分段数量。例如，对于“我喜欢听yesterday once more这首英文歌曲”文本，分段可以得到“我喜欢听”、“yesterday once more”、“这首英文歌曲”三个分段。

步骤S608，通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量。语音特征向量的具体实现方式可以参照上述实施例，在此不做具体阐述。

步骤S610，通过声码器将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据。例如，对于“我喜欢听”、“yesterday once more”、“这首英文歌曲”3个分段，经过声码器后“我喜欢听”、“yesterday once more”、“这首英文歌曲”分别对应的语音数据。

步骤S612，根据分段数量进行分段数量减一次的音频拼接，得到中英混合文本的完整音频。示例性地，分段数量为pn，则对中文语音数据和英文语音数据进行pn-1次的拼接。输出或播放该完整的音频文件。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述所述的语音合成方法实施例的描述，本公开还提供语音合成装置。所述装置可以包括使用了本说明书实施例所述方法的系统（包括分布式系统）、软件（应用）、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

在一个实施例中，如图8所示，提供了一种语音合成装置800，包括：获取模块810、分段模块820、向量生成模块830、声码器模块840和拼接模块850，其中：

获取模块810，用于获取待处理的中英混合文本；分段模块820，用于对中英混合文本进行分段处理，得到中文分段和英文分段；向量生成模块830，用于通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；声码器模块840，用于将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；语音融合模块850，用于融合中文语音数据和英文语音数据，生成中英混合文本的语音数据。

在一个实施例中，分段模块820，包括：字符检测单元，用于依次对中英混合文本中的每个字符进行检测，得到每个字符的字符类别；分段单元，用于根据字符类别对中英混合文本进行分段处理，得到中文分段和英文分段。

在一个实施例中，分段单元，用于若检测到当前字符的字符类别为中文，则将当前字符输出至当前中文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到当前中文分段；若检测到当前字符的字符类别为英文或空格，则将当前字符输出至当前英文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到当前英文分段；直至中英混合文本全部检测完毕，得到中文分段和英文分段。

在一个实施例中，语音融合模块850，包括：获取单元，用于获取对中英混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个；拼接单元，用于根据分段标识或分段数量对中文语音数据和英文语音数据进行拼接，得到语音数据。

在一个实施例中，向量生成模型包括编码器、注意力块和解码器；向量生成模块830，包括：编码单元，用于通过编码器将中文分段转换为对应的拼音分段，并对拼音分段和英文分段进行编码处理，得到各自对应的中文特征序列和英文特征序列；注意力单元，用于通过注意力块基于注意力机制将中文特征序列转换成固定长度的中文语境向量，将英文特征序列转换成固定长度的英文语境向量；解码单元，用于通过解码器对中文语境向量和英文语境向量进行解码处理，得到中文语音特征向量和英文语音特征向量。

在一个实施例中，声码器模块840，用于将中文语音特征向量和英文语音特征向量进行转换得到各自对应的线性频谱特征向量；根据线性频谱特征向量生成中文语音数据和英文语音数据。

关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理的中英混合文本；对中英混合文本进行分段处理，得到中文分段和英文分段；通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；融合中文语音数据和英文语音数据，生成中英混合文本的语音数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

依次对中英混合文本中的每个字符进行检测，得到每个字符的字符类别；根据字符类别对中英混合文本进行分段处理，得到中文分段和英文分段。

若检测到当前字符的字符类别为中文，则将当前字符输出至当前中文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到当前中文分段；若检测到当前字符的字符类别为英文或空格，则将当前字符输出至当前英文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到当前英文分段；直至中英混合文本全部检测完毕，得到中文分段和英文分段。

获取对中英混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个；根据分段标识或分段数量对中文语音数据和英文语音数据进行拼接，得到语音数据。

在一个实施例中，向量生成模型包括编码器、注意力块和解码器；处理器执行计算机程序时还实现以下步骤：

通过编码器将中文分段转换为对应的拼音分段，并对拼音分段和英文分段进行编码处理，得到各自对应的中文特征序列和英文特征序列；通过注意力块基于注意力机制将中文特征序列转换成固定长度的中文语境向量，将英文特征序列转换成固定长度的英文语境向量；通过解码器对中文语境向量和英文语境向量进行解码处理，得到中文语音特征向量和英文语音特征向量。

将中文语音特征向量和英文语音特征向量进行转换得到各自对应的线性频谱特征向量；根据线性频谱特征向量生成中文语音数据和英文语音数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，向量生成模型包括编码器、注意力块和解码器；计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取待处理的中英混合文本；

融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据；

其中，所述向量生成模型包括编码器、注意力块和解码器；

2.根据权利要求1所述的方法，其特征在于，所述对所述中英混合文本进行分段处理，得到中文分段和英文分段，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述字符类别对所述中英混合文本进行分段处理，得到所述中文分段和所述英文分段，包括：

4.根据权利要求1所述的方法，其特征在于，所述融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据，包括：

6.一种语音合成装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的中英混合文本；

语音融合模块，用于融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据；

其中，所述向量生成模块包括编码器、注意力块和解码器；

所述向量生成模块，包括：

编码单元，用于通过所述编码器将所述中文分段转换为对应的拼音分段，并对所述拼音分段和所述英文分段进行编码处理，得到各自对应的中文特征序列和英文特征序列；

注意力单元，用于通过所述注意力块基于注意力机制将所述中文特征序列转换成固定长度的中文语境向量，将所述英文特征序列转换成固定长度的英文语境向量；

解码单元，用于通过所述解码器对所述中文语境向量和所述英文语境向量进行解码处理，得到所述中文语音特征向量和所述英文语音特征向量。

7.根据权利要求6所述的装置，其特征在于，所述分段模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述分段单元，还用于：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。