CN115547296A

CN115547296A - 一种语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN115547296A
Application number: CN202211503515.4A
Authority: CN
Inventors: 汤志淼; 陈新月; 宋成业
Original assignee: Lingxi Beijing Technology Co Ltd
Current assignee: Lingxi Beijing Technology Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2022-12-30
Anticipated expiration: 2042-11-29
Also published as: CN115547296B

Abstract

本申请提供一种语音合成方法、装置、电子设备及存储介质，所述方法包括：获取待合成文本，并输入已训练的语音合成模型；其中，语音合成模型的训练数据为多组，每组训练数据包括文本样本以及相应的语音样本，多组训练数据携带至少一种情感信息；待合成文本与其中一组训练数据中的目标文本样本对应；获取语音合成模型输出的携带目标情感信息的合成语音；目标情感信息为目标文本样本相应的目标语音样本所携带的情感信息。如此，针对上述待合成文本可以合成出携带有目标情感信息的合成语音，且目标感情信息与目标文本样本相应的语音样本所携带的情感信息一致，使得合成语音具有情感表现力，提高了合成语音的质量与用户体验。

Description

一种语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及技术语音处理领域，具体而言，涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

近年来随着人工智能（Artificial Intelligence，AI）技术的迅速发展，人机交互变得越来越频繁，而语音合成是人机交互中的重要一环。语音合成技术又被称为文语转换（Text to Speech，TTS）技术，就是可以将文字信息转化为流畅标准的语音，其所合成的声音既可以是模仿某个人的声音，也可以是包含特定风格的声音。基于这样的特点，语音合成技术能够应用到许多领域，例如智能家居、智能机器人、智能音响、虚拟偶像、有声读物、教育行业等。语音合成技术的广泛应用可以改善人机交互困难的情景，使人类与计算机的交流更加方便快捷。然而在相关技术中，合成的语音往往缺少情感的表现力，大大影响了合成语音的质量以及用户体验。

发明内容

本申请实施例的目的在于提供一种语音合成方法、装置、电子设备及存储介质，用以实现合成具有情感表现力的合成语音的技术效果。

本申请实施例的第一方面，提供了一种语音合成方法，所述方法包括：

获取待合成文本，并输入已训练的语音合成模型；其中，所述语音合成模型的训练数据为多组，每组所述训练数据包括文本样本以及相应的语音样本，多组所述训练数据携带至少一种情感信息；所述待合成文本与其中一组训练数据中的目标文本样本对应；

获取所述语音合成模型输出的携带目标情感信息的合成语音；所述目标情感信息为所述目标文本样本相应的目标语音样本所携带的情感信息。

在上述实现过程中，语音合成模型的训练数据有多组，而每组训练数据包括文本样本与相应的语音样本，且多组训练数据携带至少一种情感信息。同时，待合成的文本与其中一组训练数据的目标文本样本对应。如此，利用上述训练数据训练得到的语音合成模型，针对上述待合成文本可以合成出携带有目标情感信息的合成语音，且目标感情信息与目标文本样本相应的语音样本所携带的情感信息一致，使得合成语音具有情感表现力，提高了合成语音的质量与用户体验。

进一步地，所述语音合成模型的训练过程包括：

获取多组所述训练数据；其中，所述文本样本携带有韵律标注；

提取所述语音样本的语音特征以及韵律特征；所述韵律特征用于表征所述语音样本的情感信息；

利用所述语音特征、所述韵律特征以及所述文本样本对语音合成模型进行有监督训练，得到已训练的语音合成模型。

在上述实现过程中，利用语音样本与文本样本对语音合成模型进行有监督训练，使得语音合成模型能从训练数据中学习到每组训练数据所携带的情感信息并更新模型参数。

进一步地，所述语音合成模型的训练次数大于预设阈值，以使所述语音合成模型过拟合。

在上述实现过程中，对语音合成模型设置更多轮次的训练次数，能使模型过拟合，使得在模型使用阶段所合成的语音具有更明显的情感表现力。

进一步地，所述方法应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。

在上述实现过程中，方法应用在人机语音场景，因此可以将计算机的对话内容预先设置好，并制作相应的训练样本来进行训练。待合成语音包括预设的对话内容以及自定义内容，如此通过语音合成模型可以合成出携带目标语音样本所携带的感情信息。

本申请实施例的第二方面，提供了一种语音合成装置，所述装置包括：

输入模块，用于获取待合成文本，并输入已训练的语音合成模型；其中，所述语音合成模型的训练数据为多组，每组所述训练数据包括文本样本以及相应的语音样本，多组所述训练数据携带至少一种情感信息；所述待合成文本与其中一组训练数据中的目标文本样本对应；

输出模块，用于获取所述语音合成模型输出的携带目标情感信息的合成语音；所述目标情感信息为所述目标文本样本相应的目标语音样本所携带的情感信息。

进一步地，所述装置还包括训练模块，用于：

进一步地，所述装置应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。

本申请实施例的第三方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器调用所述可执行指令时实现上述第一方面任一所述方法的操作。

本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现上述第一方面任一所述方法的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语音合成方法的流程图；

图2为本申请实施例提供的另一种语音合成方法的流程图；

图3为本申请实施例提供的语音特征提取流程图；

图4为本申请实施例提供的一种语音合成装置的结构框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

近年来随着人工智能（Artificial Intelligence，AI）技术的迅速发展，人机交互变得越来越频繁，而语音合成是人机交互中的重要一环。语音合成技术又被称为文语转换（Text to Speech，TTS）技术，即将文字信息转化为流畅标准的语音，其所合成的声音既可以是模仿某个人的声音，也可以是包含特定风格的声音。基于这样的特点，语音合成技术能够应用到许多领域，例如智能家居、智能机器人、智能音响、虚拟偶像、有声读物、教育行业等。语音合成技术的广泛应用可以改善人机交互困难的情景，使人类与计算机的交流更加方便快捷。然而在相关技术中，合成的语音往往缺少情感的表现力，大大影响了合成语音的质量以及用户体验。

为此，本申请提出了一种语音合成方法，包括如图1所示的步骤：

步骤110：获取待合成文本，并输入已训练的语音合成模型；

其中，所述语音合成模型的训练数据为多组，每组所述训练数据包括文本样本以及相应的语音样本，多组所述训练数据携带至少一种情感信息；所述待合成文本与其中一组训练数据中的目标文本样本对应。

步骤120：获取所述语音合成模型输出的携带目标情感信息的合成语音。

其中，所述目标情感信息为所述目标文本样本相应的目标语音样本所携带的情感信息。

上述方法可以由电子设备执行。示例性地，电子设备可以包括但不限于服务器、智能电话/手机、个人数字助理(PDA)、媒体内容播放器、视频游戏站／系统、虚拟现实系统、增强现实系统、可穿戴设备（如手表、手环、手套、帽子、头盔、虚拟现实头戴耳机、增强现实头戴耳机、头装式装置(HMD)、头带、挂件、臂章、腿环、鞋子或者马甲等）等其他需要进行语音合成的设备。

语音合成模型的训练数据有多组，而每组的训练数据包括文本样本以及相应的语音样本。所谓文本样本与语音样本相应，及文本样本中的文本内容与语音样本中的语音内容是一致的。示例性地，语音样本可以是录音师录制的音频。录音师在录制时可以使用相同或不同的情感进行录制。例如，对于不同语句录音师可以均使用相同的情感进行录制。如此，得到的语音样本均表现相同的情感，多组训练数据携带一种情感信息。又例如，对于不同的语句录音师可以分别使用不同的情感进行录制。如此，得到的不同语音样本表现不同的情感，多组训练数据携带多种情感信息。而文本样本则是录音师所录制的内容。

示例性地，情感可以包括但不限于高兴、兴奋、热情、平淡等。

可选地，语音合成模型可以是预训练的模型。本申请提供的训练数据可以对预训练的语音合成模型的参数进行微调与优化。

待合成文本与其中一组训练数据中的目标文本样本对应，与目标文本样本相应的目标语音样本携带目标感情信息。如此，在将待合成文本输入已训练的语音合成模型后，语音合成模型输出的合成语音同样携带目标情感信息。也即待合成文本与目标语音样本携带相同的情感信息，使得合成语音更具情感表现力，提高了合成语音的质量与用户体验。

在一些实施例中，语音合成模型的训练过程可以包括如图2所示的步骤：

步骤210：获取多组所述训练数据；

其中，文本样本携带有韵律标注。

步骤220：提取所述语音样本的语音特征以及韵律特征；

其中，所述韵律特征用于表征所述语音样本的情感信息。

步骤230：利用所述语音特征、所述韵律特征以及所述文本样本对语音合成模型进行有监督训练，得到已训练的语音合成模型。

示例性地，文本样本可以通过人工进行韵律标注；也可以使用机器学习的方法进行韵律标注。例如可以预先训练韵律预测模型，然后将文本样本输入该韵律预测模型，以输出携带有韵律标注的文本样本。

示例性地，韵律标注可以包括但不限于字边界#0，词边界#1，短语边界#2，短语边界#3，以及长句边界#4中的一种或多种。

示例性地，从语音样本中提取的语音特征可以是fbank（filter bank，滤波器组）、MFCC（Mel Frequency Cepstral Coefficients，梅尔频率倒谱系数）或LPC（LinearPrediction Coefficient，线性预测系数）等等中的一种或多种。

如图3所示，以MFCC与fBank为例，其提取过程包括：首先将语音样本的语音信号进行预处理。其中，预处理包括预加重、分帧加窗。随后将预处理后的语音信号进行离散傅里叶变换（Discrete Fourier Transform，DFT）、Mel滤波器组以及对数运算后可以得到fBank。在fBank的基础上，再进行离散傅里叶逆变换（Inverse Discrete FourierTransform，IDFT）得到MFCC。

语音的韵律指的是以语义符号为基础的音高、时长、快慢大小等特点。韵律虽然对于人们理解语音中的字词句的内容没有影响，但决定了一段语音听起来是否舒适顺耳。因此韵律特征可以用于表征语音样本的情感信息。示例性地，韵律特征可以包括语音时长、基音频率、短时能量、过零率中的一种或多种。

其中，语音时长是用来衡量语音信号的时间。使用不同的情感说话，语音样本携带不同的情感信息，对应的语音信号也具有不同的时长。语音时长t的计算为：

T=length (frame)/sr

其中，length (frame)为语音信号frame矩阵中行数或列数中的较大值，sr为语音信号的采样频率。

基音频率（pitch），也称基频。人在发出浊音时，声带由于气流的激发会生成振动，从而生成脉冲信号，该信号具有周期性，此刻声带振动的频率被称为是基频。基频R_x(v)的计算为：

其中，x(n)为离散信号，其长度为N，v为语音信号的延时。

短时能量在语音中常常体现为声音的响度，使用不同的情感说话，语音样本携带不同的情感信息，对应的语音信号也具有不同的短时能量。例如，使用快乐、生气或惊讶的情感所发出的语音的振幅平均能量，比使用中性情感所发出的语音的振幅平均能量更大。短时能量E_n在第n时刻的计算为：

其中，h(n)=w(n)²，w(n)为窗口函数。当0≤n≤N-1时，w(n)取值为1，否则w(n)取值为0。由于短时能量属于语音时域特征，所以在不应用傅里叶变换的情况下w(n)属于方窗。此时语音的短时能量可表示为每一帧包含的语音信号的平方和。

过零率是指一个采样信号在一帧语音信号内经过的零点比率。在语音信号为离散时间的条件下，若语音信号在相邻采样点之间发生了正负转变则发生了过零。因此过零率为单位时间内发生过零的次数。过零率可以衡量语速，用于区分静音、噪音与人声。过零率ZCR(n)的计算为：

其中，n为一帧语音信号的采样点，

为符号函数，自变量大于等于0时，sgn取值为1；否则取值为0。

在提取了语音样本的语音特征以及韵律特征后，可以利用语音特征、韵律特征以及文本样本对语音合成模型进行有监督训练。其中，可以将携带有韵律标注的文本样本输入语音合成模型，根据语音合成模型的输出结果与语音样本的语音特征、韵律特征对模型参数进行调整，最终得到已训练的语音合成模型。

在一些实施例中，语音合成模型的训练次数可以大于预设阈值，以使语音合成模型过拟合。

其中，本领域技术人员可以根据模型复杂度设置预设阈值。例如，若训练次数小于预设阈值，则模型未过拟合，对训练集外数据的拟合效果也较好。

模型过拟合是指随着训练过程的进行，在训练集上的误差渐渐减小，也即在训练集上有较好的拟合效果，但在训练集以外的数据却有较大的误差，无法很好地拟合数据。可以理解的是，在本领域的一般认知中，避免过拟合是模型训练的核心任务之一。在相关技术中，通常使用正则化（Regularization）、数据集扩增（Data Augmentation）等手段防止模型过拟合。而在本申请中，由于待合成文本与其中一组训练数据中的目标文本对应，也即语音合成模型无需对未知的文本进行语音合成。因此模型无需避免过拟合。相反地，在训练过程中使模型过拟合，可以使得语音合成模型在训练数据中的误差进一步减小，所合成的语音能表现出更强的情感。

上述任一实施例提供的一种语音合成方法，可以应用于人机语音场景。人机语音场景，即为人机发生语音对话的场景，可以包括但不限于电话机器客服、虚拟教师课堂、图书馆机器人导航、商场机器人导航等。在人机语音场景中，用户可以通过说话的形式与机器对话，如电话机器人客服场景；也可以在人机交互界面输入文字、对话选择的形式与机器对话，如图书馆机器人导航、商场机器人导航场景。而机器则以语音的形式应答。

在人机语音场景中，多组训练数据的文本样本包括预设的对话内容。或者说，可以将机器需要应答的所有对话制作成训练数据，包括文本样本与语音样本，以训练语音合成模型。而待合成文本则包括预设的对话内容以及自定以内容。如此，待合成文本与其中一组训练数据中的文本样本对应。

以电话机器人客服的场景为例，机器人播报的内容通常包括预设的对话内容以及自定义内容。预设的对话内容是指在不同的对话中均使用到的对话。例如“您好，欢迎致电”。而自定义内容则在不同对话中不相同。示例性地，自定义内容可以包括但不限于人名、地名、公司名、订单号、工号、手机号等等。在相关技术中，机器人在播报既包括预设的对话内容又包括自定义内容的对话时，例如“A先生您好，欢迎致电B公司”，预设的对话内容与自定内容之间并不连贯，显得非常突兀，大大影响用户体验。而在本申请中，一个预设的对话内容可以制作成一组训练数据。如在上述例子中，预设的对话内容“您好，欢迎致电”可以制作成携带热情的情感信息的训练数据。而与该对话内容对应的待合成文本可以为“A先生，欢迎致电B公司”。如此，针对该待合成文本所合成出的语音同样会表现出热情的情感。而且由于一整句话是连贯地合成出来，因此在预设的对话内容与自定内容之间能够连贯衔接。

同时，由于机器人客服需要应答的内容都是预先设计好的，语音合成模型所需要合成的语音都是由预设的对话内容与自定义内容组成。所有预设的对话内容可以制作成训练数据来对语音合成模型进行训练。因此语音合成模型无需对训练集以外的其他文本进行语音合成。因此模型训练可以过拟合，使得模型在训练集上的拟合效果更佳，合成的语音更具情感表现力。

基于上述任一实施例所述的一种语音合成方法，本申请还提供了一种语音合成装置。如图4所示，该装置400包括：

输入模块410，用于获取待合成文本，并输入已训练的语音合成模型。

其中，所述语音合成模型的训练数据为多组，每组所述训练数据包括文本样本以及相应的语音样本，多组所述训练数据携带至少一种情感信息；所述待合成文本与其中一组训练数据中的目标文本样本对应；

输出模块420，用于获取所述语音合成模型输出的携带目标情感信息的合成语音；所述目标情感信息为所述目标文本样本相应的目标语音样本所携带的情感信息。

在一些实施例中，上述装置还包括训练模块，用于：

在一些实施例中，所述语音合成模型的训练次数大于预设阈值，以使所述语音合成模型过拟合。

在一些实施例中，所述装置应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

基于上述任意实施例所述的一种语音合成方法，本申请还提供了如图5所示的一种电子设备的结构示意图。如图5，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述任意实施例所述的一种语音合成方法。

本申请还提供了一种计算机存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时可用于执行上述任意实施例所述的一种语音合成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音合成模型的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，所述语音合成模型的训练次数大于预设阈值，以使所述语音合成模型过拟合。

4.根据权利要求1所述的方法，其特征在于，所述方法应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。

5.一种语音合成装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括训练模块，用于：

7.根据权利要求6所述的装置，其特征在于，所述语音合成模型的训练次数大于预设阈值，以使所述语音合成模型过拟合。

8.根据权利要求5所述的装置，其特征在于，所述装置应用于人机语音场景；多组所述训练数据的文本样本包括预设的对话内容；所述待合成文本包括所述预设的对话内容以及自定义内容。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器调用所述可执行指令时实现权利要求1-4任一所述方法的操作。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-4任一所述方法的步骤。