CN113744716A

CN113744716A - 用于合成语音的方法和装置

Info

Publication number: CN113744716A
Application number: CN202111216227.6A
Authority: CN
Inventors: 文成; 谭兴军; 雷孝宁; 邹伟
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beijing Fangjianghu Technology Co Ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2021-12-03
Anticipated expiration: 2041-10-19
Also published as: CN113744716B

Abstract

本发明实施例提供一种用于合成语音的方法和装置，属于人工智能领域。该方法包括：获取模板音频的情感信息和/或风格信息；将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。藉此，实现了消除合成的语音存在的差异。

Description

用于合成语音的方法和装置

技术领域

本发明实施例涉及一种用于合成语音的方法和装置。

背景技术

近几年语音合成技术快速发展，高自然度的语音合成技术在语音导航、智能音箱等场景得到广泛使用。但智能客服和外呼机器人应用场景落地对语音合成项技术提出了更高的要求。在这些场景中，当人们听到字正腔圆的朗读语音合成效果时，往往没有耐心去听完而直接挂电话，从而导致服务完成度不高。这对语音合成技术提出了更高的要求。

发明内容

本发明实施例的目的是提供一种用于合成语音的方法和装置，其可解决或至少部分解决上述问题。

为了实现上述目的，本发明实施例的一个方面提供一种用于合成语音的方法，该方法包括：获取模板音频的情感信息和/或风格信息；将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。

可选地，所获取的情感信息采用情感向量表示和/或所获取的风格信息采用风格向量表示。

可选地，获取所述情感向量和/或所述风格向量包括：获取所述模板音频的模板声学特征；以及将所获取的模板声学特征输入到预设情感分类器和/或风格分类器，得到所述情感向量和/或所述风格向量。

可选地，所述将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合包括：将所述情感向量和/或所述风格向量与所述槽位文本被编码器编码后得到的编码内容进行结合。

可选地，所述将所述情感向量和/或所述风格向量与所述槽位文本被编码器编码后得到的编码内容进行结合为采用相加或拼接的方式进行结合。

可选地，所述对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理得到合成的语音包括：获取所述模板音频的模板声学特征；确定结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容对应的槽位声学特征；将所述模板声学特征和所述槽位声学特征进行拼接，得到拼接声学特征；以及将所述拼接声学特征输入到声码器，得到合成的语音。

相应地，本发明实施例的另一方面提供一种用于合成语音的装置，该装置包括：获取模块，用于获取模板音频的情感信息和/或风格信息；结合模块，用于将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及处理模块，用于对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。

可选地，所述获取模块获取所述情感向量和/或所述风格向量包括：获取所述模板音频的模板声学特征；以及将所获取的模板声学特征输入到预设情感分类器和/或风格分类器，得到所述情感向量和/或所述风格向量。

可选地，所述结合模块将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合包括：将所述情感向量和/或所述风格向量与所述槽位文本被编码器编码后得到的编码内容进行结合。

可选地，所述结合模块将所述情感向量和/或所述风格向量与所述槽位文本被编码器编码后得到的编码内容进行结合为采用相加或拼接的方式进行结合。

可选地，所述处理模块对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理得到合成的语音包括：获取所述模板音频的模板声学特征；确定结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容对应的槽位声学特征；将所述模板声学特征和所述槽位声学特征进行拼接，得到拼接声学特征；以及将所述拼接声学特征输入到声码器，得到合成的语音。

此外，本发明实施例的另一方面还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1-6中任一项的方法。

另外，本发明实施例的另一方面还提供一种处理器，用于运行程序，其中，所述程序被运行时用于执行上述的方法。

此外，本发明实施例的另一方面还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述的方法。

通过上述技术方案，先将槽位文本转化的内容与模板音频的情感信息和/或风格信息进行结合，其中，情感信息体现模板音频的情感特征，风格信息体现模板音频的韵律特征，使得槽位文本转化的内容与模板音频在情感和/或韵律方面保持一致，然后对模板音频和槽位文本转化的内容进行处理得到合成的语音，如此，使得最终合成的语音中槽位部分的音频与模板音频在情感和/或韵律方面保持一致，消除了合成的语音存在的差异。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是现有技术中语音合成的逻辑示意图；

图2是现有技术中槽位音频和模板音频时域拼接的示意图；

图3是本发明一实施例提供的用于合成语音的方法的流程图；

图4是本发明另一实施例提供的用于合成语音的方法的逻辑示意图；

图5是本发明另一实施例提供的频域拼接的示意图；以及

图6是本发明另一实施例提供的用于合成语音的装置的结构框图。

附图标记说明

1 获取模块 2 结合模块

3 处理模块

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

在一些语音合成方案中，采用【模板音频】+【槽位音频】的方式来得到音频。其中模板音频主要针对一些高频出现的语音内容，是提前录制好的；槽位音频是TTS(从文本到语音)合成的，主要是一些变量信息，比如姓名、地点等。样例如[name]先生，很高兴为您服务。其中，模板音频为[先生，很高兴为您服务。]是提前录制的；[name]部分为一个槽位，利用合成系统进行合成。上述方式的存在以下缺点：槽位音频通过合成系统合成得到，但并未参考模板音频的信息，这导致其很难保证和模板语音在情感、韵律等方面保持一致，这就会导致最终合成的语音存在明显差异；此外，原有的方式是在时域完成模板音频和槽位音频的拼接，需要进行平滑等复杂操作，否则前后相位存在突变。

如图1所示，将槽位文本输入到语音合成系统，首先经过由编码器和解码器组成的声学模型，得到声学特征mel谱，然后将mel谱输入声码器得到槽位音频。将槽位音频和模板音频在时域完成拼接，得到最终音频。时域拼接示意如图2所示，通常会在音频拼接的位置做平滑处理。本发明实施例中提供了不同于上述的语音合成方法的技术方案。

本发明实施例的一个方面提供一种用于合成语音的方法。

图3是本发明一实施例提供的用于合成语音的方法的流程图。如图3所示，该方法包括以下内容。

在步骤S30中，获取模板音频的情感信息和/或风格信息。其中，情感信息体现模板音频的情感特征，风格信息体现模板音频的韵律特征。可选地，情感信息可以采用情感向量表示，和/或风格信息可以采用风格向量表示。其中，情感向量为表示情感信息的固定维度的向量，风格向量为表示风格信息的固定维度的向量。获取模板音频的情感信息和/或风格信息可以是获取情感向量和/或风格向量。

在步骤S31中，将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合。在情感信息用情感向量表示和/或风格信息用风格向量表示的情况下，将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合可以是将情感向量和/或风格向量与槽位文本转化的内容进行结合。可选地，将情感向量和/或风格向量与槽位文本被编码器编码后得到的编码内容进行结合。优选地，可以采用相加或拼接的方式进行结合。例如，在将情感向量与槽位文本被编码器编码后的编码内容进行结合时，将情感向量扩展成与编码内容具有相同维度的矩阵，将扩展后得到的矩阵与编码内容对应的矩阵进行相加或者拼接。

在步骤S32中，对模板音频和结合了所获取的情感信息和/或风格信息的槽位文本转化的内容进行处理，得到合成的语音。

可选地，在本发明实施例中，获取情感向量和/或风格向量可以包括以下内容。获取模板音频的模板声学特征，模板声学特征即为模板音频对应的声学特征。将所获取的模板声学特征输入到预设情感分类器和/或风格分类器，得到情感向量和/或风格向量。

可选地，在本发明实施例中，对模板音频和结合了所获取的情感信息和/或风格信息的槽位文本转化的内容进行处理得到合成的语音可以是将模板音频和槽位文本转化的内容分别对应的声学特征进行处理得到模板音频和槽位文本对应的合成的语音。具体地，可以包括以下内容。获取模板音频的模板声学特征。例如，通过频谱提取的方式获取模板音频的模板声学特征。确定结合了所获取的情感信息和/或风格信息的槽位文本转化的内容对应的槽位声学特征。例如，获取到情感向量和/或风格向量，将情感向量和/或风格向量与槽位文本被编码器编码后的编码内容进行结合，将结合了情感向量和/或风格向量的编码内容经过解码器进行解码得到对应的声学特征，该声学特征即为槽位声学特征。将模板声学特征和槽位声学特征进行拼接，得到拼接声学特征。将拼接声学特征输入到声码器，得到合成的语音。如此，在本发明实施例中，通过将模板声学特征和槽位声学特征进行拼接进而得到合成的语音，采用了频域拼接的方式，避免了时域拼接时的复杂操作。

图4是本发明另一实施例提供的用于合成语音的方法的逻辑示意图。如图4所示，在本发明实施例中，在生成槽位部分的音频的时候会利用模板音频的信息。首先，通过频谱提取的方式提取模板音频的mel谱，其中，mel谱即为声学特征，也就是提取模板音频的模板声学特征。然后将模板音频的mel谱分别输入到E_emotion和E_style，得到情感向量和风格向量，两者均为固定维度的向量。其中E_emotion为预先训练好的情感分类器，也就是本发明实施例中所述的预设情感分类器，将其输出前的隐层特征作为情感向量；E_style为预先训练好的风格分类器，也就是本发明实施例中所述的预设风格分类器，将其输出前的隐层特征作为风格向量。将槽位文本输入到编码器，编码器对槽位文本进行编码得到编码内容。将情感向量和风格向量与编码器的输出结合，也就是将情感向量和风格向量与编码内容进行结合(例如，可以采用相加或者拼接的方式)，然后将进行结合后得到的内容输入到解码器进行解码，得到槽位文本的mel谱，也就是得到槽位文本对应的槽位声学特征。将模板音频的mel谱与槽位文本的mel谱进行频域拼接，如图5所示。将进行频域拼接后得到的内容输入到声码器，得到最终音频，也就是得到模板音频和槽位文本对应的合成的语音。

综上所述，在本发明实施例中，解决了模板音频和槽位音频在情感、韵律等方面不一致性的问题，消除了合成的语音存在的差异。此外，通过在频域完成拼接，然后经由声码器生成最终语音，避免了时域拼接时的复杂操作。

相应地，本发明实施例的另一方面提供一种用于合成语音的装置。

图6是本发明另一实施例提供的用于合成语音的装置的结构框图。如图6所示，该装置包括获取模块1、结合模块2和处理模块3。其中，获取模块1用于获取模板音频的情感信息和/或风格信息；结合模块2用于将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；处理模块3用于对模板音频和结合了所获取的情感信息和/或风格信息的槽位文本转化的内容进行处理，得到合成的语音。

可选地，在本发明实施例中，所获取的情感信息采用情感向量表示和/或所获取的风格信息采用风格向量表示。

可选地，在本发明实施例中，获取模块获取情感向量和/或风格向量包括：获取模板音频的模板声学特征；以及将所获取的模板声学特征输入到预设情感分类器和/或风格分类器，得到情感向量和/或风格向量。

可选地，在本发明实施例中，结合模块将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合包括：将情感向量和/或风格向量与槽位文本被编码器编码后得到的编码内容进行结合。

可选地，在本发明实施例中，结合模块将情感向量和/或风格向量与槽位文本被编码器编码后得到的编码内容进行结合为采用相加或拼接的方式进行结合。

可选地，在本发明实施例中，处理模块对模板音频和结合了所获取的情感信息和/或风格信息的槽位文本转化的内容进行处理得到合成的语音包括：获取模板音频的模板声学特征；确定结合了所获取的情感信息和/或风格信息的槽位文本转化的内容对应的槽位声学特征；将模板声学特征和槽位声学特征进行拼接，得到拼接声学特征；以及将拼接声学特征输入到声码器，得到合成的语音。

本发明实施例提供的用于合成语音的装置的具体工作原理及益处与本发明实施例提供的用于合成语音的方法的具体工作原理及益处相似，这里将不再赘述。

所述用于合成语音的装置包括处理器和存储器，上述获取模块、结合模块和处理模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来消除合成的语音存在的差异。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例的另一方面还提供了一种机器可读存储介质，其上存储有程序，该程序被处理器执行时实现上述实施例中所述的方法。

本发明实施例的另一方面还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述实施例中所述的方法。

本发明实施例的另一方面还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述实施例中所述的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取模板音频的情感信息和/或风格信息；将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及对模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。其中，所获取的情感信息采用情感向量表示和/或所获取的风格信息采用风格向量表示。其中，获取情感向量和/或风格向量包括：获取模板音频的模板声学特征；以及将所获取的模板声学特征输入到预设情感分类器和/或风格分类器，得到情感向量和/或风格向量。其中，将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合包括：将情感向量和/或风格向量与槽位文本被编码器编码后得到的编码内容进行结合。其中，将情感向量和/或风格向量与槽位文本被编码器编码后得到的编码内容进行结合为采用相加或拼接的方式进行结合。其中，对模板音频和结合了所获取的情感信息和/或风格信息的槽位文本转化的内容进行处理得到合成的语音包括：获取模板音频的模板声学特征；确定结合了所获取的情感信息和/或风格信息的槽位文本转化的内容对应的槽位声学特征；将模板声学特征和槽位声学特征进行拼接，得到拼接声学特征；以及将拼接声学特征输入到声码器，得到合成的语音。本文中的设备可以是服务器、PC、PAD、手机等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于合成语音的方法，其特征在于，该方法包括：

获取模板音频的情感信息和/或风格信息；

将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及

对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。

2.根据权利要求1所述的方法，其特征在于，所获取的情感信息采用情感向量表示和/或所获取的风格信息采用风格向量表示。

3.根据权利要求2所述的方法，其特征在于，获取所述情感向量和/或所述风格向量包括：

获取所述模板音频的模板声学特征；以及

将所获取的模板声学特征输入到预设情感分类器和/或风格分类器，得到所述情感向量和/或所述风格向量。

4.根据权利要求2所述的方法，其特征在于，所述将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合包括：

将所述情感向量和/或所述风格向量与所述槽位文本被编码器编码后得到的编码内容进行结合。

5.根据权利要求4所述的方法，其特征在于，所述将所述情感向量和/或所述风格向量与所述槽位文本被编码器编码后得到的编码内容进行结合为采用相加或拼接的方式进行结合。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理得到合成的语音包括：

获取所述模板音频的模板声学特征；

确定结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容对应的槽位声学特征；

将所述模板声学特征和所述槽位声学特征进行拼接，得到拼接声学特征；以及

将所述拼接声学特征输入到声码器，得到合成的语音。

7.一种用于合成语音的装置，其特征在于，该装置包括：

获取模块，用于获取模板音频的情感信息和/或风格信息；

结合模块，用于将所获取的情感信息和/或风格信息与槽位文本转化的内容进行结合；以及

处理模块，用于对所述模板音频和结合了所获取的情感信息和/或风格信息的所述槽位文本转化的内容进行处理，得到合成的语音。

8.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1-6中任一项所述的方法。

9.一种处理器，其特征在于，用于运行程序，其中，所述程序被运行时用于执行权利要求1-6任一项所述的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法。