CN113838448B

CN113838448B - 一种语音合成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113838448B
Application number: CN202110667616.4A
Authority: CN
Inventors: 阳珊; 胡娜; 李广之; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2024-03-15
Anticipated expiration: 2041-06-16
Also published as: CN113838448A

Abstract

本申请提供了一种语音合成方法、装置、设备及计算机可读存储介质，涉及人工智能领域的语音技术；该方法包括：获取语句文本；其中，语句文本记载了当前时刻等待进行语音合成的对话内容；基于语句文本，构建出带有自发行为标签的文本特征；其中，自发行为标签指明了自发声学行为在对话内容中的出现位置和类型；对文本特征进行特征转换，得到语句文本对应的声学特征；利用声学特征，生成与语句文本对应的带有自发声学行为的合成语音。通过本申请，能够提高合成语音的逼真程度。

Description

一种语音合成方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能领域中的语音技术，尤其涉及一种语音合成方法、装置、设备及计算机可读存储介质。

背景技术

语音合成技术是生成人造语音的技术，其可以应用在智能客服、机器人等领域。虽然在语音合成过程中，可以通过在语音合成过程中使用上下文文本和语音信息，或者是通过使用上下文声学编码器，以提高合成语音的自然程度，然而，相关技术中，仍旧是使用固定风格来合成语音，从而所得到的合成语音的拟人程度较低，最终导致合成语音的逼真程度较低。

发明内容

本申请实施例提供一种语音合成方法、装置、设备及计算机可读存储介质，能够提高合成语音的逼真程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音合成方法，包括：

获取语句文本；其中，所述语句文本记载了等待进行语音合成的对话内容；

基于所述语句文本，构建出带有自发行为标签的文本特征；其中，所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型；

对所述文本特征进行特征转换，得到所述语句文本对应的声学特征；

利用所述声学特征，生成与所述语句文本对应的带有所述自发声学行为的合成语音。

本申请实施例提供一种语音合成方法，包括：

获取当前训练语句文本的前置训练语句文本的前置训练声学特征、所述当前训练语句文本的当前真值声学特征，以及所述前置训练语句文本的真值对象信息；

利用初始特征编码器和初始特征提取网络层，从所述前置训练声学特征中提取出前置训练上下文特征，以及从所述当前真值声学特征中提取出基准上下文特征；

利用所述基准上下文特征，以及从所述前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值，对所述初始特征提取网络层进行参数调整，得到预设特征提取网络层；所述预设特征提取网络层用于提取上下文特征；

基于所述第一损失值、所述前置训练声学特征和所述真值对象信息，对所述初始特征编码器进行参数调整，得到预设特征编码器；其中，所述预设特征编码器用于保留风格信息和消除对象信息。

在本申请的一些实施例中，所述基于所述第一损失值、所述前置训练声学特征和所述真值对象信息，对所述初始特征编码器进行参数调整，得到预设特征编码器，包括：

对从所述前置训练声学特征中提取出的前置训练语音特征进行梯度反转，得到反转后的前置训练语音特征；

对所述反转后的前置训练语音特征进行对象信息的预测，得到预测对象信息；

对所述预测对象信息和所述真值对象信息之间差异进行计算，得到第二损失值；

利用所述第一损失值和所述第二损失值对初始特征编码器进行参数调整，得到所述预设特征编码器。

本申请实施例提供一种语音合成装置，包括：

信息获取模块，用于获取语句文本；其中，所述语句文本记载了等待进行语音合成的对话内容；

特征构建模块，用于基于所述语句文本，构建出带有自发行为标签的文本特征；其中，所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型；

特征转换模块，用于对所述文本特征进行特征转换，得到所述语句文本对应的声学特征；

语音生成模块，用于利用所述声学特征，生成与所述语句文本对应的带有所述自发声学行为的合成语音。

在本申请的一些实施例中，所述特征构建模块，还用于对所述语句文本所包含的每个字符信息在音素级别进行文本特征的抽取，得到所述语句文本的文本输入特征；对所述每个字符信息在字符级别进行文本特征的提取，得到所述每个字符信息的字符特征；对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果；所述行为分类结果包括无自发行为、延音行为、停顿行为或复合行为中的任意一种，所述复合行为表征所述延音行为和所述停顿行为同时出现；利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的所述文本特征。

在本申请的一些实施例中，所述特征构建模块，还用于从所述每个字符信息的所述行为分类结果中，筛选出包括所述停顿行为或所述复合行为的目标行为结果；从所述每个字符信息中，挑选出所述目标行为结果对应的目标字符信息；所述目标字符信息表征存在所述自发声学行为的字符信息；将所述目标行为结果作为标签，添加至所述文本输入特征中与所述目标字符信息相对应的音素级文本特征中，得到带有标签的音素级文本特征；利用所述带有标签的音素级文本特征，以及所述文本输入特征中的其他音素级文本特征，整合出带有自发行为标签的所述文本特征。

在本申请的一些实施例中，所述特征构建模块，还用于从所述语句文本中，提取出韵律特征和分词特征；

所述特征构建模块，还用于对所述每个字符信息的字符特征、所述韵律特征和所述分词特征进行自发行为的分类，得到所述每个字符信息的所述行为分类结果。

在本申请的一些实施例中，所述声学特征包括：梅尔频谱；所述特征转换模块，还用于对所述文本特征进行编码，得到所述语句文本对应的音素级声学特征；对所述音素级声学特征进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

在本申请的一些实施例中，所述特征转换模块，还用于获取所述语句文本的前置语句文本所对应的历史梅尔频谱，以及所述语句文本对应的当前对象信息；所述当前对象信息用于指示说出所述语句文本的对象；对所述历史梅尔频谱进行上下文编码，得到上下文特征；所述上下文特征保留了所述前置语句文本的风格信息，消除了所述前置语句文本的前置对象信息，所述前置对象信息表征说出所述前置语句文本的对象的信息；

所述特征转换模块，还用于对所述音素级声学特征、所述上下文特征和所述当前对象信息进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

在本申请的一些实施例中，所述特征转换模块，还用于利用预设特征编码器，对所述历史梅尔频谱进行特征编码，得到所述前置语句文本对应的前置语音特征；所述预设特征编码器用于保留所述风格信息并消除所述前置对象信息；利用预设特征提取网络层，对所述前置语音特征进行特征提取，得到所述上下文特征。

在本申请的一些实施例中，所述特征转换模块，还用于对所述语句文本进行语义提取，得到所述语句文本的语义特征；

所述特征转换模块，还用于对所述音素级声学特征、所述上下文特征、所述当前对象信息和所述语义特征进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

在本申请的一些实施例中，所述特征转换模块，还用于对所述语句文本的每个字符信息进行字向量的提取，得到所述每个字符信息的字符向量；将所述字符向量进行复制上采样，得到所述每个字符信息的各个音素对应的音素向量；对所述每个字符信息的各个音素所对应的音素向量进行编码，得到所述语句文本的所述语义特征。

在本申请的一些实施例中，所述特征构建模块，还用于依据所述语句文本中的字符信息的总数量，以及预设自发行为频率，计算出所述语句文本出现的自发声学行为的数量；其中，所述预设自发行为频率用于控制所述合成语句的流利程度；

从所述每个字符信息的所述行为分类结果中，挑选出所述自发声学行为的数量的待添加自发行为；

所述特征构建模块，还用于利用所述每个字符信息的所述行为分类结果中的所述待添加自发行为，以及所述文本输入特征，构建出带有自发行为标签的所述文本特征。

本申请实施例提供一种语音合成装置，包括：

训练数据获取模块，用于获取当前训练语句文本的前置训练语句文本的前置训练声学特征、所述当前训练语句文本的当前真值声学特征，以及所述前置训练语句文本的真值对象信息；

训练特征提取模块，用于利用初始特征编码器和初始特征提取网络层，从所述前置训练声学特征中提取出前置训练上下文特征，以及从所述当前真值声学特征中提取出基准上下文特征；

模型调整模块，用于利用所述基准上下文特征，以及从所述前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值，对所述初始特征提取网络层进行参数调整，得到预设特征提取网络层；所述预设特征提取网络层用于提取上下文特征；基于所述第一损失值、所述前置训练声学特征和所述真值对象信息，对所述初始特征编码器进行参数调整，得到预设特征编码器；其中，所述预设特征编码器用于保留风格信息和消除对象信息。

在本申请的一些实施例中，所述模型调整模块，还用于对从所述前置训练声学特征中提取出的前置训练语音特征进行梯度反转，得到反转后的前置训练语音特征；对所述反转后的前置训练语音特征进行对象信息的预测，得到预测对象信息；对所述预测对象信息和所述真值对象信息之间差异进行计算，得到第二损失值；利用所述第一损失值和所述第二损失值对初始特征编码器进行参数调整，得到所述预设特征编码器。

本申请实施例提供一种语音合成设备，包括：

存储器，用于存储可执行语音合成指令；

处理器，用于执行所述存储器中存储的可执行语音合成指令时，实现本申请实施例提供的语音合成方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行语音合成指令，用于引起处理器执行时，实现本申请实施例提供的语音合成方法。

本申请实施例具有以下有益效果：语音合成设备能够先获取记载了当前时刻等待进行语音合成的对话内容的语句文本，然后基于语句文本，构建出带有自发行为标签的文本特征，以明确对话内容中自发声学行为的出现位置，以及所出现的自发声学行为的类型。然后，语音合成设备将带有自发行为标签的文本特征转换成声学特征，最后利用转换得到的声学特征，生成带有自发声学行为的合成语音。如此，所得到的合成语音更加接近人类的说话语音，也即提高了合成语音的拟人程度，最终提高了合成语音的逼真程度。

附图说明

图1是本申请实施例提供的语音合成系统100的一个可选的架构示意图；

图2是本申请实施例提供的语音合成设备的结构示意图；

图3是本申请实施例提供的语音合成方法的一个可选的流程示意图一；

图4是本申请实施例提供的语音合成方法的一个可选的流程示意图二；

图5是本申请实施例提供的一种自发行为预测模型的示意图；

图6是本申请实施例提供的整合带有自发行为标签的文本特征的示意图；

图7是本申请实施例提供的另一种自发行为预测模型的示意图；

图8是本申请实施例提供的一种对文本特征进行特征转换的示意图；

图9是本申请实施例提供的另一种对文本特征进行特征转换的示意图；

图10是本申请实施例提供的上下文编码过程示意图；

图11是本申请实施例提供的又一种对文本特征进行特征转换的示意图；

图12是本申请实施例提供的计算第一损失值的过程示意图；

图13是本申请实施例提供的预设特征编码器在训练时的示意图；

图14是本申请实施例提供的为智能客服合成语音的框架示意图；

图15是本申请实施例提供的自发行为预测的AB测试结果示意图；

图16是本申请实施例提供的语音的持续时间与自发行为的频率的关系示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境，获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生成出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(例如，从文本到语音，Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中，语音成为未来最被看好的人机交互方式之一。

3)语音合成，是指通过机械的、电子的方法产生人造语音的技术。其中，TTS技术是将计算机自己生成的，或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。

4)自发声学行为，是指人类在对话过程中，自发出现的声学行为。例如，人类在说话时由于强调自发出现的声音延长，或者是说话时由于思考自发出现的停顿等。

5)缠绕，是指在对话过程中，对话双方的说话的方式、语调和情感等会受到彼此的影响。

本申请实施例提供一种语音合成方法、装置、设备和计算机可读存储介质，能够提高合成语音的逼真程度。下面说明本申请实施例提供的语音合成设备的示例性应用，本申请实施例提供的语音合成设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为服务器，还可以实施为由终端和服务器所组成的设备集群。下面，将说明语音合成设备实施为服务器时示例性应用。

参见图1，图1是本申请实施例提供的语音合成系统100的一个可选的架构示意图，为实现支撑一个语音合成应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

服务器200用于获取语句文本；其中，语句文本记载了等待进行语音合成的对话内容；基于语句文本，构建出带有自发行为标签的文本特征，其中，自发行为标签指明了自发声学行为在对话内容中的出现位置和类型；对文本特征进行特征转换，得到语句文本对应的声学特征；利用声学特征，生成与语句文本对应的带有自发声学行为的合成语音。

服务器200在得到合成语音之后，可以通过网络300将合成语音下发给终端400-1和400-2(例如通过拨打电话的方式下发给400-1，通过语音信息的方式下发)给400-2。终端400-1和终端400-2播放合成语音给用户。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的语音合成设备的结构示意图，图2所示的语音合成设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。语音合成设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器550中的语音合成装置555，其可以是程序和插件等形式的软件，包括以下软件模块：信息获取模块5551、特征构建模块5552、特征转换模块5553、语音生成模块5554、训练数据获取模块5555、训练特征提取模块5556和模型调整模块5557，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的语音合成装置可以采用硬件方式实现，作为示例，本申请实施例提供的语音合成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音合成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

示例性的，本申请实施例提供一种语音合成设备，包括：

存储器，用于存储可执行语音合成指令；

下面，将结合本申请实施例提供的语音合成设备的示例性应用和实施，说明本申请实施例提供的语音合成方法。

参见图3，图3是本申请实施例提供的语音合成方法的一个可选的流程示意图一，将结合图3示出的步骤进行说明。

S101、获取语句文本。

本申请实施例是在进行语音合成的场景下实现的，例如，合成智能客服针对用户的问题的回复语音，或者是合成机器人对于室内设施的导览语音等。在语音合成开始时，语音合成设备需要先获取语句文本，从而明确合成语音所对应的对话内容。从而，语句文本记载了当前时刻等待进行语音合成的对话内容。

需要说明的是，语句文本可以是由工作人员事先设置好的，例如，工作人员根据用户不同的业务需求，以文本的形式设置了各个回复方式，即语音合成设备实现存储了不同的回复文本，从而在实际应用中，当采集到包含了用户的业务需求的提问消息时，可以根据提取出的提问消息的关键字，从不同的回复文本中，匹配出适合的回复文本，作为语句文本。

语句文本还可以是根据用户的提问消息自动生成的，例如，当语音合成设备采集到用户的提问消息时，可以对提问消息进行解析，从而明确用户的意图，然后依据用户的意图，自动生成对应的适合的回复文本，从而得到语句文本。

在一些实施例中，提问消息可以是语音提问消息，例如，用户对机器人说出的“今天天气怎么样”，“到公司怎么走最快”等。在另一些实施例中，提问消息还可以是文字提问消息，例如，用户在与智能客服的交互界面输入的“怎么办理退款手续”，“这个套餐的优点”等。

当然，提问消息还可以是其他类型的消息，例如图片消息、特殊字符等，本申请在此不作限定。

S102、基于语句文本，构建出带有自发行为标签的文本特征。

语音合成设备基于语句文本转成合成语音时，首先需要明确语句文本的含义，从而会对语句文本进行文本特征的抽取。同时，由于人类在说话过程中会出现一些自发行为，在合成语音中引入自发行为，无疑会使得合成语音更接近人类的真实语音，更加逼真。因此，本申请实施例中，语音合成设备会对语句文本进行自发声学行为的预测，并利用标签标注出语句文本中会出现自发声学行为的位置，以及出现的自发声学行为的类型，即得到自发行为标签。之后，语音合成设备将自发行为标签和抽取出的特征进行整合，得到带有自发行为标签的文本特征，以便于后续进行语音合成。

也就是说，自发行为标签指明了自发声学行为在对话内容中的出现位置和类型，其中，自发声学行为是指人类在说话时由于各种原因使得语音发生变化的声学行为，例如在说话时用特定声调进行结尾，在说话时加入“嗯”、“唉”等语气词。

需要说明的是，这种自发声学行为，可以是指自发停顿，也可以是指延音，还可以是指其他声学行为，例如由自发停顿和延音构成的复合行为、对于一些词语的特定发音等，本申请在此不作限定。

可以理解的是，自发停顿是指人类说话中，由于思考或者被打断所产生的自发的停顿。延音是指人类说话过程中，由于强调、犹豫等所产生的对应某个音的自发延长等。

S103、对文本特征进行特征转换，得到语句文本对应的声学特征。

语音合成设备在构建出带有自发行为的文本特征之后，就会对文本特征进行转换，从而明确合成语音的时长，音频、音调等的变化，得到当前时刻等待进行语音合成的对话内容的声学特征。

可以理解的是，声学特征可以是线性谱，也可以是梅尔频谱，还可以是梅尔倒谱等，本申请在此不作限定。

在一些实施例中，文本特征可以是字符级别的特征，也可以是音素级别的特征，本申请在此不作限定。

S104、利用声学特征，生成与语句文本对应的带有自发声学行为的合成语音。

语音合成设备可以将声学特征转换为幅度谱，然后再通过声码器将幅度谱重建为波形，并去加重，从而就能得到音频波形。最后将音频波形输出。语音合成设备也可以将声学特征输进用于重建波形的深度学习模型中，得到音频波形并输出。如此，语音合成设备就得到了带有自发声学行为的合成语音，所得到的合成语句更加逼真。

本申请实施例中，语音合成设备能够先获取记载了当前时刻等待进行语音合成的对话内容的语句文本，然后基于语句文本，构建出带有自发行为标签的文本特征，以明确对话内容中自发声学行为的出现位置，以及所出现的自发声学行为的类型。然后，语音合成设备将带有自发行为标签的文本特征转换成声学特征，最后利用转换得到的声学特征，生成带有自发声学行为的合成语音。如此，所得到的合成语音更加接近人类的说话语音，也即提高了合成语音的拟人程度，最终提高了合成语音的逼真程度。

参见图4，图4是本申请实施例提供的语音合成方法的一个可选的流程示意图二。在本申请的一些实施例中，基于语句文本，构建出带有自发行为标签的文本特征，即S102的具体实现过程，可以包括：S1021-S1024，如下：

S1021、对语句文本所包含的每个字符信息在音素级别进行文本特征的抽取，得到语句文本的文本输入特征。

语句文本中包含有至少一个字符信息，即语句文本是由至少一个字符信息构成的。语音合成设备可以利用分词器将语句文本拆解成各个字符信息，然后针对每个字符信息在音素级别上抽取文本特征，并利用从每个字符信息所抽取出的音素级文本特征，组成文本输入特征。语音合成设备也可以将语句文本输入至音素级别的文本特征提取模型中，从而抽取出文本输入特征。

示例性的，语音合成设备可以将语句文本输入至音素级别的语言模型(例如BERT模型)中，并将该语言模型输出的各个音素级别的特征向量，组成文本输入特征。

S1022、对每个字符信息在字符级别进行文本特征的提取，得到每个字符信息的字符特征。

接着，语音合成设备对每个字符信息，在字符级别上抽取文本特征。在一些实施例中，语音合成设备可以利用标识好自发行为标签的文本所训练出的字符级别的文本抽取模型，从每个字符信息中抽取出字符特征。

进一步的，由于标注好自发行为标签的文本的数量是有限的，直接利用这些文本训练的字符特征抽取模型，极有可能会出现过拟合的情况。因此，在一些实施例中，语音合成设备不再利用标注好自发行为标签的文本来训练字符特征抽取模型，而是直接利用其他文本预训练好的字符级别的文本抽取模型来抽取每个字符信息的字符特征。

S1023、对字符特征进行自发行为的分类，得到每个字符信息的行为分类结果。

语音合成设备在得到每个字符信息的字符特征之后，就会对每个字符信息的字符特征进行分析，确定出在该字符信息是否存在自发声学行为，以及在存在自发声学行为时，所存在的自发声学行为的类型，从而得到行为分类结果。

需要说明的是，语音合成设备可以通过自发行为分类时的阈值，来控制语句文本发生自发声学行为的概率，例如，提高分类时的阈值，以减小产生自发行为的概率，从而使得语句文本的合成语音更加流利。

本申请实施例中，行为分类结果包括无自发行为、延音行为、停顿行为或复合行为中的任意一种。其中，当某个字符信息的行为分类结果为无自发行为时，表征该字符信息处不存在自发声学行为；当某个字符信息的行为分类结果为延音行为、停顿行为和复合行为中的任意一种时，表征该字符信息出现了自发声学行为，延音行为、停顿行为和复合行为即为自发声学行为的类型。需要说明的是，复合行为表征延音行为和停顿行为同时出现。

在一些实施例中，语音合成设备可以将每个字符信息的字符特征，输入进训练好的自发行为预测模型中，并将自发行为预测模型的输出作为每个字符信息的行为分类结果。

可以理解的是，自发行为预测模型可以是由LSTM(Long Short-Term Me mory，长短期记忆网络)和FC(Fully Connected Layer，全连接层)构成的，还可以由BLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)和FC构成的，本申请在此不作限定。

示例性的，图5是本申请实施例提供的一种自发行为预测模型的示意图。如图5所示，自发行为预测模型5-1由3个FC、2个BLSTM和1个FC依次堆叠而成，其输入是每个字符信息的字符特征5-2，该模型的输出，即行为分类结果是无自发行为5-3、延音行为5-4、停顿行为5-5和复合行为5-6中的任意一种。

在另一些实施例中，语音合成设备可以将字符特征，与标注好自发行为标签的文本中的各个带有自发行为的标注字符的特征进行相似度匹配，从而进行自发行为的分类。比如，当针对某个字符信息的字符特征，从各个标注字符的特征中，匹配到了标注字符的特征时，语音合成设备就会认为该字符信息存在对应的自发行为，然后将这个匹配到的标注字符所对应的自发声学行为的类型，作为该字符信息的行为分类结果；当某个字符信息的字符特征，与各个标注字符的特征中的任何一个特征都不匹配时，则语音合成设备就会认为字符信息不存在对应的自发声学行为，即确定该字符信息的行为分类结果为无自发行为。

S1024、利用每个字符信息的行为分类结果和文本输入特征，构建出带有自发行为标签的文本特征。

语音合成设备在得到每个字符信息对应的行为分类结果之后，就会明确每个字符信息是否存在自发声学行为，并在存在自发声学行为时，以及自发声学行为的类型生成对应的自发行为标签，然后将自发行为标签添加至文本输入特征中，与字符信息相对应的音素级别的特征上，得到带有自发行为标签的文本特征。

本申请实施例中，语音合成设备会先对语句文本的每个字符信息在音素级别进行特征抽取，得到文本输入特征，然后将每个字符信息对应的字符特征提取出来，利用字符特征确定出每个字符信息对应的行为分类结果，以明确每个字符信息是否存在自发声学行为，从而依据自发声学行为的存在情况和文本输入特征，构建出带有自发行为标签的文本特征，以便于后续合成出带有自发行为的合成语音。

在本申请的一些实施例中，利用每个字符信息的行为分类结果和文本输入特征，构建出带有自发行为标签的文本特征，即S1024的具体实现方式，包括：S1024a-S1024d，如下：

S1024a、从每个字符信息的行为分类结果中，筛选出包括所述停顿行为或复合行为的目标行为结果。

语音合成设备按照行为类型结果包括的内容，将每个字符信息的行为分类结果分成其他行为结果和目标行为结果。其中，目标行为结果中包含了延音行为、停顿行为或复合行为的任意一种。

S1024b、从每个字符信息中，挑选出目标行为结果对应的目标字符信息。

由于字符信息和行为类型结果之间存在着对应关系，语音合成设备会从所有的字符信息中，将目标行为结果所对应的字符信息挑选出来，并将挑选出的字符信息作为目标字符信息。

可以理解的是，由于目标行为结果包括了停顿行为或复合行为中的任意一种，而这些行为均属于自发声学行为，因此，依据目标行为结果所挑选出的目标字符信息表征存在自发声学行为的字符信息。

S1024c、将目标行为结果作为标签，添加至文本输入特征中与目标字符信息相对应的音素级文本特征中，得到带有标签的音素级文本特征。

可以理解的是，通过上述步骤得到的目标行为结果，实质上是字符级别的自发行为的标签，在本申请实施例中，实质上是将字符级别的自发行为的标签，对齐到音素级别的文本输入特征中。此时，语音合成设备会将目标行为结果，作为文本输入特征中与目标字符信息相对应的音素级文本特征的标签，以得到带有标签的音素级文本特征。

S1024d、利用带有标签的音素级文本特征，以及文本输入特征中的其他音素级文本特征，整合出带有自发行为标签的文本特征。

语音合成设备利用带有标签的音素级文本特征，以及文本输入特征中剩余的其他音素级文本特征，按照原先的顺序进行整合，就得到了带有自发行为标签的文本特征。

示例性的，图6是本申请实施例提供的整合带有自发行为标签的文本特征的示意图。如图6所示，文本输入特征6-1中包含2个字符信息的音素级文本特征，分别为字符信息6-11的音素级文本特征和字符信息6-12的音素级文本特征(每个音素都有一个文本的特征)。其中，停顿行为(目标行为结果)对应的目标字符信息为字符信息6-11，将停顿行为作为标签6-2添加到字符信息6-11的各个音素级文本特征上，再结合字符信息6-12对应的音素级文本特征，就得到了带有字符行为标签的文本特征。

本申请实施例中，语音合成设备先筛选出包括目标行为结果，从而确定出存在自发声学行为的字符信息，然后将目标行为作为标签，添加到目标字符信息对应的音素级文本特征上，就得到了带有目标行为标签的文本特征，以便于后续合成出更加逼真的合成语音。

在本申请的一些实施例中，在语音合成设备对字符特征进行自发行为的分类，得到每个字符信息的行为分类结果，即在S1023之前，该方法可以包括：S1025，如下：

S1025、从语句文本中，提取出韵律特征和分词特征。

语句文本的韵律情况和分词情况，与语句文本的自发行为之间存在着一定的联系，因此，本申请实施例中，语音合成设备在利用字符特征确定出每个字符信息的行为分类结果之前，还可以对语句文本进行韵律和分词的提取，得到语句文本的韵律特征和分词特征，以利用韵律特征和分词特征作为额外的特征，进行自发行为的预测。

如此，对字符特征进行自发行为的分类，得到每个字符信息的行为分类结果，即S1023的具体实现过程，会相应的变为：

S1023a、对每个字符信息的字符特征、韵律特征和分词特征进行自发行为的分类，得到每个字符信息的行为分类结果。

在一些实施例中，当语音合成设备通过自发行为预测模型来进行自发行为的分类时，以明确自发声学行为出现的位置和类型时，则是将每个信息的字符特征、韵律特征和分词特征都输入进自发行为预测模型中，以得到行为分类结果。

示例图的，基于图5，参见图7，图7是本申请实施例提供的另一种自发行为预测模型的示意图。自发行为预测模型5-1的输入除了每个字符信息的字符特征5-2之外，还有语句文本的韵律特征7-1和分词特征7-2。语音合成设备将韵律特征7-1和分词特征7-2融合成特征向量7-3之后，输入进自发行为预测模型5-1中，以得到行为分类结果。

在另一些实施例中，当语音合成设备是通过相似度匹配来进行自发行为的分类时，则是将字符特征、韵律特征和分词特征均与已经标注了的文本的字符特征、文本的韵律特征和分词特征进行匹配，以得到行为分类结果。

本申请实施例中，语音合成设备能够从语句文本中提取出韵律特征和分词特征，并结合每个字符信息的字符特征、语句文本的韵律特征和分词特征，确定出更加准确的行为类别结果。

在本申请的一些实施例中，声学特征包括：梅尔频谱，从而，对文本特征进行特征转换，得到语句文本对应的声学特征，即S103的具体实现过程，可以包括：S1031-S1032，如下：

S1031、对文本特征进行编码，得到语句文本对应的音素级声学特征。

S1032、对音素级声学特征进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱。

语音合成设备通过文本编码器，对带有自发行为标签的文本特征进行编码，文本编码器的输出，就是语句文本所对应的音素级声学特征。接着，语音合成设备再对所得到的音素级声学特征进行逐帧进行基于注意力的自回归解码，将解码得到的梅尔频谱，作为梅尔频谱。

可以理解的是，基于注意力的自回归解码，可以是指先利用注意力机制对音素级声学特征进行处理，然后再进行自回归解码。

示例性的，本申请实施例提供了一种对文本特征进行特征转换的示意图，参见图8，语音合成设备先将文本输入特征输入进文本编码器8-1中，将编码得到的音素级声学特征通过注意力机制8-2的处理之后，再进行自回归解码8-3，就能得到梅尔频谱8-4。

示例性的，本申请实施例中，语音合成设备可以将注意力机制和自回归解码整合成一个解码器。在语音合成设备对音素级别的文本特征进行解码，所得到的音素声学特征可以表示为c＝(c₁,c₂…,c_N)的情况下，本申请实施例提供的基于注意力的自回归解码的公式，如式(1)所示：

其中，d表示基于注意力的自回归解码，Θ_d表示基于注意力的自回归解码器的各项参数，c表示音素级声学特征，表示梅尔频谱，/>

可以理解的是，基于注意力的自回归解码器的各项参数，是利用语句文本对应的真值梅尔频谱，以及预测出的梅尔频谱之间的差异训练出来的。此时，语音合成设备可以将真值梅尔频谱和梅尔频谱求差值，然后将差值的范数作为损失值，并利用损失值来调整基于注意力的自回归解码器的各项参数。损失值的计算如式(2)所示：

其中，m是真值梅尔频谱，是梅尔频谱，L_rcon表示计算出的损失值。

本申请实施例中，语音合成设备会通过编码转换、基于注意力的自回归解码，将带有自发行为标签的文本特征转换为梅尔频谱，以便于后续转换为合成语音。

在本申请的一些实施例中，在对音素级声学特征进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱之前，即在S1032之前，该方法还可以包括：S1033-S1034，如下：

S1033、获取语句文本的前置语句文本所对应的历史梅尔频谱，以及语句文本对应的当前对象信息。

语句文本的前置语句文本，在经过自发行为的预测、编码和基于注意力的自回归解码之后，就会得到对应的历史梅尔频谱。语音合成设备获取历史每个频谱，同时从对象信息表中获取到语句文本所对应的当前对象信息。

需要说明的是，当前对象信息用于指示说出语句文本的对象，即指明了语句文本的说话人信息。对象信息表中存储了不同的对象信息，语音合成设备可以从中选取出两个，或者是多个，作为对话过程中的不同对象。

可以理解的是，前置语句文本可以包括文本序列中在语句文本前面的语句文本，例如上一个语句文本。

S1034、对历史梅尔频谱进行上下文编码，得到上下文特征。

语音合成设备对历史梅尔频谱进行上下文编码，以保留对话过程中的风格信息，消除对象信息，所得到的特征就是上下文特征。也就是说，上下文特征保留了前置语句文本的风格信息，消除了所述前置语句文本的前置对象信息，其中，前置对象信息表征说出前置语句文本的对象的信息。

可以理解的是，在对话过程中保留风格信息，消除前置对象信息，是为了建模对话过程中的缠绕现象，即对对话过程中各方的说话风格越来越接近的现象进行建模。

需要说明的是，历史梅尔频谱囊括了前置语句文本对应的语音的所有参数，从而，历史梅尔频谱中可以包括前置对象信息，为了对缠绕现象进行建模，本步骤中，语音合成设备需要通过对历史梅尔频谱进行编码，来消除前置对象信息。

在此情况下，对音素级声学特征进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱，即S1032的具体实现过程，可以变为：

S1032a、对音素级声学特征、上下文特征和当前对象信息进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱。

本申请实施例中，语音合成设备共同利用音素级声学特征、上下文特征和当前对象信息，生成梅尔频谱的过程，实质上就是给梅尔频谱中添加了能够表征对话内容的风格信息的上下文特征，以及当前对话内容的说话人信息，从而，依据梅尔频谱，可以合成出更加逼真的语音。

在一些实施例中，语音合成设备可以是先对音素级声学特征、当前对象信息进行注意力机制的处理，然后再对注意力机制处理所得到的特征和上下文特征逐帧进行自回归解码，从而得到梅尔频谱。

示例性的，本申请实施例提供了另一种提供的基于注意力的自回归解码的公式可如式(3)所示：

其中，d表示基于注意力的自回归解码，Θ_d表示基于注意力的自回归解码器的各项参数，c表示音素级声学特征，s表示当前对象信息，e_n-1表示上下文特征，表示梅尔频谱。/>

示例性的，基于图8，参见图9，本申请实施例提供了另一种对文本特征进行特征转换的示意图，语音合成设备得到音素级声学特征之后，会将音素级声学特征和对当前对象信息9-1进行编码所得到的对象特征9-2进行注意力机制8-2的处理，然后将注意力机制8-2的输出，以及对历史梅尔频谱9-3进行上下文编码9-4所得到的特征向量9-5(上下文特征)进行自回归解码8-3，就能得到梅尔频谱8-4。

在另一些实施例中，语音合成设备可以先同时对音素级声学特征、上下文特征和当前对象信息进行注意力机制的处理，再进行自回归解码，得到梅尔频谱。

本申请实施例中，语音合成设备先获取历史梅尔频谱和当前对象信息，并从历史梅尔频谱中提取出仅保留了风格信息的上下文特征，同时对音素级声学特征、上下文特征和当前对象信息进行基于注意力的自回归解码，使得梅尔频谱中能够包含缠绕现象所对应的特征，以获得更加逼真的合成语音。

在本申请的一些实施例中，对历史梅尔频谱进行上下文编码，得到上下文特征，即S1034的具体实现过程，可以包括：S1034a-S1034b，如下：

S1034a、利用预设特征编码器，对历史梅尔频谱进行特征编码，得到前置语句文本对应的前置语音特征。

语音合成设备将历史梅尔频谱输入预设特征编码器，并将预设特征编码器的输出作为前置语音特征。其中，预设特征编码器用于保留风格信息并消除前置对象信息。预设特征编码器是利用训练数据训练好的特征编码器。

S1034b、利用预设特征提取网络层，对前置语音特征进行特征提取，得到上下文特征。

语音合成设备在得到前置语音特征之后，会将前置语音特征输入至预设特征网络提取层，从而通过预设特征网络提取层提取出上下文特征。其中，预设特征提取网络也是利用训练数据训练好的。

示例性的，图10是本申请实施例提供的上下文编码过程示意图。参见图10，语音合成设备先将历史梅尔频谱10-1输入进行预设特征编码器10-2中，预设特征编码器输出的特征向量10-3即为前置语音特征。之后，语音合成设备将特征向量10-3输入至预设特征提取网络层10-4中，提取出的特征向量10-5，就是上下文特征。

本申请实施例中，语音合成设备先通过预设特征编码器从历史梅尔频谱中提取出前置语音特征，然后再利用预设特征提取网络层从前置语音特征中提取出上下文特征，如此，语音合成设备就得到了上下文特征，以便于后续确定梅尔频谱。

在本申请的一些实施例中，对音素级声学特征进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱，即在S1032之前，该方法还可以包括：S1035，如下：

S1035、对语句文本进行语义提取，得到语句文本的语义特征。

语句文本的语义，是会对人类的自发行为、发音和韵律造成影响的，例如在不同的语义下，人类说话时的重音和停顿等均会产生变化，因为，本申请实施例中，语音合成设备还会对语句文本的语义特征进行提取，以利用语义特征来辅助生成梅尔频谱。

在此情况下，对音素级声学特征进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱，即S1032b的具体实现过程，可以包括：

S1032b、对音素级声学特征、上下文特征、当前对象信息和语义特征进行基于注意力的自回归解码，得到语句文本对应的梅尔频谱。

在一些实施例中，语义合成设备可以先利用注意力记住对音素级声学特征、当前对象信息和语义特征进行处理，然后再对注意力机制的处理结果和上下文特征进行自回归解码，得到梅尔频谱。

在另一些实施例中，语义合成设备可以利用注意力机制同时对音素级声学特征、上下文特征、当前对象信息和语义特征进行处理，然后再对处理结果进行自回归解码，以得到梅尔频谱。

示例性的，本申请实施例提供了又一种提供的基于注意力的自回归解码的公式可如式(4)所示：

其中，d表示基于注意力的自回归解码，Θ_d表示基于注意力的自回归解码器的各项参数，c表示音素级声学特征，s表示当前对象信息，e_n-1表示上下文特征，b表示语义特征，表示梅尔频谱。

示例性的，基于图9，参见图11，本申请实施例提供了又一种对文本特征进行特征转换的示意图。语音合成设备先从语句文本中抽取出特征向量11-1，然后再对特征向量11-1进行语义提取11-2。之后，语音合成设备会同时对音素级声学特征、对当前对象信息9-1进行编码所得到的对象特征9-2，以及语义提取11-2所得到的语义特征进行注意力机制8-2的处理，然后将注意力机制8-2的输出，以及对历史梅尔频谱9-3进行上下文编码9-4所得到的特征向量9-5(上下文特征)进行自回归解码8-3，就能得到梅尔频谱8-4。

本申请实施例中，语义合成设备还可以从语句文本中抽取出语义特征，然后同时利用音素级声学特征、上下文特征、当前对象信息和语义特征构建出梅尔频谱，以使得合成语音的发音和韵律更加自然，进一步提高合成语音的逼真程度。

在本申请的一些实施例中，对语句文本进行语义提取，得到语句文本的语义特征，即S1035的具体实现过程，可以包括：S1035a-S1035c，如下：

S1035a、对语句文本的每个字符信息进行字向量的提取，得到每个字符信息的字符向量。

S1035b、将字符向量进行复制上采样，得到每个字符信息的各个音素对应的音素向量。

语音合成设备先对每个字符信息进行字向量的提取，从而得到每个字符信息在字符级别的字符向量。接着，语音合成设备将每个字符信息的字符向量，复制到每个字符信息的各个音素上，以实现字符向量对齐到音素级别，得到每个字符信息的各个音素所对应的音素向量。

可以理解的是，语音合成设备可以利用预训练好的Bert模型，来对每个字符信息进行字向量的提取，还可以利用word2vec(从文本到向量)模型来对每个字符信息进行字向量的提取。

S1035c、对每个字符信息的各个音素所对应的音素向量进行编码，得到语句文本的语义特征。

语音合成设备再对每个字符信息的各个音素所对应的音素向量进行编码，在对所有的字符信息的各个音素，均完成编码之后，就得到了语句文本的语义特征。

需要说明的是，语音合成设备可以利用Bert编码器来对音素向量进行编码，也可以利用自编码器来对音素向量进行编码，本申请在此不作限定。

本申请实施例中，语音合成设备会先对语句文本的每个字符信息进行字向量提取，然后对所得到的字符向量对齐到每个字符信息的音素级别上，再对每个字符信息的音素级别的音素向量进行编码，得到语义特征，以便于后续基于语义特征得到梅尔频谱。

在本申请的一些实施例中，对字符特征进行自发行为的分类，得到每个字符信息的行为分类结果之后，利用每个字符信息的行为分类结果和文本输入特征，构建出带有自发行为标签的文本特征之前，即在S1023之后，S1024之前，该方法还可以包括：S1026-S1027，如下：

S1026、依据语句文本中的字符信息的总数量，以及预设自发行为频率，计算出语句文本出现的自发声学行为的数量。

虽然在合成语音中出现自发声学行为，可以使得合成语音更加接近于真人说话，但是，合成语音中的自发声学行为过多，无疑会使得合成语音流利程度降低，这样，会造成合成语音质量不高。本申请实施例中，语音合成设备可以通过预设自发行为频率，来对合成语音中的自发声学行为的出现数量进行控制，从而实现对合成语音的流量程度进行控制。也就是说，预设自发行为频率用于控制合成语音的流利程度。

进一步的，语音合成设备可以先统计出语句文本中的字符信息的总数量，然后通过直接将字符信息的总数量与预设自发行为频率相乘，或者是在预设自发行为频率的基础上结合调整因子，将调整后的预设自发行为频率与字符信息的总数量相乘，得到自发行为的数量。

其中，调整因子可以根据说出语句文本的当前对象信息的特点生成，例如，在当前对象信息所对应的对象说话语速较快时，可以生成将预设自发行为频率减小的调整因子，在当前对象信息所对应的对象说话较慢时，可以生成将预设自发行为频率增大的调整因子。

S1027、从每个字符信息的行为分类结果中，挑选出自发声学行为的数量的待添加自发行为。

语音合成设备在明确了自发声学行为的数量之后，就会从每个字符信息所对应的行为分类结果中，进行自发声学行为的挑选，以得到自发行为的数量的待添加自发行为。

可以理解的是，语音合成设备可以先依据行为分类结果所对应的预测概率的大小，对每个字符信息的行为分类结果进行排序，得到排序结果，然后按照从大到小的顺序，从排序结果中挑选出自发声学行为的数量的行为分类结果，作为待添加自发行为。

示例性的，当语句文本为T＝{t₁,t₂,…,t_m}时，那么每个字符信息的行为分类结果为S＝{s₁,s₂,…,s_m}，其中，s_i具有对应的预测概率。语音合成设备对s_i所对应的预测概率进行排序，得到O＝{o₁,o₂,…,o_m}，然后将O＝{o₁,o₂,…,o_m}的前p*m个预测概率所对应的行为分类结果选择出来，就得到了待添加自发行为。其中，p是预设自发行为频率，m为字符信息的总数量。

语音合成设备还可以从每个字符信息的行为分类结果的预测概率中，任选一个作为基准，将剩余的行为分类结果的预测概率，按照比该基准大和比该基准小分为两组，然后再从比该基准大的中的组类中重新选择基准进行比较并分组，直至选出比基准大的预测概率为自发行为的数量个时，将这些比基准大的预测概率所对应的行为分类结果作为待添加自发行为。

相应的，利用每个字符信息的行为分类结果和文本输入特征，构建出带有自发行为标签的文本特征，即S1024的具体实现过程，就会变为：S1024e，如下：

S1024e、利用每个字符信息的行为分类结果中的待添加自发行为，以及文本输入特征，构建出带有自发行为标签的文本特征。

该步骤的具体实现过程与S1024a-S1024b类似，只是将每个字符信息的行为分类结果替换为了待添加自发行为，本申请在此不作限定。

本申请实施例中，语音合成设备能够通过预设自发行为频率，来控制语句文本中出现自发行为的数量，从而能够控制合成语音的流利程度，使得合成语音的质量更高。

下面，对上述实施例中的预设特征编码器和预设特征提取网络层的训练过程进行说明。该过程可以包括：

S201、获取当前训练语句文本的前置训练语句文本的前置训练声学特征、当前训练语句文本的当前真值声学特征，以及前置训练语句文本的真值对象信息。

用于训练预设特征编码器和预设特征提取网络层的训练数据中，包含了多个训练语句文本，这些训练语句文本都对应有声学特征的真值，其中，真值声学特征是语音合成设备在训练开始之前，由每个训练语句文本转换得到的。语音合成设备在训练开始之后，会先确定当前训练语句文本的前置训练语句文本，并获取前置训练语句文本的前置训练声学特征，当前训练语句文本的声学特征的真值，即当前真值声学信息，以及前置训练语句文本的真值对象信息。

可以理解的是，前置训练声学特征，是语音合成设备对前置训练语句文本进行自发行为标签的预测，并构建出带有预测出的自发行为标签的训练文本特征，然后对训练文本特征进行特征转换，所得到对应的训练声学特征。前置训练语句文本的真值对象信息，是真实说出前置训练语句文本的对象的信息。

需要说明的是，前置训练语句文本，可以是当前训练语句文本在训练文本序列之前的训练语句文本，例如上一个训练语句文本，或者训练文本序列中的第一个训练语句文本。

S202、利用初始特征编码器和初始特征提取网络层，从前置训练声学特征中提取出前置训练上下文特征，以及从当前真值声学特征中提取出基准上下文特征。

语音合成设备通过初始特征编码器，分别对前置训练声学特征和当前真值声学特征进行特征编码，从而得到前置训练语音特征和基准语音特征。之后，语音合成设备再利用初始特征提取网络层，分别对前置训练语音特征和基准语音特征进行特征提取，就得到了训练上下文特征和基准上下文特征。

可以理解的是，利用初始特征编码器对前置训练声学特征和当前真值声学特征进行编码，实际就是为了分别去除前置声学特征所对应的对象信息，以及当前真实声学特征中所对应的对象信息。

S203、利用基准上下文特征，以及从前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值，对初始特征提取网络层进行参数调整，得到预设特征提取网络层。

语音合成设备先对前置训练上下文特征进行预测，以得到当前训练上下文特征，然后再计算出基准上下文特征和当前训练上下文特征之间的损失值，将该损失值作为第一损失值。最后，语音合成设备利用第一损失值对初始特征提取网络层进行参数调整，得到预设特征提取网络层。其中，预设特征提取网络层用于提取上下文特征。

示例性的，本申请实施例提供了第一损失值的计算公式，参见式(5)：

其中，是利用前置训练上下文特征预测出的当前训练上下文特征，预测过程如式(6)所示；e_n是基准上下文特征，提取过程如式(7)所示；L_embedding是第一损失值。

其中，e_n-1为前置训练声学特征，其计算过程如式(8)所示；Θ_h为预测当前训练上下文特征时的模型参数，h表示预测处理。

e_n＝f_c(A_n|Θ_fc) (7)

e_n-1＝f_p(B_(n-1)|Θ_fp) (8)

其中，A_n和B_(n-1)是完成的对话C＝{A₁,B₂,A₃,…A_n-1,B_n}的语句，该对话共有n句，A和对为不同的两个对象。显然，在对话过程中，A_n被B_n-1影响，B_n-1被A_n-2。Θ_fc是用于预测当前真值声学特征的初始特征编码器和初始特征提取网络层的联合表征(即看作一个模型，以便于表示)；Θ_fp是用于预测前置训练声学特征的初始特征编码器和初始特征提取网络层的联合表征，Θ_fc和Θ_fp结构相同。f_c表示提取基准上下文特征，f_p表示提取前置训练上下文特征，其处理过程是相同的。

示例性的，参见图12，本申请实施例提供了计算第一损失值的过程示意图。语音合成设备先对前置训练语句文本对应的前置训练梅尔频谱12-1(前置声学特征)，进行上下文特征的提取12-2，从而得到前置训练上下文特征12-3；与此同时，语音合成设备对当前真值梅尔频谱12-4(当前真值声学特征)进行上下文特征的提取12-5，得到基准上下文特征12-6。然后，语音合成设备对前置训练上下文特征12-3进行预测12-7，得到当前训练上下文特征，然后再对当前训练上下文特征和基准上下文特征12-6进行差异计算，得到第一损失值。

S204、基于第一损失值、前置训练语音特征和真值对象信息，对初始特征编码器进行参数调整，得到预设特征编码器。

最后，语音合成设备会利用前置训练语音特征，以确定出前置训练语句文本的预测对象信息，然后对真值对象信息与预测对象信息之间的差异进行梯度反转，利用反转梯度后的差异来对初始特征编码器进行参数调整，得到预设特征编码器。其中，预设特征编码器用于保留风格信息和消除对象信息。

本申请实施例中，语音合成设备可以利用获取到的前置训练声学特征、当前真值声学特征，确定出第一损失值，利用第一损失值对初始特征提取网络层进行参数调整，得到预设特征提取网络层，同时利用第一损失值、前置训练语音特征和真值对象信息，对初始特征编码器进行参数调整，得到预设特征编码器。如此，语音合成设备就能够完成训练，得到预设特征提取网络层和预设特征编码器，以便于后续使用。

在本申请的一些实施例中，利用初始特征编码器和初始特征提取网络层，从前置训练声学特征中提取出前置训练上下文特征，以及从当前真值声学特征中提取出基准上下文特征，即S202的具体实现过程，可以包括：S2021-S2022，如下：

S2021、利用初始特征编码器，对前置训练声学特征进行特征编码，得到前置训练语音特征，并通过初始特征提取网络层，对训练语音特征进行特征提取，得到前置训练上下文特征。

S2022、利用初始特征编码器，对当前真值声学特征进行特征编码，得到基准语音特征，并通过初始特征提取网络层，对基准语音特征进行特征提取，得到基准上下文特征。

可以理解的是，S2021和S2022的执行顺序并不会影响抽取出的基准上下文特征和前置训练上下文特征。从而，在一些实施例中，语音合成设备也可以先执行S2022，再执行S2021，还可以同时执行S2021和S2022。

在本申请的一些实施例中，基于第一损失值、前置训练语音特征和真值对象信息，对初始特征编码器进行参数调整，得到预设特征编码器，即S204的具体实现过程，可以包括：S2041-S2044，如下：

S2041、对从前置训练声学特征中提取出的前置训练语音特征进行梯度反转，得到反转后的前置训练语音特征。

语音合成设备将前置训练语音特征输入至梯度反转层，然后利用梯度反转层，将梯度反转层的输出，即为反转后的前置训练语音特征。

可以理解的是，对前置训练语音特征进行梯度反转的目的，是为了对初始特征编码器在梯度回传时，使其优化目标不再关注说出语句文本的对象信息，这样，所训练出的预设特征编码器，才能够去除说出语句文本的对象信息。

S2042、对反转后的前置训练语音特征进行对象信息的预测，得到预测对象信息。

语音合成设备将反转后的前置训练语音特征输入至对象分类器中，以从前置训练语音特征中预测出前置训练语句文本是哪个对象说出的，从而得到预测对象信息。

S2043、对预测对象信息和所述真值对象信息之间差异进行计算，得到第二损失值。

S2044、利用第一损失值和第二损失值对初始特征编码器进行参数调整，得到预设特征编码器。

示例性的，本申请实施例提供了第二损失值的计算公式，参见式(9)：

其中，speaker_id表示真值对象信息，表示预测出的预测对象信息，L_{speaker_ce}表示第二损失值。

当然，第二损失值也可以利用交叉熵损失函数计算出来，本申请实施例在此不作限定。

示例性的，图13是本申请实施例提供的预设特征编码器在训练时的示意图。在图13中，前置训练声学特征为上一个声学特征13-1。语音合成设备先对上一个训练声学特征13-1输入至初始特征编码器13-2，以进行特征编码，得到上一个训练语音特征13-3，然后利用初始特征提取网络层13-4对上一个训练语音特征13-3进行特征提取，以得到上一个训练上下文特征13-5，从而预测出当前训练上下文特征，得到第一损失值。同时，语音合成设备将上一个训练语音特征13-3输入至梯度反转层13-6中，以进行梯度反转，并将对反转后的上一个训练语音特征进行对象分类13-7，以明确上一个训练语音特征的预测对象信息13-8。最后，语音合成设备计算预测对象信息13-8和真值对象信息之间的差异，就得到了第二损失值。从图13中可见，在梯度反向传播阶段，初始特征编码器13-2会同时得到第一损失值和第二损失值，从而初始特征编码器13-2是利用第一损失值和第二损失值进行参数调整的。

本申请实施例中，语音合成设备通过对上一个训练语音特征进行梯度反转，使得优化过程中优化目标不再聚焦于对象信息，从而所得到的预设特征编码器，能够去除所处语句文本的对象信息。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是服务器(语音合成设备)为智能客服合成带有自发行为的对话的场景下实现的。参见图14，图14是本申请实施例提供的为智能客服合成语音的框架示意图。该框架包括：文本编码器14-1(用于对音素级的文本特征14-2进行编码)、基于注意力的自回归编码器(包含注意力机制14-3和自回归解码14-4)、上下文声学编码器14-5(用于对历史梅尔谱14-6进行编码得到上下文特征14-7)、Bert编码器14-8(用于对从文本中抽取出的字级别的Bert向量14-9进行语义提取)和说话人(对象信息)查找表14-10(用于查找出说话人14-11对应的特征)。首先，文本编码器对音素级的文本特征(带有自发行为标签的文本特征)转换成音素特征，基于注意力的自回归编码器对音素特征通过自回归的方式一帧一帧地生成梅尔谱14-12(声学特征)，以得到智能客服的语音(合成语音)。

在训练上下文声学编码所使用的各个模型时，该框架中还会添加只在训练过程中出现14-13的模块。如对当前梅尔谱14-14(当前真值声学特征)进行上下文声学编码14-5所得到的上下文特征14-15，用基于上下文特征14-7预测出的上下文特征，与上下文特征14-15之间的差异，来调整上下文声学编码时的各个模型(得到预设特征编码器和预设特征提取网络层)。训练时的优化目标如式(10)所示：

L＝L_rcon+λL_{speaker_ce}+βL_embedding (10)

其中，λ是说话人分类器的损失(第二损失值)的权重，β是调节上下文声学特征的损失的权重。

在预测过程中，服务器通过标签(自发行为标签)，显式的控制自发行为(自发声学行为)。这里，主要关注的自发行为包括：自发停顿(停顿行为)和延音(延音行为)，将这两种行为的标签添加在文本特征中。需要说明的是，自发停顿并不是来自正常的韵律停顿，其可能出现在对话的任何位置，并且，其出现在字级别(包括停顿行为或复合行为的目标行为结果)。服务器将字级别的自发行为标签复制到对应的音素上去(将目标行为结果作为标签，添加至与目标字符信息相对应的音素级文本特征中)。

上下文声学编码器用于建模对话中的缠绕现象，另外，在对话中，至少会包括两个说话人(说出语句文本的对象)，服务器利用域对抗学习的方法，以消除上下文声学编码器中的说话人信息，只保留风格相关的信息的特征(上下文特征保留了上一个语句文本的风格信息，消除了前置语句文本的前置对象信息)。为了在当前句的合成中使用到上一句的信息，服务器利用上下文声学编码器将上一句(前置语句文本)的声学信息(历史梅尔频谱)，编码成一个固定长度的上下文向量(上下文特征)，用该向量作为条件信息指导当前句的合成(对音素级声学特征、上下文特征和当前对象信息进行基于注意力的自回归解码，得到梅尔频谱)。例如，在对话中，当前句是A_n(语句文本)，上一句是B_n-1(前置语句文本)，那么上下文向量可以通过式(7)求得。为了在训练时建立上一句的音频和当前句的音频之间的联系，服务器提取当前句A_n的上下文向量(基准上下文特征)，并利用上一句的上下文向量(前置训练上下文特征)预测出当前句的声学向量(当前训练上下文特征)，从而得到损失函数值(第一损失值)。同时，为了消除说话人信息，在训练上下文声学编码器时，使用了说话人分类器(用于对反转后的上一个训练语音特征进行对象信息的预测，得到预测对象信息)和梯度逆转层(用于对前置训练语音特征进行剃度翻转得到反转后的前置训练语音特征)。

Bert编码器用于提取丰富的语义信息，以产生更加自然的发音和韵律。服务器利用预先训练好的Bert模型提取字级别的Bert向量(每个字符信息的字符向量)，然后将字级别的向量复制上采样到音素级别(得到每个字符信息的各个音素对应的音素向量)。音素级别的向量经过Bert编码器得到的输出，可以输入到基于注意力的自回归编码器中，作为条件信息。

自发行为的标签预测，是为了提供自发行为在文本中的出现位置和类型(自发行为标签指明了自发行为在对话内容中的出现位置和类型)。服务器可以通过基于Bert的自发行为预测模型，例如，图7示出的模型，来预测出自发行为。此时，服务器是将自发行为预测看作是分类任务，分类任务的结果(行为类别结果)共有四个类别，分别是不存在自发行为(无自发行为)、延音(延音行为)、自发停顿(停顿行为)和延音+停顿(复合行为)。由于标注好的自发行为标签的文本有限，服务器采用预训练好的Bert模型来预测出字的表示，并结合韵律(韵律特征)和分词(分词特征)这两个额外特征，来进行分类。另外，服务器在分类时，可以通过设置分类阈值，以控制文本中自发行为发生的概率，从而实现将音频从不流利到流利的过渡。

下面，说明本申请实施例提供的语音合成方法，与相关技术中的语音合成方法的效果对比。

将相关技术中的语音合成方法所得的语音记为M1，将基于带有仅利用每个字符信息的字符特征预测出的自发行为标签的文本特征所得到的语音记为M2，将在M2的基础上，将添加语义信息之后所得到的语音记为M3，将在M3的基础上，添加了上下文声学编码之后所得到的语音记为M4。

对于这四组语音，进行CMOS(对比主观平均分数)评测，以对比音频的自然度和上下文之间的缠绕现象，所得到的结果如表1所示：

表1

从表1可以看出，在M1 VS M2时，偏好M2的百分比较高，显然添加自发行为标签能够得到较为逼真的语音。在M2 VS M3和M3 VS M4时，则偏好中立和右侧的更高，也即在添加自发行为标签之后，继续引入语义信息和上下文信息，还能继续提高语音的逼真程度。

图15是本申请实施例提供的自发行为预测的AB测试结果示意图。在图15中，在文本特征中插入各个类型的自发行为15-1的情况下，对基于随机生成的标签所得到的音频的偏好度的占比为6.70％，对基于预测出的标签所得到的音频的偏好度的占比为73.3％，无偏好的占比为20％。在文本特征中只插入延音15-2的情况下，对基于随机生成的标签所得到的音频的偏好度的占比为22.50％，对基于预测出的标签所得到的音频的偏好度的占比为24.50％，无编号的占比为53％。

由图15可知，综合来说，基于预测出的标签所生成的语音的逼真程度，显然优于基于随机生成的标签所生成的语音。而在只插入延音行为时，基于预测出的标签所生成的语音的逼真程度，和基于随机生成的标签所生成的语音程度类似，从而，影响语音逼真程度的自发行为，主要是自发停顿和延音+停顿这两种。

图16是本申请实施例提供的语音的持续时间与自发行为的频率的关系示意图，其中，横轴是自发行为的频率16-1，其取值从0至1，纵轴是持续时间16-2，其取值从0到3.50。从图16可知，随着自发行为的频率的增加，语音的持续时间也会上升，而语音的持续时间的上升，对应着语音的流利程度的降低，从而，可以通过将自发行为的频率取值，来控制语音的流利程度。

由上述可知，在语音合成时，给文本特征适当添加自发行为，会大大提高所得到的语音的拟人程度，得到逼真程度较高的合成语音。进一步的，通过添加有自发行为的文本特征、上下文特征和语义特征的结合，还能够进一步提高合成语音的逼真程度。

下面继续说明本申请实施例提供的语音合成装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的语音合成装置555中的软件模块可以包括：

信息获取模块5551，用于获取语句文本；其中，所述语句文本记载了等待进行语音合成的对话内容；

特征构建模块5552，用于基于所述语句文本，构建出带有自发行为标签的文本特征；其中，所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型；

特征转换模块5553，用于对所述文本特征进行特征转换，得到所述语句文本对应的声学特征；

语音生成模块5554，用于利用所述声学特征，生成与所述语句文本对应的带有所述自发声学行为的合成语音。

在本申请的一些实施例中，所述特征构建模块5552，还用于对所述语句文本所包含的每个字符信息在音素级别进行文本特征的抽取，得到所述语句文本的文本输入特征；对所述每个字符信息在字符级别进行文本特征的提取，得到所述每个字符信息的字符特征；对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果；所述行为分类结果包括无自发行为、延音行为、停顿行为或复合行为中的任意一种，所述复合行为表征所述延音行为和所述停顿行为同时出现；利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的所述文本特征。

在本申请的一些实施例中，所述特征构建模块5552，还用于从所述每个字符信息的所述行为分类结果中，筛选出包括所述停顿行为或所述复合行为的目标行为结果；从所述每个字符信息中，挑选出所述目标行为结果对应的目标字符信息；所述目标字符信息表征存在所述自发声学行为的字符信息；将所述目标行为结果作为标签，添加至所述文本输入特征中与所述目标字符信息相对应的音素级文本特征中，得到带有标签的音素级文本特征；利用所述带有标签的音素级文本特征，以及所述文本输入特征中的其他音素级文本特征，整合出带有自发行为标签的所述文本特征。

在本申请的一些实施例中，所述特征构建模块5552，还用于从所述语句文本中，提取出韵律特征和分词特征；

所述特征构建模块5552，还用于对所述每个字符信息的字符特征、所述韵律特征和所述分词特征进行自发行为的分类，得到所述每个字符信息的所述行为分类结果。

在本申请的一些实施例中，所述声学特征包括：梅尔频谱；所述特征转换模块5553，还用于对所述文本特征进行编码，得到所述语句文本对应的音素级声学特征；对所述音素级声学特征进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

在本申请的一些实施例中，所述特征转换模块5553，还用于获取所述语句文本的前置语句文本所对应的历史梅尔频谱，以及所述语句文本对应的当前对象信息；所述当前对象信息用于指示说出所述语句文本的对象；对所述历史梅尔频谱进行上下文编码，得到上下文特征；所述上下文特征保留了所述前置语句文本的风格信息，消除了所述前置语句文本的前置对象信息，所述前置对象信息表征说出所述前置语句文本的对象的信息；

所述特征转换模块5553，还用于对所述音素级声学特征、所述上下文特征和所述当前对象信息进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

在本申请的一些实施例中，所述特征转换模块5553，还用于利用预设特征编码器，对所述历史梅尔频谱进行特征编码，得到所述前置语句文本对应的前置语音特征；所述预设特征编码器用于保留所述风格信息并消除所述前置对象信息；利用预设特征提取网络层，对所述前置语音特征进行特征提取，得到所述上下文特征。

在本申请的一些实施例中，所述特征转换模块5553，还用于对所述语句文本进行语义提取，得到所述语句文本的语义特征；

所述特征转换模块5553，还用于对所述音素级声学特征、所述上下文特征、所述当前对象信息和所述语义特征进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

在本申请的一些实施例中，所述特征转换模块5553，还用于对所述语句文本的每个字符信息进行字向量的提取，得到所述每个字符信息的字符向量；将所述字符向量进行复制上采样，得到所述每个字符信息的各个音素对应的音素向量；对所述每个字符信息的各个音素所对应的音素向量进行编码，得到所述语句文本的所述语义特征。

在本申请的一些实施例中，所述特征构建模块5552，还用于依据所述语句文本中的字符信息的总数量，以及预设自发行为频率，计算出所述语句文本出现的自发声学行为的数量；其中，所述预设自发行为频率用于控制所述合成语句的流利程度；

所述特征构建模块5552，还用于利用所述每个字符信息的所述行为分类结果中的所述待添加自发行为，以及所述文本输入特征，构建出带有自发行为标签的所述文本特征。

在本申请的一些实施例中，所述语音合成装置555的软件模块，包括：

训练数据获取模块5555，用于获取当前训练语句文本的前置训练语句文本的前置训练声学特征、所述当前训练语句文本的当前真值声学特征，以及所述前置训练语句文本的真值对象信息；

训练特征提取模块5556，用于利用初始特征编码器和初始特征提取网络层，从所述前置训练声学特征中提取出前置训练上下文特征，以及从所述当前真值声学特征中提取出基准上下文特征；

模型调整模块5557，用于利用所述基准上下文特征，以及从所述前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值，对所述初始特征提取网络层进行参数调整，得到预设特征提取网络层；所述预设特征提取网络层用于提取上下文特征；基于所述第一损失值、所述前置训练声学特征和所述真值对象信息，对所述初始特征编码器进行参数调整，得到预设特征编码器；其中，所述预设特征编码器用于保留风格信息和消除对象信息。

在本申请的一些实施例中，所述模型调整模块5557，还用于对从所述前置训练声学特征中提取出的前置训练语音特征进行梯度反转，得到反转后的前置训练语音特征；对所述反转后的前置训练语音特征进行对象信息的预测，得到预测对象信息；对所述预测对象信息和所述真值对象信息之间差异进行计算，得到第二损失值；利用所述第一损失值和所述第二损失值对初始特征编码器进行参数调整，得到所述预设特征编码器。

在本申请的一些实施例中，所述训练特征提取模块5556，还用于利用所述初始特征编码器，对所述前置训练声学特征进行特征编码，得到前置训练语音特征，并通过所述初始特征提取网络层，对所述训练语音特征进行特征提取，得到前置训练上下文特征；利用所述初始特征编码器，对所述当前真值声学特征进行特征编码，得到基准语音特征，并通过所述初始特征提取网络层，对所述基准语音特征进行特征提取，得到基准上下文特征。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的语音合成方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行语音合成指令，当可执行语音合成指令被处理器执行时，将引起处理器执行本申请实施例提供的语音合成方法，例如，如图3示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行语音合成指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行语音合成指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行语音合成指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

获取语句文本，其中，所述语句文本包括至少一个字符信息，且记载了等待进行语音合成的对话内容；

对所述语句文本所包含的每个字符信息在音素级别进行文本特征的抽取，得到所述语句文本的文本输入特征；

对所述每个字符信息在字符级别进行文本特征的提取，得到所述每个字符信息的字符特征；

对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果，其中，所述行为分类结果包括无自发行为、延音行为、停顿行为或复合行为中的任意一种，所述复合行为表征所述延音行为和所述停顿行为同时出现；

利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的文本特征，其中，所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型；

对所述文本特征进行编码，得到所述语句文本对应的音素级声学特征；

获取所述语句文本的前置语句文本所对应的历史梅尔频谱，以及所述语句文本对应的当前对象信息，其中，所述当前对象信息用于指示说出所述语句文本的对象；

对所述历史梅尔频谱进行上下文编码，得到上下文特征，其中，所述上下文特征保留了所述前置语句文本的风格信息，消除了所述前置语句文本的前置对象信息，所述前置对象信息表征说出所述前置语句文本的对象的信息；

对所述音素级声学特征、所述上下文特征和所述当前对象信息进行基于注意力的自回归解码，得到所述语句文本对应的梅尔频谱；

利用所述梅尔频谱，生成与所述语句文本对应的带有所述自发声学行为的合成语音。

2.根据权利要求1所述的方法，其特征在于，所述利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的文本特征，包括：

从所述每个字符信息的所述行为分类结果中，筛选出包括所述停顿行为或所述复合行为的目标行为结果；

从所述每个字符信息中，挑选出所述目标行为结果对应的目标字符信息，其中，所述目标字符信息表征存在所述自发声学行为的字符信息；

将所述目标行为结果作为标签，添加至所述文本输入特征中与所述目标字符信息相对应的音素级文本特征中，得到带有标签的音素级文本特征；

利用所述带有标签的音素级文本特征，以及所述文本输入特征中的其他音素级文本特征，整合出带有自发行为标签的所述文本特征。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果之前，所述方法还包括：

从所述语句文本中，提取出韵律特征和分词特征；

所述对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果，包括：

对所述每个字符信息的字符特征、所述韵律特征和所述分词特征进行自发行为的分类，得到所述每个字符信息的所述行为分类结果。

4.根据权利要求1所述的方法，其特征在于，所述对所述历史梅尔频谱进行上下文编码，得到上下文特征，包括：

利用预设特征编码器，对所述历史梅尔频谱进行特征编码，得到所述前置语句文本对应的前置语音特征，其中，所述预设特征编码器用于保留所述风格信息并消除所述前置对象信息；

利用预设特征提取网络层，对所述前置语音特征进行特征提取，得到所述上下文特征。

5.根据权利要求1或4所述的方法，其特征在于，所述对所述音素级声学特征进行基于注意力的自回归解码，得到所述语句文本对应的梅尔频谱之前，所述方法还包括：

对所述语句文本进行语义提取，得到所述语句文本的语义特征；

所述对所述音素级声学特征进行基于注意力的自回归解码，得到所述语句文本对应的梅尔频谱，包括：

对所述音素级声学特征、所述上下文特征、所述当前对象信息和所述语义特征进行基于注意力的自回归解码，得到所述语句文本对应的所述梅尔频谱。

6.根据权利要求5所述的方法，其特征在于，所述对所述语句文本进行语义提取，得到所述语句文本的语义特征，包括：

对所述语句文本的每个字符信息进行字向量的提取，得到所述每个字符信息的字符向量；

将所述字符向量进行复制上采样，得到所述每个字符信息的各个音素对应的音素向量；

对所述每个字符信息的各个音素所对应的音素向量进行编码，得到所述语句文本的所述语义特征。

7.根据权利要求4所述的方法，其特征在于，所述利用预设特征编码器，对所述历史梅尔频谱进行特征编码，得到所述前置语句文本对应的前置语音特征之前，所述方法还包括：

利用所述基准上下文特征，以及从所述前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值，对所述初始特征提取网络层进行参数调整，得到预设特征提取网络层，其中，所述预设特征提取网络层用于提取上下文特征；

基于所述第一损失值、所述前置训练声学特征和所述真值对象信息，对所述初始特征编码器进行参数调整，得到所述预设特征编码器。

8.根据权利要求1所述的方法，其特征在于，所述对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果之后，所述利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的文本特征之前，所述方法还包括：

依据所述语句文本中的字符信息的总数量，以及预设自发行为频率，计算出所述语句文本出现的自发声学行为的数量，其中，所述预设自发行为频率用于控制合成语句的流利程度；

所述利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的文本特征，包括：

利用所述每个字符信息的所述行为分类结果中的所述待添加自发行为，以及所述文本输入特征，构建出带有自发行为标签的所述文本特征。

9.一种语音合成装置，其特征在于，包括：

信息获取模块，用于获取语句文本，其中，所述语句文本包括至少一个字符信息，且记载了等待进行语音合成的对话内容；

特征构建模块，用于对所述语句文本所包含的每个字符信息在音素级别进行文本特征的抽取，得到所述语句文本的文本输入特征；对所述每个字符信息在字符级别进行文本特征的提取，得到所述每个字符信息的字符特征；对所述字符特征进行自发行为的分类，得到所述每个字符信息的行为分类结果，其中，所述行为分类结果包括无自发行为、延音行为、停顿行为或复合行为中的任意一种，所述复合行为表征所述延音行为和所述停顿行为同时出现；利用所述每个字符信息的所述行为分类结果和所述文本输入特征，构建出带有自发行为标签的文本特征，其中，所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型；

特征转换模块，用于对所述文本特征进行编码，得到所述语句文本对应的音素级声学特征；获取所述语句文本的前置语句文本所对应的历史梅尔频谱，以及所述语句文本对应的当前对象信息，其中，所述当前对象信息用于指示说出所述语句文本的对象；对所述历史梅尔频谱进行上下文编码，得到上下文特征，其中，所述上下文特征保留了所述前置语句文本的风格信息，消除了所述前置语句文本的前置对象信息，所述前置对象信息表征说出所述前置语句文本的对象的信息；对所述音素级声学特征、所述上下文特征和所述当前对象信息进行基于注意力的自回归解码，得到所述语句文本对应的梅尔频谱；

语音生成模块，用于利用所述梅尔频谱，生成与所述语句文本对应的带有所述自发声学行为的合成语音。

10.一种语音合成设备，其特征在于，包括：

存储器，用于存储可执行语音合成指令；

处理器，用于执行所述存储器中存储的可执行语音合成指令时，实现权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有可执行语音合成指令，用于被处理器执行时，实现权利要求1至8任一项所述的方法。