CN115273803A

CN115273803A - 模型训练方法和装置、语音合成方法、设备和存储介质

Info

Publication number: CN115273803A
Application number: CN202210906287.9A
Authority: CN
Inventors: 郭洋; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本发明实施例提供模型训练方法和装置、语音合成方法、设备和存储介质，涉及人工智能技术领域。模型训练方法通过获取训练数据集，获取用于训练注意力单元中单调对齐损失函数和用于训练语音合成模型中的预设损失函数，基于预设损失函数，结合语音输出向量和对应的语音标签对语音合成模型进行训练，对语音合成模型的模型参数进行调整，直至损失函数的值满足预设条件时，得到训练好的语音合成模型，在训练过程中，基于单调对齐损失函数对注意力权重序列进行单调性训练。为注意力对齐设定单调对齐损失函数，确保注意力权重序列的单调性，有助于实现模型快速收敛，同时能够提高模型训练准确性，提升合成语言自然度和鲁棒性。

Description

模型训练方法和装置、语音合成方法、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及模型训练方法和装置、语音合成方法、设备和存储介质。

背景技术

语音合成是利用文本生成对应的语音信息，对提升人机交互系统真实性至关重要，例如常见的语音助手、虚拟人和发音辅助等场景，均用到了语音合成技术。

目前，可以利用深度学习来实现语音合成，基于深度学习的语音合成已能生成接近人类水平的自然语音，特别是自回归的语音合成模型。通过构造一个端到端的神经网络模型，实现文本与语音梅尔谱之间的序列映射。目前语音合成的主流方法为Encoder-Decoder框架构建语音合成模型，该模型的注意力对齐用于建立文本序列与梅尔谱序列之间的对齐关系。但是相关技术中或是利用对齐权重矩阵服从拉普拉斯分布实现对角化的方式进行建模，或是利用维特比算法迭代计算最优对齐关系。这两种方式均不能精准对齐，可能会引起模型训练难以收敛，影响模型训练稳定性的问题，或者语音合成结果不精准造成字词的复读或漏读问题。

发明内容

本发明实施例的主要目的在于提出模型训练方法和装置、语音合成方法、设备和存储介质，选取合适的注意力对齐机制，提高模型收敛速度以及语音合成结果准确性。

为实现上述目的，本发明实施例的第一方面提出了一种模型训练方法，用于训练语音合成模型，所述语音合成模型包括编码单元、注意力单元和解码单元，包括：

获取训练数据集，所述训练数据集包括文本序列样本以及所述文本序列样本的语音标签；

通过所述编码单元对所述文本序列样本进行特征提取，得到隐特征向量；

通过所述注意力单元对所述隐特征向量进行注意力选取，得到注意力权重序列；

通过所述解码单元对所述隐特征向量和所述注意力权重序列进行解码处理，得到语音输出向量；

通过预设损失函数对所述语音输出向量和所述语音标签进行训练，对所述语音合成模型的模型参数进行调整，并基于所述单调对齐损失函数对所述注意力权重序列进行单调性训练，直至所述损失函数的值收敛，得到训练好的语音合成模型。

在一实施例，所述通过所述解码单元对所述隐特征向量和所述注意力权重序列进行解码处理，得到语音输出向量，包括：

根据所述隐特征向量和所述注意力权重序列生成上下文向量；

获取语音合成模型的解码单元生成的状态向量；

根据所述状态向量和所述上下文向量生成语音输出向量。

在一实施例，所述通过所述注意力单元对所述隐特征向量进行注意力选取，得到注意力权重序列，包括：

所述注意力单元针对所述语音输出向量中每一帧的语音对所述隐特征向量进行注意力选取，得到所述语音输出向量中每一帧的语音的注意力权重序列；

所述基于所述单调对齐损失函数对所述注意力权重序列进行单调性训练，包括：

根据当前帧的语音的注意力权重序列计算当前帧的语音的注意力权重；

根据下一帧的语音的注意力权重序列计算下一帧的语音的注意力权重；

计算所述当前帧的语音的注意力权重和所述下一帧的语音的注意力权重之间的差值，得到注意力权重差值；

根据所述注意力权重差值计算所述单调对齐损失函数的函数值；

根据所述函数值调节所述注意力权重序列，直至所述单调对齐损失函数的值满足预设条件。

在一实施例，所述根据所述注意力权重差值计算所述单调对齐损失函数的函数值，包括：

将所述差值输入预设的激活函数进行计算，得到激活值；

累加所述语音输出向量所有帧的语音的所述激活值得到所述单调对齐损失函数的函数值；

其中，所述激活函数为Relu函数，所述单调对齐损失函数表示为：

其中，Loss1表示所述单调对齐损失函数，T表示所述语音输出向量的总帧数，a_i表示第i帧语音的所述注意力权重序列，

表示第i帧语音的所述注意力权重，a_i+1表示第i+1帧语音的所述注意力权重序列，

表示第i+1帧语音的所述注意力权重。

在一实施例，所述根据当前帧的语音的注意力权重序列计算当前帧的语音的注意力权重，表示为：

计算当前帧的语音的注意力权重序列的目标位置；

根据所述目标位置计算当前帧的语音是所述文本序列中目标位置文本的概率；

根据所述目标位置和所述概率计算得到当前帧的语音的注意力权重；

表示为：

其中，L表示所述文本序列的文本数，j表示目标位置，a_i,j表示第i帧的语音是所述文本序列中第j个位置文本的概率。

在一实施例，所述根据所述状态向量和所述上下文向量生成语音输出向量，包括：

根据所述状态向量和所述上下文向量生成梅尔语音向量；

根据所述梅尔语音向量生成所述语音输出向量。

为实现上述目的，本发明的第二方面提出了一种语音合成方法，包括：

获取待合成文本序列；

将所述待合成文本序列输入至语音合成模型进行语音合成处理，得到语音输出序列，所述语音合成模型利用如第一方面任一项所述的模型训练方法训练得到。

为实现上述目的，本发明的第三方面提出了一种型训练装置，用于训练语音合成模型，所述语音合成模型包括编码单元、注意力单元和解码单元，包括：

训练数据获取模块，用于获取训练数据集，所述训练数据集包括文本序列样本以及所述文本序列样本的语音标签；

编码模块，用于通过所述编码单元对所述文本序列样本进行特征提取，得到隐特征向量；

注意力模块，用于通过所述注意力单元对所述隐特征向量进行注意力选取，得到注意力权重序列；

解码模块，用于通过所述解码单元对所述隐特征向量和所述注意力权重序列进行解码处理，得到语音输出向量；

训练模块，用于通过预设损失函数对所述语音输出向量和所述语音标签进行训练，对所述语音合成模型的模型参数进行调整，并基于所述单调对齐损失函数对所述注意力权重序列进行单调性训练，直至所述损失函数的值收敛，得到训练好的语音合成模型。

为实现上述目的，本发明的第四方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明如上述第一方面或第二方面所述的方法。

为实现上述目的，本发明的第五方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面或第二方面所述的方法。

本发明实施例提出的语音合成方法、模型训练方法、装置、设备和存储介质，通过获取训练数据集，获取用于训练注意力单元中单调对齐损失函数和用于训练语音合成模型中的预设损失函数，利用编码单元，基于文本序列样本得到隐特征向量，利用注意力单元，生成注意力权重序列，利用解码单元，基于隐特征向量和注意力权重序列，得到语音输出向量，最后基于预设损失函数，结合语音输出向量和对应的语音标签对语音合成模型进行训练，对语音合成模型的模型参数进行调整，直至损失函数的值满足预设条件时，得到训练好的语音合成模型，在训练过程中，基于单调对齐损失函数对注意力权重序列进行单调性训练。本实施例为注意力对齐设定单调对齐损失函数，确保注意力权重序列的单调性，有助于实现模型快速收敛，同时能够提高模型训练准确性，避免语音合成结果不精准造成字词的复读或漏读的问题，提升合成语言自然度和鲁棒性。

附图说明

图1是本发明实施例提供的模型训练方法的流程图。

图2是本发明又一实施例提供的模型训练方法的流程图。

图3是本发明又一实施例提供的模型训练方法的流程图。

图4是本发明又一实施例提供的模型训练方法的流程图。

图5是本发明又一实施例提供的模型训练方法的流程图。

图6是本发明又一实施例提供的模型训练方法的注意力机制示意图。

图7是本发明实施例提供的语音合成方法的流程图。

图8是本发明又一实施例提供的模型训练装置结构框图。

图9是本发明又一实施例提供的语音合成装置结构框图。

图10是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本发明中涉及的若干名词进行解析：

语音技术：指的是在计算机领域中的关键技术有自动语音识别技术(AutomaticSpeech Recognition，简称ASR)和语音合成技术(Text to Speech，简称TTS)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其语音成为未来最被看好的人机交互方式之一，语音比其他的交互方式有更多的优势。

注意力单元：注意力单元的研究最早出现在心理学中，当人在看到一个画面时，虽然面对的是所有大的画面，但是注意力只集中在某个点上。2014年Bahdanau等人首次将注意力单元引入机器翻译，结合注意力单元和神经网络，提升了机器翻译的正确率。随后很多研究都尝试将注意力单元与神经网络结合应用在不同任务中，并且都不同程度的取得相比传统方法更为显著的优势。

深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

循环神经网络：与深度神经网络相比，循环神经网络最基本的不同就是输入不仅包含此刻的语音特征，还包括内部状态，其中内部状态是将过去已经被循环神经网络处理过的时间序列中的信息进行编码。相比于深度神经网络的静态地完成输入到输出的变换，循环神经网络是一个动态系统，可以表示和学习长时间范围内序列间的相关性。本申请实施例的语音识别是一个序列学习任务，而循环神经网络自身的结构特征使得其对于序列化数据具有很强的建模能力，故在语音识别方面具有很大的优势。

梅尔谱(mel spectrogram)：即梅尔频谱，是通过对声学信号进行傅立叶变换以后，再经过梅尔尺度进行变换得到的频谱。声谱图往往是很大的一张图，为了得到合适大小的声音特征，可将把声谱图通过梅尔尺度滤波器组之后变换为梅尔频谱。在梅尔频域内，语音的梅尔频率和人对音调的感知能力之间呈线性关系，梅尔谱由梅尔频率倒谱和语谱图结合得到。

语音合成是人机交互系统的关键技术之一。作为语音领域的重要研究方向，语音合成技术在智能导航、机器人、智能阅读以及智慧旅游等领域具有广阔的应用前景，例如常见的语音助手、虚拟人和发音辅助等场景，均用到了语音合成技术。语音合成是利用文本生成对应的语音信息，对于提升人机交互系统真实性至关重要，一些语音助手，例如Siri(苹果)、小度(百度)、小艺(华为)、小爱同学(小米)等，使得语音合成在搜索、导航、人机对话等场景中得到广泛应用；语音合成还用于机场、火车站和医院等公共场所的公告、手机和笔记本电脑等电子设备的通话、车载导航系统和语言学习应用程序等。

目前，可以利用深度学习来实现语音合成，基于深度学习的语音合成已能生成接近人类水平的自然语音，特别是自回归的语音合成模型。通过构造一个端到端的神经网络模型，实现文本与语音梅尔谱之间的序列映射。目前语音领域的主流方法为Encoder-Decoder框架结合注意力单元构建语音合成模型，该模型中利用注意力对齐用于建立文本序列与梅尔谱序列之间的对齐关系。语音合成模型的输出语音质量可以根据两个主要特征来判断，第一个是语音内容清晰易懂的程度；第二个是产生的声音与人类语言相似的程度。如果注意力对齐不能实现精准对齐，则会影响输出的语音质量。

相关技术中或是利用对齐权重矩阵服从拉普拉斯分布实现对角化的方式建模实现对齐，或是利用维特比算法迭代计算最优对齐关系。这两种方式均不能精准对齐，可能会引起模型训练难以收敛，影响模型训练稳定性的问题，或者语音合成结果不精准造成字词的复读或漏读的问题。

基于此，本发明实施例提供一种语音合成方法、模型训练方法、装置、设备和存储介质，通过为注意力对齐设定单调对齐损失函数，确保注意力权重序列的单调性，有助于实现模型快速收敛，同时能够提高模型训练准确性，避免语音合成结果不精准造成字词的复读或漏读的问题，提升合成语言自然度和鲁棒性。

本发明实施例提供语音合成方法、模型训练方法、装置、设备和存储介质，具体通过如下实施例进行说明，首先描述本发明实施例中的模型训练方法。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的语音合成方法、模型训练方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本发明实施例提供的语音合成方法、模型训练方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。其中，终端通过网络与服务器进行通信。该语音合成方法、模型训练方法可以由终端或服务器执行，或由终端和服务器协同执行。这里以该模型训练方法利用终端执行为例进行说明：终端获取训练数据集，确定用于训练语音合成模型的损失函数，损失函数包括单调对齐损失函数和预设损失函数，单调对齐损失函数用于表征语音合成模型生成的注意力权重序列的单调性，预设损失函数用于表征语音合成模型的语音输出序列和语音标签之间的差异，最后基于损失函数和训练数据集对语音合成模型进行训练，直至损失函数的值满足预设条件时，得到训练好的语音合成模型。

在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。此外，终端还可以是智能车载设备，该智能车载设备可以利用文本序列进行语音合成，得到目标音色的合成语音，从而实现与用户之间的语音交互。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。服务器上可以安装需求管理系统的服务端，通过该服务端可以与终端进行交互，例如服务端上安装对应的软件，软件可以是实现语音合成方法、模型训练方法的应用等，但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者网络等通讯连接方式进行连接，本实施例在此不做限制。

本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在一实施例中，该语音合成模型采用编码单元(Encoder)-解码单元(Deeoder)结构，这种结构是一种深度学习模型框架，主要用来处理序列到序列的学习任务。相关技术中，语音合成模型主要包括：编码单元和解码单元，其中编码单元部分通过一个网络模型将输入的文本序列转化成一个固定长度的向量，解码单元部分通过另外一个网络模型将编码单元生成的向量转化成输出向量。由于编码单元和解码单元之间由该固定向量联系起来，在编码过程中，编码单元要将所有文本序列的信息压缩进该固定向量中去，这限制了输入文本序列的长度。当输入序列较短时，模型处理问题不大；但当输入序列较长时，模型性能将变差。因为先输入的内容所携带的信息会被后输入的内容所携带的信息稀释掉。输入序列越长，这个现象就越严重。这就使得在解码时，从一开始就没有获得输入序列中足够的信息，导致解码准确度低。

因此，该实施例在语音合成模型中引入注意力单元，编码单元在产生输出时还会产生一个“注意力范围”，注意力范围用来表示接下来输出时要重点关注输入文本序列中的哪些部分，然后根据注意力范围关注的区域来产生下一个输出，如此往复。此时编码单元需要将输入的文本序列编码成一个状态向量序列，而不再是编码为一个固定长度的上下文向量。在解码时候，解码单元利用注意力单元在每一步都会选择性的给状态向量序列中的向量以不同的注意力权重，得到上下文向量，然后进行进一步处理。这样，在产生每一个输出向量时，都能够充分利用输入文本序列携带的信息。

图1是本发明实施例提供的模型训练方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S110至步骤S150。

步骤S110：获取训练数据集。

在该实施例中，训练数据集包括文本序列样本以及文本序列样本的语音标签。其中文本序列样本是用来进行语音合成的文本，该文本序列样本可以是一篇文章，或一篇文章中的一段文字、一行文字或几个词组。该文章可以是各种领域的，如科技、体育、休闲娱乐、美食和文学等领域。对应的语音标签即该文本序列中文字对应的语音发音。

在实际训练中，通常需要获取大量的文本序列样本和对应语音标签，为了便于说明，下面将以其中一个训练样本对为例进行介绍。例如，一个训练样本对包括两个部分，分别为文本序列以及对应音频，文本序列表示为语言学特征，以原始文本为“训练模型”为例，其对应的文本序列表示为“xun4 lian4 mo2 xing2”，其中，“xun”表示“训”字的音，“4”表示“训”字的声调为第四声，“lian”表示“练”字的音，“4”表示“练”字的声调为第四声，“mo”表示“模”字的音，“2”表示“模”字的声调为第二声，“xing”表示“型”字的音，“2”表示“型”字的声调为第二声。对应音频是指读出文本的一个音频，例如，对象A朗读“训练模型”这四个字，并对进行录制，从而得到一个语音信号。对其进行处理的过程包括但不限于：例如音频中高频部分信号较弱，需要通过预加重来提高高频信号，从而平衡高低频信号，这样可以避免傅里叶变换中数值运算问题。或者提高信噪比。或者对音频进行滤波之后，在时域上对信号进行滑窗傅里叶变换，而在傅里叶变换之前，为了防止能量泄露，使用窗函数进行滤波。经过短时傅里叶变换处理之后，得到音频的线性谱，一般线性谱维度通常较高，因此取所有频谱并将所有频谱划分成等间距频率，这里的等间距频率是根据人耳能听到的距离选定，最后生成真实梅尔谱。对文本序列样本进行标注的方式可以是机器标注或者人工标注，此处不做限定。

步骤S120：通过编码单元对文本序列样本进行特征提取，得到隐特征向量。

在该实施例中，将文本序列输入到语音合成模型的编码单元进行特征提取生成隐特征向量。

在该实施例中，文本序列表示为

隐特征向量表示为

编码单元即编码单元，编码单元用于将文本信息转换为时间序列相关的高维度的文本特征，用于将输入文本序列{x}＝{x₁,x₂,...,x_L}编码为隐特征向量{h}＝{h₁,h₂,...,h_L}，来表征文本信息。

一种可能的实施方式中，编码单元为自回归循环神经网络，编码单元首先将输入序列转换为字符向量，然后通过三个卷积层对输入文本序列的上下文进行建模，每层卷积包含512个5*1的卷积核，之后是批标准化和激活函数，最终卷积层的输出被输入到双向LSTM层以生成编码特征。本实施例对编码单元的具体网络结构不做限制。

步骤S130：通过注意力单元对隐特征向量进行注意力选取，得到注意力权重序列。

在一实施例中，语音合成模型中利用注意力权重序列建立文本序列与梅尔谱序列之间的对齐关系，注意力权重序列由注意力单元生成。

步骤S140：通过解码单元对隐特征向量和注意力权重序列进行解码处理，得到语音输出向量。

在一实施例中，参照图2，步骤S140包括但不限于步骤S141至S143。

步骤S141，根据隐特征向量和注意力权重序列生成上下文向量。

在一实施例中，注意力权重序列表示为：

上下文向量表示为：

构建一个注意力单元接受编码单元的输出，编码单元的每次输出，注意力单元都将编码的隐特征向量概括为一个上下文向量，然后在每个解码单元步骤上使用注意力权重计算上下文向量。

在该实施例中，注意力权重序列是注意力单元根据单调对齐损失函数调节得到的。

步骤S142，获取语音合成模型的解码单元生成的状态向量。

在一实施例中，状态向量表示为

步骤S143，根据状态向量和上下文向量生成语音输出向量。

在一实施例中，参照图3，步骤S143根据状态向量和上下文向量生成语音输出向量，还可以包括以下步骤S1431至步骤S1432。

步骤S1431：根据状态向量和上下文向量生成梅尔语音向量。

步骤S1432：根据梅尔语音向量生成语音输出向量。

在该实施例中，梅尔语音向量表示为：

语音输出向量表示为：

在一实施例中，解码单元首先利用上下文向量和状态向量得到梅尔语音向量，再经过滤波函数对梅尔语音向量进行滤波得到对应的语音输出向量。其中，梅尔语音向量为包含梅尔谱信息的语音向量。

在一实施例中，解码单元根据上下文向量来预测输出梅尔语音向量，即梅尔声谱图的帧序列。首先将上一步预测出的声谱帧输入到双层全连接的“Pre-net”，每层有256个隐藏Relu单元以学习注意力，并在卷积层后进行正则化处理。然后将上下文向量和Pre-net的输出通过两个具有1024个单元的单向LSTM层，其中LSTM层之后是两个投影层，用于预测完成概率表示生成后的序列是否到达最后一帧。在训练过程中，如果该概率超过0.5，就会自动停止生成声谱帧。最后，为了提高生成精度，引入了5个卷积层的“Post-net'”作为后处理网络，每层由512个5*l卷积核和一个批标准化处理组成。Post-net利用双向上下文信息对解码单元预测的梅尔声谱图进行了细化，最后一层的输出叠加到卷积前的频谱帧上产生最终的结果。

该实施例中，解码单元基于当前步的上下文向量c_i以及上一步的解码状态向量s_i和已经输出的语音输出向量y_i完成对解码状态的更新。

步骤S150：基于预设损失函数和单调对齐损失函数对语音合成模型进行训练。

该实施例中，通过预设损失函数对语音输出向量和语音标签进行训练，对所述语音合成模型的模型参数进行调整，并基于单调对齐损失函数对注意力权重序列进行单调性训练，直至损失函数的值收敛，得到训练好的语音合成模型。

在一实施例中，确定用于训练语音合成模型的损失函数具体是：获取用于训练所述注意力单元中单调对齐损失函数和用于训练所述语音合成模型中的预设损失函数，即损失函数包括单调对齐损失函数和预设损失函数。其中，单调对齐损失函数用于表征语音合成模型生成的注意力权重序列的单调性，预设损失函数用于表征语音合成模型的语音输出序列和语音标签之间的差异。该实施例中，首先利用单调对齐损失函数在语音合成过程中调节注意力权重序列的单调性，确保注意力权重序列是单调的，然后利用预设损失函数调节语音输出序列和语音标签之间的差异，从而对语音合成模型进行训练。

上述实施例中，语音合成模型中利用注意力权重序列建立文本序列与梅尔谱序列之间的对齐关系。由于对齐与否会影响输出的合成语音质量，如果注意力权重不能实现精准对齐，则可能合成语音内容不清晰或者跟人声不相似。本实施例通过为注意力对齐设定单调对齐损失函数，确保注意力权重序列的单调性，能够实现精准对齐，有助于实现模型快速收敛，同时能够提高模型训练准确性，避免语音合成结果不精准造成字词的复读或漏读问题，提升合成语言自然度和鲁棒性。

在一实施例中，注意力单元针对语音输出向量中每一帧的语音对隐特征向量进行注意力选取，得到语音输出向量中每一帧的语音的注意力权重序列。参照图4，步骤S150中基于单调对齐损失函数对注意力权重序列进行单调性训练，包括步骤S1501至步骤S1505。

步骤S1501：根据当前帧的语音的注意力权重序列计算当前帧的语音的注意力权重。

步骤S1502：根据下一帧的语音的注意力权重序列计算下一帧的语音的注意力权重。

步骤S1503：计算当前帧的语音的注意力权重和下一帧的语音的注意力权重之间的差值，得到注意力权重差值。

步骤S1504：根据注意力权重差值计算单调对齐损失函数的函数值。

在一实施例中，将注意力权重差值输入预设的激活函数进行计算，得到激活值，其中预设激活函数可以是Relu激活函数，然后累加语音输出向量所有帧内语音的激活值得到单调对齐损失函数的函数值。

步骤S1505：根据函数值调节注意力权重序列，直至单调对齐损失函数的值满足预设条件。

在一实施例中，单调对齐损失函数表示为：

Relu(x)＝max(x,0)

其中，Loss1表示单调对齐损失函数，T表示语音输出向量的总帧数，a_i表示第i帧语音的注意力权重序列，

表示第i帧语音的注意力权重，a_i+1表示第i+1帧语音的注意力权重序列，

表示第i+1帧语音的注意力权重。

该实施例中，参照图5，注意力权重的计算步骤包括步骤S1506至步骤S1508。

步骤S1506：计算当前帧的语音的注意力权重序列的目标位置。

在一实施例中，取a_i中最大值对应的下标j_max作为j，即目标位置，假设文本序列中第j个文本对应于语音第i帧，则语音第i帧即文本的中心位置，在该中心位置，文本j对应于语音帧数为i的语音概率最大。

步骤S1507：根据目标位置计算当前帧的语音是文本序列中目标位置文本的概率。

在一实施例中，语音第i帧属于第j_max个文本时，

的值最大。即

为当前语音帧数对应的语音属于文本序列中目标文本的概率。

步骤S1508：根据目标位置和概率计算得到当前语音帧数对应的注意力权重。

在一实施例中，注意力权重表示为：

其中，L表示文本序列的文本数，a_i,j表示第i帧的语音是文本序列中第j个位置文本的概率，在二维平面内，a_i,j为对角线，越靠近对角线概率值越大，远离则越小。

该实施例中，由于利用单调对齐损失函数在语音合成过程中调节注意力权重序列的单调性，确保注意力权重序列是单调的，设定单调对齐损失函数的收敛条件是：单调对齐损失函数的函数值趋于负数，因为文本依照顺序依次发音,即文本位置j与语音帧数i之间的对齐关系应为严格单调递增，严格递增的含义是如果语音帧数i对应文本位置j，则语音帧数i+1对应文本位置是j或j+1，保证

若第i+1帧语音属于第n个文本，则必须满足n＝j_max+1或n＝j_max。单调对齐损失函数优化的是

趋于负数，以满足对齐关系的单调性。其不需要额外的网络结构和计算成本，可适用于不同注意力单元，不会造成模型训练成本增加，具有普适性。根据实验结果，利用该单调对齐损失函数能够有效节省模型训练时间，提升收敛的稳定性。同时明显提升了合成语音自然度和鲁棒性。

上述实施例，利用softmax函数来保证对齐关系的单调性。

参照图6，为本实施例中语音合成模型的注意力机制示意图。从图中可见，输入文本序列进入编码单元后得到状态向量，然后结合对应的表示注意力范围的上下文向量进入解码单元，解码单元生成语音输出向量，可见该语音输出向量是基于表示注意力的上下文向量得到。

其中，输入文本序列表示为：

L表示输入文本序列的文本数，上下文向量表示为：

语音输出向量表示为：

T表示语音输出向量的语音帧数，文本数和语音帧数不同。在一实施例中，训练过程中第i步的计算过程描述为：

h＝Encode(x)

s_i＝Decode(s_i-1,[c_i-1,y_i-1])

其中，c_i表示上下文向量，a_i表示注意力单元产生的注意力权重序列，s_i表示状态向量，Encode表示编码单元，Decode表示解码单元。

上述实施例中，注意力单元的作用是计算解码单元所要重点关注隐特征向量量中的元素，对于重点关注的元素使用权重大的值进行加权处理，从而可以有效提升模型建模精度。注意力单元在产生对齐时，注意力权重序列a_i用于表示权重，主要依赖于解码单元上一步的状态向量。如果是基于内容的注意力单元，则在产生注意力权重序列时，利用解码单元上一步的状态s_i-1以及隐特征向量计算，此时基于内容的注意力单元，一般用多层感知机实现。如果是基于位置的注意力单元，则在产生注意力权重序列时，主要依赖于解码单元上一步的状态s_i-1和上一步得到的注意力权重序列值a_i-1计算。该实施例中，注意力单元可以基于内容也可以基于位置，或者两者混合，在此不做具体限定。

在一实施例中，对于每一个语音输出向量，输入文本序列中不同时刻提供的信息对其影响是不同的，通过注意力单元，对输入帧(也就是编码单元部分输出的隐特征向量)进行选择或加权，通过给重要信息高权重，次要信息低权重的方式，充分利用更有效的信息来生成当前输出，从而更准确的抓取有用信息来预测输出。本实施例中，注意力单元主要完成对注意力权重序列a_i的计算，并根据a_i计算注意力权重a_i,j，再通过a_i,j计算上下文向量。其中，注意力权重a_i,j是a_i的第j个元素，表示语音帧数i对应的语音属于所述文本序列中第j个文本的概率。

在一实施例中，通过计算预设损失函数的值以更新语音合成模型的网络参数，预设损失函数可以是相关技术中应用的损失函数，例如交叉熵损失函数，在此不对预设损失函数的具体形式做限定。

在一具体应用场景，假设输入文本序列为{x₁,x₂,...,x_L}，终端将该文本序列输入至编码单元，编码单元对输入的文本序列{x₁,x₂,...,x_L}进行编码，得到包含语义特征的隐特征向量{h₁,h₂,...,h_L}。解码单元在解码过程中，注意力单元实时确定隐特征向量中各元素对应的应关注程度，对不同关注程度的元素采用不同权重进行加权(即选取不同的a_i,j)，从而解码单元可以得到梅尔谱特征{d₁,d₂,...,d_T}，然后再通过滤波函数(例如傅里叶反变换)将梅尔谱特征{d₁,d₂,...,d_T}转化为语音输出向量{y₁,y₂,...,y_T}。需要指出的是，本实施例的解码单元是一个自回归的结构，开始状态为d₀，基于d₀生成d₁之后，再根据d₁生成d₂，如此往复得到梅尔谱特征{d₁,d₂,...,d_T}。

本发明实施例提供的技术方案，通过获取训练数据集，然后确定用于训练语音合成模型的损失函数，构建的损失函数包括用于表征语音合成模型生成的注意力权重序列的单调性的单调对齐损失函数和用于表征语音合成模型的语音输出序列和语音标签之间的差异的预设损失函数，最后基于损失函数和训练数据集对语音合成模型进行训练，直至损失函数的值满足预设条件时，得到训练好的语音合成模型。本实施例为注意力对齐设定单调对齐损失函数，确保注意力权重序列的单调性，有助于实现模型快速收敛，同时能够提高模型训练准确性，避免语音合成结果不精准造成字词的复读或漏读的问题，提升合成语言自然度和鲁棒性。

上述训练完成语音合成模型后，参照图7，本发明实施例还提供一种语音合成方法，包括：

步骤S710：获取待合成文本序列；

步骤S720：将待合成文本序列输入至语音合成模型进行语音合成处理，得到语音输出序列。

在一实施例中，语音合成模型利用如上述任一项所述的模型训练方法训练得到。

在一应用场景中，该方法应用在终端上的阅读听书软件中，预先训练好的语音合成模型内置在该听书软件中。假设当前处于无网或弱网环境下，用户希望使用阅读听书功能，此时阅读听书的显示界面上显示不同的阅读内容。此时，用户可根据自身需求选择阅读内容，阅读听书软件将阅读内容作为待合成文本序列输入到语音合成模型中，语音合成模型经过一系列的编解码将阅读内容转化为合成内容输出，用户即可听到对应的阅读内容。本实施例的语音合成模型中通过单调对齐损失函数，确保注意力权重序列的单调性，提高语音合成模型合成结果的准确性，避免字词的复读或漏读的问题，提升合成语言自然度和鲁棒性，提升了用户的使用体验。

本发明实施例还提供一种模型训练装置，用于训练语音合成模型，所述语音合成模型包括编码单元、注意力单元和解码单元，可以实现上述模型训练方法，参照图8，该装置包括：

训练数据获取模块810，用于获取训练数据集，训练数据集包括文本序列样本以及文本序列样本的语音标签；

编码模块820，用于通过编码单元对文本序列样本进行特征提取，得到隐特征向量；

注意力模块830，用于通过注意力单元对隐特征向量进行注意力选取，得到注意力权重序列；

解码模块840，用于通过解码单元对隐特征向量和注意力权重序列进行解码处理，得到语音输出向量；

训练模块850，用于通过预设损失函数对语音输出向量和语音标签进行训练，对语音合成模型的模型参数进行调整，并基于单调对齐损失函数对注意力权重序列进行单调性训练，直至损失函数的值收敛，得到训练好的语音合成模型。

本实施例的语音合成模型训练装置的具体实施方式与上述模型训练方法的具体实施方式基本一致，在此不再赘述。

本发明实施例还提供一种语音合成装置，参照图9，该装置包括：

获取模块910，用于获取待合成文本序列；

合成模块920，用于将待合成文本序列输入至语音合成模型进行语音合成处理，得到语音输出序列，语音合成模型利用如上述模型训练方法训练得到。

本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的语音合成方法和模型训练方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图10，图10示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1001，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；

存储器1002，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器1002可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行本发明实施例的语音合成方法和模型训练方法；

输入/输出接口1003，用于实现信息输入及输出；

通信接口1004，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线1005，在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息；

其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述语音合成方法和模型训练方法。

本发明实施例提出的模型训练方法和装置、语音合成方法、设备和存储介质，通过获取训练数据集，然后确定用于训练语音合成模型的损失函数，构建的损失函数包括用于表征语音合成模型生成的注意力权重序列的单调性的单调对齐损失函数和用于表征语音合成模型的语音输出序列和语音标签之间的差异的预设损失函数，最后基于损失函数和训练数据集对语音合成模型进行训练，直至损失函数的值满足预设条件时，得到训练好的语音合成模型。为注意力对齐设定单调对齐损失函数，确保注意力权重序列的单调性，有助于实现模型快速收敛，同时能够提高模型训练准确性，避免语音合成结果不精准造成字词的复读或漏读的问题，提升合成语言自然度和鲁棒性。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-10中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本发明实施例的优选实施例，并非因此局限本发明实施例的权利范围。本领域技术人员不脱离本发明实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本发明实施例的权利范围之内。