CN117727288A

CN117727288A - 一种语音合成方法、装置、设备及存储介质

Info

Publication number: CN117727288A
Application number: CN202410173559.8A
Authority: CN
Inventors: 廖少毅; 王匡兰; 董伟
Original assignee: Yidong Huanqiu Shenzhen Digital Technology Co ltd
Current assignee: Yidong Huanqiu Shenzhen Digital Technology Co ltd
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-03-19
Anticipated expiration: 2044-02-07
Also published as: CN117727288B

Abstract

本申请实施例公开了一种语音合成方法、装置、设备及存储介质，该方法包括：获取文本信息，以及说话人嵌入信息和语言嵌入信息，说话人嵌入信息用于指示基于说话人的语音特征将文本信息进行语音合成，语言嵌入信息指示对文本信息进行语音合成的语言类型；对说话人嵌入信息进行特征提取，得到说话人的语音特征；对文本信息进行编码，得到文本信息的离散编码向量；在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量；基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据。采用本申请实施例，能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

Description

一种语音合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

语音合成是人机语音交互中极为关键的技术之一，语音合成的主要目标在于生成具有高清晰度与高自然度的连续语音。随着全球化程度的不断加深，人们会越来越频繁地使用母语以外的语言来准确地表达某一信息，语音合成可以很好地实现这类合成需求，即复制或模仿特定个体的语音和发音方式。

传统的语音合成方案可基于Tacotron 2声学模型，根据输入的文本序列生成一系列log-mel spectrogram frames（基于对数梅尔频谱的帧）。它通过添加说话人嵌入信息和语言嵌入信息，经过对抗训练后的说话者分类器，以及变分自编码器(VariationalAutoEncoder，VAE)风格的残差编码器来增强基本的Tacotron 2声学模型。但传统的语音合成方案较为机械化，无法贴近说话人的语音和发音方式。

发明内容

本申请实施例所要解决的技术问题在于，提供一种语音合成方法、装置、设备及存储介质，能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

第一方面，本申请实施例提供了一种语音合成方法，包括：

获取文本信息，以及说话人嵌入信息和语言嵌入信息；其中，所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成，所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型；

对所述说话人嵌入信息进行特征提取，得到所述说话人的语音特征；

对所述文本信息进行编码，得到所述文本信息的离散编码向量；

在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配，且与所述离散编码向量的距离最近的嵌入向量；

基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据；其中，所述音频数据的语音特征与所述说话人的语音特征匹配，且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

在一种可选的实施方式中，所述文本信息的离散编码向量是调用离散化特征学习模型得到的，所述离散化特征学习模型的训练方式包括：

获取第一训练数据，所述第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据，所述多个第一训练音频数据包括至少两个语言类型的第一训练音频数据；

调用初始离散化特征学习模型对各个第一训练音频数据进行编码，得到所述各个第一训练音频数据的离散编码向量；

在嵌入空间中查找与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量；

基于所述训练说话人嵌入信息对与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量进行解码，得到所述各个第一训练音频数据对应的重构音频数据；

按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型。

在一种可选的实施方式中，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：

基于所述各个第一训练音频数据，与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量，以及所述训练说话人嵌入信息，调整所述初始离散化特征学习模型的负对然似数，得到所述离散化特征学习模型。

基于所述各个第一训练音频数据的离散编码向量，以及与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量，对所述嵌入空间进行优化，得到所述优化后的嵌入空间。

基于所述各个第一训练音频数据的离散编码向量，以及与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型。

在一种可选的实施方式中，所述方法还包括：

对所述嵌入向量进行掩码处理，得到所述嵌入向量的掩码标记序列；

调用掩码语言模型对所述嵌入向量的掩码标记序列，以及所述语言嵌入信息进行处理，得到所述文本信息的语言表征；

所述基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据，包括：

基于所述说话人的语音特征对所述语言表征进行解码，得到所述文本信息的音频数据。

在一种可选的实施方式中，所述方法还包括：

对各个第一训练音频数据进行编码，得到所述各个第一训练音频数据的离散编码向量；

获取所述各个第一训练音频数据的码书字典嵌入数据集，所述码书字典嵌入数据集包括与相应第一训练音频数据的离散编码向量的距离最近的嵌入向量；

对所述各个第一训练音频数据的码书字典嵌入数据集进行掩码处理，得到所述各个第一训练音频数据的掩码标记序列；

调用初始掩码语言模型对所述各个第一训练音频数据的掩码标记序列，以及所述各个第一训练音频数据的语音类型标识进行处理，得到所述各个第一训练音频数据的预测音频数据；

按照减小所述各个第一训练音频数据的预测音频数据和相应第一训练音频数据的差异的方向，对所述初始掩码语言模型进行训练，得到所述掩码语言模型。

在一种可选的实施方式中，所述文本信息的离散编码向量是调用编码器得到的，所述文本信息的音频数据是调用解码器得到的，所述编码器和所述解码器的训练方式包括：

获取第二训练数据，所述第二训练数据包括训练文本信息以及所述训练文本信息对应的第二训练音频数据；

对所述第二训练音频数据进行特征提取，得到所述第二训练音频数据的语音特征；

调用初始编码器对所述训练文本信息进行编码，得到所述训练文本信息的离散编码向量；

在所述优化后的嵌入空间中查找与所述训练文本信息的离散编码向量的距离最近的嵌入向量；

调用初始解码器通过教师强制算法对所述与所述训练文本信息的离散编码向量的距离最近的嵌入向量进行预测处理，得到所述训练文本信息的语音特征；

按照减小所述训练文本信息的语音特征和所述第二训练音频数据的语音特征的差异的方向对所述初始编码器和所述初始解码器进行训练，得到所述编码器和所述解码器。

在一种可选的实施方式中，所述获取说话人嵌入信息，包括：

调用语音识别模型采集说话人提交的语音数据，得到所述说话人嵌入信息。

第二方面，本申请实施例提供了一种语音合成装置，该装置包括：

输入单元，用于获取文本信息，以及说话人嵌入信息和语言嵌入信息；其中，所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成，所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型；

处理单元，用于对所述说话人嵌入信息进行特征提取，得到所述说话人的语音特征；

所述处理单元，还用于对所述文本信息进行编码，得到所述文本信息的离散编码向量；

所述处理单元，还用于在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配，且与所述离散编码向量的距离最近的嵌入向量；

所述处理单元，还用于基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据；其中，所述音频数据的语音特征与所述说话人的语音特征匹配，且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括存储器、通信接口以及处理器，其中，存储器、通信接口和处理器相互连接；存储器存储有计算机程序，处理器调用所述存储器中存储的计算机程序，用于实现上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面的方法。

第五方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第六方面，本申请实施例提供了一种计算机程序，该计算机程序包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的方法。

在本申请实施例中，通过对文本信息进行编码，得到文本信息的离散编码向量，在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量，基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据，即本申请实施例将传统的VAE风格的残差编码器修改为矢量量化自编码器（VectorQuantised Variational AutoEncoder，VQ-VAE）。相比于VAE，VQ-VAE能利用codebook（码书）机制把文本信息编码成离散向量，VQ-VAE当用于语音合成时，在通过VQ-VAE编码后所提取出的瓶颈可以等效为音素，即可以使用VQ-VAE作为离散语言单元的特征提取器，这与直接使用VAE作为特征提取器不同，使用VQ-VAE把文本信息编码成离散向量会更加自然，也就是说，本申请实施例能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种语音合成系统的架构示意图；

图2是本申请实施例提供的一种基于掩码语言模型的离散化特征学习模型的结构示意图；

图3是本申请实施例提供的一种离散化特征学习模型的结构示意图；

图4是本申请实施例提供的一种用于学习从语言特征到语音特征的映射关系的网络的结构示意图；

图5是本申请实施例提供的一种语音合成方法的流程示意图；

图6是本申请实施例提供的一种语音合成装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的，或意味着任一个或任何组合。例如，“包括以下至少一个：A、B、C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”，再如，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要说明的是，在本申请中，采用了诸如S201、S202等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S202后执行S201等，但这些均应在本申请的保护范围之内。

本申请实施例提供一种语音合成方法，可以复制或模仿指定说话人的语音和发音方式，例如某个说话人的母语是中文，该说话人需要使用法语与某个对话者进行交流，但是该说话人不会法语，因此可以通过本申请实施例提供的语音合成方法，通过输入文本信息，就可以模仿该说话人的语音和发音方式，使用法语与该对话者进行交流，以准确表达该文本信息描述的内容。

本申请实施例提供的语音合成方法的执行主体可以为计算机设备，计算机设备包括但不限于服务端、终端（例如聊天机器人）等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述语音合成方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台或者通讯平台等。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供的语音合成方案可以广泛应用在智能客服、智慧医疗、金融分析、员工培训、学校教育等领域。

在本申请的具体实施方式中，涉及到用户相关的数据，例如文本信息等，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守当地法律法规和标准。

请参见图1，图1是本申请实施例提供的一种语音合成系统的架构示意图。如图1所示，该语音合成系统可以包括推理网络、对抗损失网络以及合成器。

推理网络用于学习音频的隐含变量，比如韵律，噪声，情感等等。

可选的，推理网络可以包括VQ-VAE、瓶颈层、语言感知嵌入层以及编码器等。VQ-VAE用于对文本信息进行编码，得到文本信息的离散编码向量。瓶颈层用于在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量。语言感知嵌入层用于理解文本的上下文和语法结构。

对抗损失网络（主要在模型训练时候使用)，用于把训练数据中的音频数据和发出该音频数据的说话人进行解耦。

可选的，对抗损失网络可以包括梯度反转层和说话人分类器。为了鼓励模型学习文本和说话人身份的解耦表示，一般会防止文本编码同时捕获说话人信息。可以采用域对抗训练（domain adversarial training），通过引入基于文本编码的说话人分类器和梯度反转层，鼓励以说话人无关的方式对文本进行编码。

合成器用于把语言特征转成声学特征。除此之外，额外添加语言嵌入和说话人嵌入的控制变量，以达到多语言、多说话人的目标。语言嵌入是一种将语言信息编码为向量或特征的方法，如One-Hot编码等，以便文本转语音（Text-to-Speech，TTS）模型可以理解并产生适合目标语言的语音输出。说话人嵌入是一种将说话人信息如声纹、说话人 ID等编码为向量或特征的方法，以便TTS模型可以根据需要生成不同说话人的语音。其中，TTS是一种将书面文本自动转换成自然语音音频的技术。这个技术的目标是使计算机能够像人类一样发出可理解的语音，从而实现人与计算机之间更自然的交流和互动。说话人嵌入（SpeakerEmbedding），是一种将说话人的声音特征映射到向量空间的技术，旨在捕捉每个说话人的独特声音特征，这些向量通常是高维度的数值表示。

可选的，合成器可以包括文字编码器和解码器，文字编码器把语言特征转成声学特征，额外添加语言嵌入和说话人嵌入的控制变量以达到多语言、多说话人的目标。

下面对用于实现本申请实施例提供的语音合成方法的神经网络模型的训练过程进行具体描述。

本申请实施例可以采用TTS模型架构，在基础的模型架构之上，将原本使用VAE的推理网络修改为基于掩码语言模型（Masked Language Model，MLM）的VQ-VAE。

一方面，如图2所示的基于掩码语言模型的离散化特征学习模型的结构示意图为例，可以基于无监督的多语言音频预训练得到。该无监督的预训练部分使用VQ-VAE来提取无监督的、类似于音素的语言单元，输入的音频指的是未包含在成对数据中的多语言语音数据。

VQ-VAE一般是使用在图像生成任务中，相比于普通的VAE，VQ-VAE能利用codebook机制把输入编码成离散向量。发明人经研究发现，VQ-VAE当用于语音克隆时，在通过VQ-VAE编码后所提取出的瓶颈可以等效为音素，音素（Phoneme）是一种基本的语音单位，它是语音信号中最小的可区分语音音段。音素是语音中的音位，它是构成单词和语言的声音元素，可以看作是语音中的音频构建块。如：/p/、/b/、/k/、/t/、/d/、/m/、/n/等。即可以使用VQ-VAE作为离散语言单元的特征提取器。这与直接使用VAE而作为特征提取器不同，把语音编码成离散向量会更加自然。

VQ-VAE借鉴了自然语言处理( Natural Language Processing，NLP)中对于离散单词的处理方法。具体的，为了处理离散的输入单词，NLP模型的第一层一般都是词嵌入层，它可以把每个输入单词都映射到一个独一无二的连续向量上。这样，每个离散单词都变成了一个特别的连续向量了。同样，在本申请实施例提出的方法中，第一层同样是音素嵌入层，将每一个发音都映射到一个独一无二的连续向量上。然后，把类似的嵌入层加到VQ-VAE的解码器前，如图3所示。这个嵌入层在VQ-VAE里叫做“bedding space（嵌入空间）”，即为“codebook”。codebook是与相应索引关联的向量列表。它用于量化自编码器的瓶颈；将编码器网络的输出的codebook的所有向量进行比较，并将欧氏距离最接近的codebook向量喂给解码器。VQ-VAE通过向网络添加离散的 codebook组件来扩展标准自编码器，示例性的，可以使用指数移动平均来更新码本。

VQ-VAE具有编码器-解码器架构和码书字典（codebook dictionary），其中/>是码书字典，/>是码书字典中的潜在嵌入（latent embeddings）数目，/>是每一个嵌入的维度。编码器使用原始波形/>作为输入，编码后的原始波形为/>，其中/>取决于长度/>和编码器中的下采样层(down-sampling)数。然后，连续的潜在表示/>可以通过在码书字典中找到最近的、预定义的离散化嵌入来映射为/>，其中/>，其中，而/>是码书字典中第/>个嵌入，/>。最后，潜在嵌入和说话人嵌入/>一起传递到解码器/>，以重构原始波形/>。

然而，无法从操作中获取梯度，因此VQ-VAE使用直通梯度估计（raight-through gradient estimation）来近似这些梯度。然后，整个模型的最终损失可以通过公式/>计算得到。

其中，L表示基于掩码语言模型的离散化特征学习模型的损失总和，即上述整个模型的最终损失。可以表示为原始波形，即第一训练数据中的第一训练音频数据。/>可以表示为在字典中找到的最近的、预定义的离散化嵌入，即在嵌入空间中查找到的与各个第一训练音频数据的离散编码向量的距离最近的嵌入向量。/>可以表示为说话人嵌入，即第一训练数据中的训练说话人嵌入信息。/>可以为编码后的原始波形，即各个第一训练音频数据的离散编码向量。/>可以为码书字典中第/>个嵌入，/>，其中/>是字典中的潜在嵌入数目。

其中，是更新整个模型的负对数似然（negative log-likelihood）用于重构语音特征。/>用于更新码书字典，其中/>表示停止梯度操作，通过比较编码器输出/>和码书字典中的嵌入/>，可以更新码书字典。/>是指承诺损失（commitment loss），鼓励编码器输出/>接近码书字典的嵌入，其中有一个超参数来加权这一项，用于平衡各个损失项的权重。这个损失函数的目标是最小化，通过优化模型参数，使得重构的语音特征接近真实语音特征。

可选的，在训练完VQ-VAE之后，提取每个话语的无监督语言单元。然后，将这些无监督的语言单元即码书字典嵌入，使用MLM预训练，以学习跨语言的表示。MLM是一种NLP模型，用于预训练大规模文本数据，以捕获语言的上下文和语法信息。MLM的目标是预测文本中的某些词语，通常是一些被特定的掩码符号（通常是[MASK]）替代的词语。通过预测这些掩码位置上的词语，模型需要理解文本的上下文和语法结构。因为经过VQ-VAE的语音输入，可以形成类似于音素的离散形式，相当于文本，所以可将MLM的思想迁移到码书字典嵌入中来。

具体的，可以将定义为码书字典嵌入数据集，让/>表示包含在中的语言ID集合。首先，将掩码标记序列（Masked token sequence）/>和一个语言ID/>∈/>提供给模型。令标记嵌入序列（token embedding sequence）为、语言嵌入(language embedding)为/>。嵌入层输出/>如公式/>所示，嵌入层输出/>如公式/>所示。

其中，表示标记嵌入层的输出，/>表示掩码标记序列，/>表示标记嵌入层的模型参数。/>表示语言嵌入层的输出，/>表示语言ID，/>表示语言嵌入层的模型参数。/>取决于长度/>和编码器中的下采样层数。

标记嵌入序列通常涉及NLP中的文本处理任务。在这个上下文中，“标记”通常指的是文本中的单词、子词或字符，而“嵌入”则表示将这些标记映射到一个连续向量空间中的过程。标记嵌入序列就是将文本中的标记逐个转换为对应的嵌入向量，并形成一个嵌入序列。这个序列可以是一段文本中的所有标记，也可以是一个句子或文档中的部分标记。

然后，将和/>相加，并输入到一个瓶颈层，将它们投影到一个隐藏输入向量（hidden input vector）中。其中，隐藏向量的输入是/>，输出是：。/>可以通过公式/>计算得到，可以通过公式/>计算得到，条件概率/>可以通过公式计算得到。该条件概率表示学习给定某些上下文条件下生成正确标记序列的概率分布。

其中，、/>、/>分别表示为瓶颈层、编码器和预测网络的模型参数。/>代表softmax函数。将具有模型参数/>、/>、/>的网络定义为语言感知嵌入层(language-aware embedding layer)，它同时嵌入了标记序列/>和语言ID/>。/>表示长度为/>的掩码标记的索引。根据/>中计算得到的概率，可以通过公式/>以及/>定义训练目标。

该训练目标可以理解为，通过最小化模型在 MLM 任务中对掩码标记的预测误差，使得模型能够更好地学习输入序列的语言表示。

在上述实施例中，可以使得提取语音特征中，不用依赖标注好的数据，利用无监督语音预训练的多语言TTS框架，可以实现对多语言的、高度可理解的TTS。并且可以使得参数在多种语言内共享，使得模型更加高效。除此之外，因为使用无监督学习，数据收集工作会更加容易，对模型而言，会更加稳健，可以增加语音克隆的鲁棒性。

另一方面，如图4所示的用于学习从语言特征到语音特征的映射关系的网络的结构示意图为例，可以使用成对数据<文本，语音>进行监督学习，以学习从语言特征到语音特征的映射关系。该模型即使对于在成对数据中不存在的语言也可以执行推理。

具体的，可以将成对数据和各种语言IDs的集合分别定义为和/>。定义表示具有长度/>的语音特征序列。首先，使用上述实施例提及的来初始化模型。/>表示解码器的模型参数。使用教师强制（teaching forcing）来预测语音特征，如公式/>以及/>所示。

其中，是未掩码的标记嵌入序列。/>表示预测的语音特征。/>表示编码器的输出。

可以定义训练目标为。然后，冻结瓶颈层和标记嵌入层、语言嵌入层，同时更新编码器和解码器。训练过程可以通过公式/>所示。

这样可以保留语言感知嵌入层的参数，以促进跨语言迁移。

可选的，上述两个方面是对传统语音合成系统的优化，在本申请实施例所描述的语音合成方案中，可以使用x-vector作为说话者嵌入，并通过一个投影层将其添加到编码器输出中。x-vector提取器作为音色保持模块，使得说话人可以在不同语言转换其发音，并保留自身的音色特点。在监督学习的过程中，可以使用从训练数据计算得到的平均x-vectors。

对于瓶颈层，使用一个残差网络构成，此网络由归一化层（LayerNormalization）、下投影（down projection）、ReLU和带有残差连接的上投影（upprojection with the residual connection）组成。

基于上述描述，请参见图5，图5是本申请实施例提供的一种语音合成方法的流程示意图，该语音合成方法可以由服务端或者终端等计算机设备执行；如图5所示的语音合成方法包括但不限于步骤S501~步骤S505，其中：

S501、获取文本信息，以及说话人嵌入信息和语言嵌入信息，说话人嵌入信息用于指示基于说话人的语音特征将文本信息进行语音合成，语言嵌入信息指示对文本信息进行语音合成的语言类型。

具体的，可以通过TTS模型将该文本信息转换成语音，另外，通过额外添加语言嵌入信息和说话人嵌入信息的控制变量，确保转换得到的音频数据的语言类型与语言嵌入信息指示的语言类型一致，且音频数据的语音和发音方式与说话人嵌入信息的语音和发音方式一致。

在一种可选的实施方式中，获取说话人嵌入信息的方式可以包括：调用语音识别模型采集说话人提交的语音数据，得到所述说话人嵌入信息。具体的，可以使用x-vector作为说话者嵌入，并通过一个投影层将其添加到编码器输出中。x-vector提取器作为音色保持模块，使得说话人可以在不同语言转换其发音，并保留自身的音色特点。

S502、对说话人嵌入信息进行特征提取，得到说话人的语音特征。

S503、对文本信息进行编码，得到文本信息的离散编码向量。

在一种可选的实施方式中，文本信息的离散编码向量是调用离散化特征学习模型得到的。其中，离散化特征学习模型的训练方式可以包括：获取第一训练数据，第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据，多个第一训练音频数据包括至少两个语言类型的第一训练音频数据。然后可以调用初始离散化特征学习模型对各个第一训练音频数据进行编码，得到各个第一训练音频数据的离散编码向量，进而在嵌入空间中查找与各个第一训练音频数据的离散编码向量的距离最近的嵌入向量。进一步的，可以基于训练说话人嵌入信息对与各个第一训练音频数据的离散编码向量的距离最近的嵌入向量进行解码，得到各个第一训练音频数据对应的重构音频数据，并按照减小重构音频数据与对应的第一训练音频数据的差异的方向，对初始离散化特征学习模型进行训练，得到离散化特征学习模型。

在该实施例中可以基于无监督的多语言音频预训练得到离散化特征学习模型，例如VQ-VAE，具体参见上述实施例中图2的相关描述。

在一种可选的实施方式中，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：基于所述各个第一训练音频数据，与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量，以及所述训练说话人嵌入信息，调整所述初始离散化特征学习模型的负对然似数，得到所述离散化特征学习模型。

该实施例具体可以参见上述实施例中的相关描述。

在一种可选的实施方式中，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：基于所述各个第一训练音频数据的离散编码向量，以及与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量，对所述嵌入空间进行优化，得到所述优化后的嵌入空间。

该实施例具体可以参见上述实施例中的相关描述。

在一种可选的实施方式中，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：基于所述各个第一训练音频数据的离散编码向量，以及与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型。

该实施例具体可以参见上述实施例中的相关描述。

在一种可选的实施方式中，文本信息的离散编码向量是调用编码器得到的，所述文本信息的音频数据是调用解码器得到的，所述编码器和所述解码器的训练方式可以包括：获取第二训练数据，所述第二训练数据包括训练文本信息以及所述训练文本信息对应的第二训练音频数据；对所述第二训练音频数据进行特征提取，得到所述第二训练音频数据的语音特征；调用初始编码器对所述训练文本信息进行编码，得到所述训练文本信息的离散编码向量；在所述优化后的嵌入空间中查找与所述训练文本信息的离散编码向量的距离最近的嵌入向量；调用初始解码器通过教师强制算法对所述与所述训练文本信息的离散编码向量的距离最近的嵌入向量进行预测处理，得到所述训练文本信息的语音特征；按照减小所述训练文本信息的语音特征和所述第二训练音频数据的语音特征的差异的方向对所述初始编码器和所述初始解码器进行训练，得到所述编码器和所述解码器。

该实施例可以使用成对数据<文本，语音>进行监督学习，以学习从语言特征到语音特征的映射关系，具体参见上述实施例中图4的相关描述。

S504、在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量。

S505、基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据，音频数据的语音特征与说话人的语音特征匹配，且音频数据的语言类型与语言嵌入信息指示的语言类型一致。

在一种可选的实施方式中，还可以对所述嵌入向量进行掩码处理，得到所述嵌入向量的掩码标记序列，调用掩码语言模型对所述嵌入向量的掩码标记序列，以及所述语言嵌入信息进行处理，得到所述文本信息的语言表征。然后，基于所述说话人的语音特征对所述语言表征进行解码，得到所述文本信息的音频数据。

在一种可选的实施方式中，可以获取第一训练数据，所述第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据，所述多个第一训练音频数据包括至少两个语言类型的第一训练音频数据；对各个第一训练音频数据进行编码，得到所述各个第一训练音频数据的离散编码向量；在嵌入空间中查找与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量；获取所述各个第一训练音频数据的码书字典嵌入数据集，所述码书字典嵌入数据集包括与相应第一训练音频数据的离散编码向量的距离最近的嵌入向量；对所述各个第一训练音频数据的码书字典嵌入数据集进行掩码处理，得到所述各个第一训练音频数据的掩码标记序列；调用初始掩码语言模型对所述各个第一训练音频数据的掩码标记序列，以及所述各个第一训练音频数据的语音类型标识进行处理，得到所述各个第一训练音频数据的预测音频数据；按照减小所述各个第一训练音频数据的预测音频数据和相应第一训练音频数据的差异的方向，对所述初始掩码语言模型进行训练，得到所述掩码语言模型。

该实施例关于掩码语言模型的训练方式具体可以参见上述实施例中图2的相关描述。

在该申请实施例中，通过对文本信息进行编码，得到文本信息的离散编码向量，在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量，基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据，能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

基于相关实施例的描述，本申请实施例还提供了一种语音合成装置，该语音合成装置可以执行图5所示的计算机设备执行的操作。请参见图6，图6是本申请实施例提供的一种语音合成装置的结构示意图。如图6所示，该语音合成装置可包括但不限于输入单元601以及处理单元602。

输入单元601，用于获取文本信息，以及说话人嵌入信息和语言嵌入信息；其中，所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成，所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型；

处理单元602，用于对所述说话人嵌入信息进行特征提取，得到所述说话人的语音特征；

所述处理单元602，还用于对所述文本信息进行编码，得到所述文本信息的离散编码向量；

所述处理单元602，还用于在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配，且与所述离散编码向量的距离最近的嵌入向量；

所述处理单元602，还用于基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据；其中，所述音频数据的语音特征与所述说话人的语音特征匹配，且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

在一种可选的实施方式中，所述处理单元602按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：

其中，负对然似数是统计学中的一种重要的概念，它是以概率模型为基础，用来衡量数据观测值和模型参数值之间的似然程度，它是用来衡量模型与数据的拟合度，被广泛应用于机器学习中。通常来说，当模型参数不断迭代更新时，负对然似数也会不断减小。模型参数的估计值越准确，负对然似数就越小，模型与数据的拟合度就越高，这也意味着负对然似数可以作为评价模型的一个指标，以确定模型的准确度和可靠性。

在一种可选的实施方式中，所述处理单元602，还用于对所述嵌入向量进行掩码处理，得到所述嵌入向量的掩码标记序列；调用掩码语言模型对所述嵌入向量的掩码标记序列，以及所述语言嵌入信息进行处理，得到所述文本信息的语言表征；

所述处理单元602基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据，包括：

在一种可选的实施方式中，输入单元601，还用于获取第一训练数据，所述第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据，所述多个第一训练音频数据包括至少两个语言类型的第一训练音频数据；

处理单元602，还用于对各个第一训练音频数据进行编码，得到所述各个第一训练音频数据的离散编码向量；在嵌入空间中查找与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量；获取所述各个第一训练音频数据的码书字典嵌入数据集，所述码书字典嵌入数据集包括与相应第一训练音频数据的离散编码向量的距离最近的嵌入向量；对所述各个第一训练音频数据的码书字典嵌入数据集进行掩码处理，得到所述各个第一训练音频数据的掩码标记序列；调用初始掩码语言模型对所述各个第一训练音频数据的掩码标记序列，以及所述各个第一训练音频数据的语音类型标识进行处理，得到所述各个第一训练音频数据的预测音频数据；按照减小所述各个第一训练音频数据的预测音频数据和相应第一训练音频数据的差异的方向，对所述初始掩码语言模型进行训练，得到所述掩码语言模型。

在一种可选的实施方式中，所述输入单元601获取说话人嵌入信息，包括：

本申请实施例中，处理单元602通过对文本信息进行编码，得到文本信息的离散编码向量，在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量，基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据，能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

本申请实施例还提供一种计算机设备，请参见图7，图7是本申请实施例提供的一种计算机设备的结构示意图。如图7所示，该计算机设备至少包括处理器701、存储器702和通信接口703可通过总线704或其他方式连接，本申请实施例以通过总线704连接为例。本申请实施例的处理器701可通过运行存储器702中存储的计算机程序，执行前述语音合成方法的操作，例如：

在通过通信接口703获取文本信息，以及说话人嵌入信息和语言嵌入信息之后，对所述说话人嵌入信息进行特征提取，得到所述说话人的语音特征；对所述文本信息进行编码，得到所述文本信息的离散编码向量；在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配，且与所述离散编码向量的距离最近的嵌入向量；基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据；其中，所述音频数据的语音特征与所述说话人的语音特征匹配，且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

在一种可选的实施方式中，所述处理器701在按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型时，用于执行如下操作：

在一种可选的实施方式中，所述处理器701，还用于执行如下操作：对所述嵌入向量进行掩码处理，得到所述嵌入向量的掩码标记序列；调用掩码语言模型对所述嵌入向量的掩码标记序列，以及所述语言嵌入信息进行处理，得到所述文本信息的语言表征；

所述处理器701在基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据时，用于执行如下操作：

在一种可选的实施方式中，通信接口703，还用于获取第一训练数据，所述第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据，所述多个第一训练音频数据包括至少两个语言类型的第一训练音频数据；

处理器701，还用于对各个第一训练音频数据进行编码，得到所述各个第一训练音频数据的离散编码向量；在嵌入空间中查找与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量；获取所述各个第一训练音频数据的码书字典嵌入数据集，所述码书字典嵌入数据集包括与相应第一训练音频数据的离散编码向量的距离最近的嵌入向量；对所述各个第一训练音频数据的码书字典嵌入数据集进行掩码处理，得到所述各个第一训练音频数据的掩码标记序列；调用初始掩码语言模型对所述各个第一训练音频数据的掩码标记序列，以及所述各个第一训练音频数据的语音类型标识进行处理，得到所述各个第一训练音频数据的预测音频数据；按照减小所述各个第一训练音频数据的预测音频数据和相应第一训练音频数据的差异的方向，对所述初始掩码语言模型进行训练，得到所述掩码语言模型。

在一种可选的实施方式中，所述通信接口703获取说话人嵌入信息，包括：

本申请实施例中，处理器701通过对文本信息进行编码，得到文本信息的离散编码向量，在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量，基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据，能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述任一方法实施例中的步骤。

本申请实施例还提供一种芯片，包括存储器和处理器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行上述任一方法实施例中的步骤。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。

Claims

1.一种语音合成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述文本信息的离散编码向量是调用离散化特征学习模型得到的，所述离散化特征学习模型的训练方式包括：

3.如权利要求2所述的方法，其特征在于，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：

4.如权利要求2所述的方法，其特征在于，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：

5.如权利要求2所述的方法，其特征在于，所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向，对所述初始离散化特征学习模型进行训练，得到所述离散化特征学习模型，包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

8.如权利要求1所述的方法，其特征在于，所述文本信息的离散编码向量是调用编码器得到的，所述文本信息的音频数据是调用解码器得到的，所述编码器和所述解码器的训练方式包括：

9.如权利要求1所述的方法，其特征在于，所述获取说话人嵌入信息，包括：

10.一种语音合成装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括存储器、通信接口以及处理器，其中，所述存储器、所述通信接口和所述处理器相互连接；所述存储器存储有计算机程序，所述处理器调用所述存储器中存储的计算机程序，用于实现权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。