CN114360491A

CN114360491A - 语音合成方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114360491A
Application number: CN202111642741.6A
Authority: CN
Inventors: 王迪松; 阳珊; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15
Anticipated expiration: 2041-12-29
Also published as: CN114360491B

Abstract

本申请实施例提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，涉及人工智能、多媒体、语音合成及云技术领域。该方法包括：对待处理视频中各目标对象对应的唇部图像序列分别进行特征提取，得到个目标对象的唇语特征；对于每个目标对象，基于该目标对象的唇语特征，通过第一语音内容预测网络预测该目标对象的语音内容特征；提取每个目标对象的参考语音数据的音色特征；对于每个目标对象，根据该目标对象的语音内容特征和音色特征，通过音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于待处理视频的目标语音数据。基于本申请实施例提供的该方法，能够基于视频生成高质量的语音数据。

Description

语音合成方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能、多媒体技术、语音合成以及云技术领域，具体而言，本申请涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

背景技术

随着语音技术研究的突破和快速发展，其对计算机发展和社会生活的重要性日益凸现出来，语音技术由于其简单、便捷的实现方式，已经出现在人们日程生活中的很多场景中。

语音合成技术是语音技术中十分实用的一项重要技术，如何生成高质量的合成语音一直是技术人员研究的重要课题之一。目前，现有技术中虽然也有一些技术能够实现说话人语音数据的合成，但是所合成的语音数据的自然性和可读性表现较差，如何提升合成的说话人语音的质量仍是急需改进的问题。

发明内容

本申请的目的旨在提供一种语音合成方法、装置、电子设备及计算机可读存储介质，以有效提高语音合成数据的质量。为了实现该目的，本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种语音合成方法，该方法包括：

获取待处理视频，所述待处理视频中包含至少一个目标对象；

对所述待处理视频中每个所述目标对象对应的唇部图像序列分别进行特征提取，得到每个所述目标对象的唇语特征；

对于每个所述目标对象，基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征；其中，所述第一语音内容预测网络是基于第一训练数据集训练得到的，所述第一训练数据集中包括多个样本视频以及每个样本视频对应的第一样本语音数据；

获取每个所述目标对象的参考语音数据，并提取每个所述目标对象的参考语音数据的音色特征；

对于每个所述目标对象，根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于所述待处理视频的目标语音数据。

另一方面，本申请实施例提供了一种语音处理装置，该装置包括：

视频获取模块，用于获取待处理视频，待处理视频中包含至少一个目标对象；

唇语特征提取模块，用于对待处理视频中每个目标对象对应的唇部图像序列分别进行特征提取，得到每个目标对象的唇语特征；

内容特征获取模块，用于对于每个目标对象，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征；其中，第一语音内容预测网络是基于第一训练数据集训练得到的，第一训练数据集中包括多个样本视频以及每个样本视频对应的第一样本语音数据；

音色特征获取模块，用于获取每个目标对象的参考语音数据，并提取每个目标对象的参考语音数据的音色特征；

语音合成模块，用于对于每个目标对象，根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于待处理视频的目标语音数据。

可选的，对于每个目标对象，语音合成模块在根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征时，用于：

根据该目标对象的语音内容特征和音色特征，通过调用基频预测模型预测得到该目标对象的基频特征；

根据该目标对象的语音内容特征、音色特征和基频特征，通过调用音频特征预测模型预测得到该目标对象的音频特征，其中，音频特征预测网络包括基频预测模型和音频特征预测模型。

可选的，对于每个目标对象，内容特征获取模块在基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征时，用于：

基于该目标对象的唇语特征，通过第一语音内容预测网络预测得到该目标对象对应的目标索引序列，其中，目标索引序列中的各目标索引值是说话人向量量化VQ码本中语音单元内容特征的索引，其中，说话人VQ码本是基于第二训练数据集训练得到的，其中，第二训练数据集中包括多个第二样本语音数据；第一语音内容预测网络是基于第一训练数据集和说话人VQ码本训练得到的；

根据目标索引序列和说话人VQ码本，得到各目标索引值对应的语音单元内容特征；

基于各目标索引值对应的语音单元内容特征，得到该目标对象的语音内容特征。

可选的，第一语音内容预测网络是由第一训练模块通过以下方式对第一神经网络模型进行训练得到的：

对于每个样本视频，对该样本视频中样本对象对应的唇部图像序列进行特征提取，得到该样本视频对应的唇语特征；

对于每个第一样本语音数据，基于该第一样本语音数据和说话人VQ码本，获取该第一样本语音数据对应的样本索引序列；

基于各样本视频对应的唇语特征和样本索引序列，对第一神经网络模型重复进行第一训练操作，直至第一神经网络模型对应的第一训练损失满足第一训练结束条件，将满足第一训练结束条件时的第一神经网络模型作为第一语音内容预测网络，其中，第一训练操作包括：

对于每个样本视频，基于该样本视频对应的唇语特征，通过第一神经网络预测得到该样本视频对应的预测索引序列；

基于各样本视频对应的样本索引序列和预测索引序列之间的差异，确定第一训练损失；

若第一训练损失不满足第一训练结束条件，则对第一神经网络模型的模型参数进行调整。

可选的，对于每个第一样本语音数据，第一训练模块在基于该第一样本语音数据和说话人VQ码本，获取该第一样本语音数据对应的样本索引序列时用于：

获取该第一样本语音数据的音频特征，并基于该音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征；

根据该第一样本语音数据的第一内容特征和说话人VQ码本，得到该第一样本语音数据对应的样本索引序列。

可选的，说话人VQ码本包括多个语音单元内容特征；对于每个第一样本语音数据，第一训练模块在获取该第一样本语音数据的音频特征，并基于该音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征时，用于：

将该第一样本语音数据进行分帧处理，得到至少两个语音帧；获取至少两个语音帧的音频特征；

基于音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，其中，第一内容特征包括至少两个语音帧对应的至少两个子内容特征；

对于每个第一样本语音数据，第一训练模块在根据该第一样本语音数据的第一内容特征和说话人VQ码本，得到该样本语音数据对应的样本索引序列时用于：

对于该样本语音数据的第一内容特征中的每个子内容特征，基于该子内容特征与说话人VQ码本中各个语音单元内容特征的匹配度，将最高匹配度对应的语音单元内容特征的索引值，确定为该子内容特征对应的索引值；

将各个子内容特征对应的索引值，按照各个子内容特征在第一内容特征中的时序信息组合，得到该样本语音数据对应的样本索引序列。

可选的，音频特征预测网络、第二语音内容预测网络和说话人VQ码本是由第二训练模块通过以下方式训练得到的：

获取第二训练数据集以及初始的待训练VQ码本；

获取第二训练数据集中各第二样本语音数据的样本音频特征；

对于每个第二样本语音数据，根据该第二样本语音数据的样本音频特征，提取该第二样本语音数据对应的音色特征；

基于各第二样本语音数据的样本音频特征和音色特征，对第二神经网络模型、第三神经网络模型和待训练VQ码本进行重复第二训练操作，直至训练总损失满足第二训练结束条件，将满足第二训练结束条件时的第二神经网络模型、第三神经网络模型和待训练VQ码本分别作为第二语音内容预测网络、音频特征预测网络和说话人VQ码本：第二训练操作包括：

对于每个第二样本语音数据，基于该第二样本语音数据的样本音频特征，通过第二神经网络模型预测得到对应的第二内容特征，并基于待训练VQ码本确定与第二内容特征匹配的第三内容特征；

对于每个第二样本语音数据，根据该第二样本语音数据对应的音色特征和第三内容特征，通过第三神经网络模型预测得到该第二样本语音数据对应的预测音频特征；

根据各第二样本语音数据对应的预测音频特征和样本音频特征，确定第二训练损失；

根据各第二样本语音数据对应的第二内容特征和第三内容特征，确定第三训练损失；

根据第二训练损失和第三训练损失，确定训练总损失；

若训练总损失不满足第二训练结束条件，则对第二神经网络模型和第三神经网络模型的模型参数、以及待训练VQ码本中的语音单元内容特征进行调整。

可选的，第三神经网络模型包括第一子网络模型和第二子网络模型，其中，对于每个第二样本语音数据，根据该第二样本语音数据对应的音色特征和第三内容特征，通过第三神经网络模型预测得到该第二样本语音数据对应的预测音频特征，包括：

基于该第二样本语音数据对应的音色特征和第三内容特征，通过第一子网络模型预测得到该第二样本语音数据对应的预测基频特征；

根据该第二样本语音数据对应的音色特征、第三内容特征和预测基频特征，通过第二子网络模型预测得到该第二样本语音数据对应的预测音频特征；

第二训练模块还用于：

对于每个第二样本语音数据，根据该第二样本语音数据，获取该第二样本语音数据对应的样本基频特征；根据各第二样本语音数据对应的样本基频特征和预测基频特征，确定第四训练损失；

其中，训练总损失还包括第四训练损失。

可选的，第二训练模块还用于：确定各第二样本语音数据对应的音色特征和第三内容特征之间的关联程度；基于关联程度，确定第五训练损失，其中，第五训练损失与关联程度成正相关；其中，训练总损失还包第五训练损失。

可选的，第二训练数据集中还包括每个第二样本语音数据对应的第三样本语音数据，第二样本语音数据和第二样本数据对应的第三样本语音数据是同一个说话人的语音数据；第二训练模块还用于：

对于每个第三样本语音数据，获取该第三样本语音数据的样本音频特征，并根据该样本音频特征，通过第三神经网络和待训练VQ码本确定该第三样本语音数据对应的第四内容特征；对于每个第二样本语音数据，将该第二样本语音数据对应的第三内容特征作为正样本来源，将该第二样本语音数据对应的第三样本语音数据所对应的第四内容特征作为负样本来源，确定该第二样本语音数据对应的比对预测编码损失；

其中，训练总损失还包括各第二训练样本对应的比对预测编码损失。

另一方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器，存储器中存储有计算机程序，处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机产品包括计算机程序，该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。

本申请实施例提供的技术方案带来的有益效果如下：

本申请实施例提供的语音合成方法，通过采用基于第一训练数据集训练得到的第一语音内容预测网络，可以基于从视频中提取的目标对象的唇语特征预测得到目标对象的语音内容特征，通过从目标对象的参考语音数据获取能够表征目标对象的音色信息的音色特征，从而可以基于目标对象对应的语音内容特征和音色特征，实现对符合目标说话人音色特点的语音内容(即目标语音数据)的重建，使得重建后的语音数据具有高自然度、且与说话人本身的发音具有高相似度。

此外，本申请实施例的方法不仅适用于一个目标对象说话的应用场景，也可以适用于多个目标对象说话的应用场景，不论是一个目标对象还是多个目标对象，基于该方法都可以高度还原出各个目标对象对应的目标语音数据，可以更好的满足实际应用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音合成方法的流程示意图；

图2为本申请实施例提供的一种语音处理系统的结构示意图；

图3为本申请实施例提供的一种语音合成网络的结构示意图；

图4为本申请实施例提供的一种语音合成方法的原理示意图；

图5为本申请实施例提供的一种神经网络训练方法的原理示意图；

图6为本申请实施例提供的一种神经网络训练方法的原理示意图；

图7为本申请实施例提供的一种语音合成装置的结构示意图；

图8为本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”或者“A或B中的至少一项”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。在描述多个(两个或两个以上)项目时，如果没有明确限定多个项目之间的关系，这多个项目之间可以是指多个项目中的一个、多个或者全部，例如，对于“参数A包括A1、A2、A3”的描述，可以实现为参数A包括A1或A2或A3，还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。

需要说明的是，在本申请的可选实施例中，所涉及到的用户信息(如用户对应的视频数据、用户对应的语音数据)等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说，本申请实施例中如果涉及到与用户有关的数据，这些数据需要经由用户授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。

可选的，本申请实施例提供的语音合成方法，可以基于人工智能(ArtificialIntelligence，AI)技术实现。比如，视频中所包含的对象的唇语特征的提取、基于唇语特征预测对象的语音内容特征、以及根据语音内容特征和对象的音色特征，得到对象的音频特征等步骤，都可以通过训练好的神经网络模型实现。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步，人工智能技术已经在多个领域广泛展开研究和应用，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案，可涉及到AI技术中的语音技术和计算机视觉技术。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，Automatic SpeechRecognition)和语音合成技术(TTS，Text to Speech)以及声纹识别技术，让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可选的，本申请实施例所涉及的数据处理可以基于云技术(Cloud technology)实现，比如，神经网络模型的训练中涉及到的数据计算、提取语音数据的音频特征、基于训练好的神经网络模型对待处理视频进行处理过程中涉及到的数据计算等都可以基于云技术实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供的语音合成方法可以由任意的电子设备执行，如可以由用户终端或服务器执行，还可以由用户终端和服务器交互完成。例如，用户终端可以通过执行该方法，基于待处理视频得到该视频中各个对象的语音数据。该方法也可以由服务器执行，用户终端可以将待处理视频发送给服务器，由服务器通过执行本申请实施例提供的方法得到该视频中各个对象的语音数据，可选的，还可以将得到的语音数据发送给用户终端。用户终端还可以基于得到的语音数据根据应用需求进行后续处理。

其中，上述服务器包括但不限于物理服务器或云服务器，还可以是服务器集群等。上述用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。

为了更好的理解和说明本申请实施例提供的方案，下面先对本申请实施例所涉及的一些相关技术用语进行说明。

Lip To Speech synthesis(LTS)：唇语到语音的合成，也可以称为video-to-speech(VTS，视频转语音)，其目的是利用无声视频来重建视频对应的语音信号。

Voice Conversion(VC)模型：语音转换模型，是将一个人的音色转化为另外一个人音色的任务。

Vector Quantization(VQ)：向量量化，是一种常用的压缩技术。VQ在语音信号处理中占十分重要的地位，广泛应用于语音编码、语音识别和语音合成等领域。

Contrastive Predictive Coding(CPC)损失：对比预测编码损失，是一种无监督训练方法，可以从高维数据中提取有用的表示(即特征/特征向量)，这种表示可以学习到对预测未来最有用的信息。

Lip To Index(Lip2Ind))网络：嘴唇到声学单元索引的预测模型，是本申请实施例提供的一种神经网络模型，基于该模型可以从视频中提取到视频中对象的语音内容特征，可选的，可以基于该模型预测得到视频中的各个目标对象各自对应于训练好的说话人VQ码本中的各个语音单元内容特征的目标索引序列，通过将该索引序列对应到VQ码本上，即可以得到各个目标对象对应的语音内容特征，从而可以基于各目标对象对应的语音内容特征从无声视频中得到该视频中目标对象各自对应的语音数据。

梅尔谱(mel-spectrograms)，即梅尔频谱，是一种常用的音频特征，将语音信号经过短时傅里叶变换后，通过梅尔滤波器，使特征更加符合人耳听觉特性，该特征广泛用于语音领域。

下面对本申请提供的多种可选实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1示出了本申请实施例提供的一种语音合成方法的流程示意图，该方法可以由用户终端或服务器执行，如图1中所示，本申请实施例提供的该方法可以包括以下步骤110至步骤S140。

步骤S110：获取待处理视频，待处理视频中包含至少一个目标对象。

其中，对于待处理视频的来源本申请实施例不做限定，待处理视频可以是一个或多个对象对应的视频，也就是一个或多个对象在说话过程中采集的视频。目标对象可以是待处理视频中的每一个对象，也可以是待处理视频中的一个或多个指定对象，也就是所关注的对象。在实际应用中，如果只关注视频中的部分对象的说话内容，可以对视频中的目标对象进行指定，比如，在视频中第一帧出现该对象的图像中对该对象进行标记，那么被标记的对象则是目标对象。也就是说，待处理视频中可以带有目标对象标识，如果带有标识，这些标识对应的对象为目标对象，如果没有标识，那么待处理视频中的每一个对象均可以作为目标对象。

步骤S120：对待处理视频中每个目标对象对应的唇部图像序列分别进行特征提取，得到每个目标对象的唇语特征。

对于一个目标对象而言，该目标对象的唇语特征，也就是对待处理视频中该目标对象的唇部区域的图像进行特征提取得到的特征。

可选的，该步骤可以通过训练好的神经网络模型实现，该网络模型的输入可以是待处理视频，该网络模型可以首先对待处理视频中的各个目标对象的唇部区域进行检测与识别，识别出待处理视频中每个目标对象所对应的唇部图像序列，对于一个目标对象而言，该序列也就是待处理视频中出现过该目标对象的各帧图像中该对象的唇部区域的图像组成的图像序列。之后，可以通过网络模型对各个目标对象的图像序列进行特征提取，得到对应的唇部特征，也就是上述唇语特征。

其中，对于上述用于提取各目标对象对应的唇语特征的神经网络模型的具体网络结构本申请实施例不做限定，可以根据实际需求配置。可选的，对于每个目标对象，唇语特征可以包括该目标对象所对应的唇部图像序列中各帧图像的图像特征，每帧图像的图像特征可以是一个设定维度的特征向量，比如，唇部图像序列包括50帧图像，上述设定维度为D，则该图像序列对应的唇部特征可以表示为一个50×D的特征矩阵，也可以表示为{y₁,y₂,...,y₅₀}，其中，y_i表示第i帧图像的特征向量，特征维度也就是特征向量的长度为D。

步骤S130：对于每个目标对象，基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征。

其中，第一语音内容预测网络(也可以称为Lip2Ind网络)是基于第一训练数据集训练得到的，第一训练数据集中包括多个样本视频以及每个样本视频对应的第一样本语音数据。

语音内容特征也就是能够代表目标对象说话内容的特征向量，由于唇部特征是通过对目标对象的唇部图像序列进行特征提取得到的，对于唇部图像而言，图像序列中图像信息的变化是由目标对象说话时嘴唇的动作变化(即嘴唇运动轨迹，也就是唇语)引起的，也就是用户说话时的嘴唇的变化引起的，而不同的说话内容嘴唇的嘴型也是有所不同的，因此，可以基于目标对象的唇语特征，通过训练好的神经网络模型即上述第一语音内容预测网络，来预测目标对象的语音内容特征。其中，该第一语音内容预测网络是基于包括多个样本视频以及每个样本视频对应的第一样本语音数据的第一训练数据集训练得到的。基于大量样本视频以及视频对应的样本语音数据，可以理解的是，样本视频是包含样本对象的图像序列，一个样本视频对应的样本语音数据则是在获取该样本视频时，该视频中的样本对象的说话内容即语音信号。因此，基于第一训练数据集中的大量训练样本(即样本视频和对应的样本语音数据)，可以让第一语音内容预测网络很好到不同的唇部特征所对应的语音内容特征之间的映射关系，因此，在训练好该模型之后，可以基于待处理视频中各目标对象的唇语特征，来预测各个目标对象对应的语音内容特征。

步骤S140：获取每个目标对象的参考语音数据，并提取每个目标对象的参考语音数据的音色特征。

音色是声音的属性之一，每个人所发出的声音的区别，就是由音色不同造成的，音色可以理解为声音的特征，可以用于区分不同的对象。对于每个目标对象，其音色特征也就是能够代表该对象的音色信息的特征向量，也可以称为说话人表示。

为了使得最终得到的目标语音数据能够更加符合说话人的声音特点，具有说话人的音色，本申请实施例提供的语音合成方式，在生成每个目标对象的目标语音数据时，会通过获取目标对象的参考语音数据来得到每个目标对象对应的音色特征，从而可以基于目标对象的语音内容特征和音色特征，得到不仅准确、而且可以符合说话人声音特征的语音数据，从而更好的满足了实际应用需求。

需要说明的是，在实际应用中，对于一个目标对象而言，该目标对象的参考语音数据可以真的是该目标对象自己的语音数据，也可以是其他对象的语音数据，比如，在一些应用场景中，对于一个目标对象，希望最终得到的语音数据是符合某个指定对象的声音特色的语音信号，那么可以将该指定对象的语音数据作为该目标对象的参考语音数据。其中，由于参考语音数据是用于获取目标对象对应的音色特征的，而不关注参考语音数据的具体语音内容，因此，参考语音数据可以是至少一帧语音数据即可。

可选的，对于每个目标对象，该目标对象的参考语音数据的音色特征可以是通过以下方式获取到的：

提取该目标对象的参考语音数据的音频特征；

基于该音频特征预测该目标对象对应的音色特征。

其中，基于音频特征预测音色特征，可以是通过训练好的神经网络模型(可以称为说话人编码器)实现，具体的，可以将音色特征输入到说话人编码器中，通过编码器预测输出对应的音色特征。对于说话人编码器的具体网络结构本申请实施例也不做限定，可以根据实际需求配置。对于说话人编码器的具体训练方式本申请实施例也不做限定，可以采用现有的训练方式训练得到，只要训练出的网络模型能够基于一个对象的音频特征，提取得到能够用于该对象区分与其他对象的音色特征即可，也就是能够区分不同说话人。比如，可以在说话人识别任务上通过最小化广义端到端损失函数来进行说话人编码器的预训练，以使得该编码器可以很好的对说话人音色进行建模(即能够很好的提取得到代表各个说话人的音色特征)。

步骤S150：对于每个目标对象，根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于待处理视频的目标语音数据。

对于每个目标对象而言，该目标对象的语音内容特征代表了该目标对象说话的具体内容，音色特征代表了该目标对应的声音特点，因此，在得到该目标对象的语音内容特征和音色特征之后，可以基于这两部分特征得到能够很好的表征该目标对象说话内容和说话特点的音频特征，从而可以基于该音频特征得到该目标对象的目标语音数据。

可选的，对于每个目标对象，在得到该目标对象的语音内容特征和音色特征之后，可以将两者拼接之后输入到音频特征预测网络中，通过该网络预测得到该目标对象的音频特征。

本申请的可选实施例中，对于每个目标对象，上述根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，可以包括：

也就是说，音频特征预测网络可以包括基频特征预测模块(也可以称为基频预测器或F₀预测器)和音频特征预测模型(也可以称为解码器)，其中，F₀预测器的输入特征包括目标对象的语音内容特征和音色特征，可选的，可以将语音内容特征和音色特征拼接后输入至F₀预测器，得到该目标对象的基频特征。解码器的输入包括该目标对象的语音内容特征、音色特征和基频特征，可选的，可以将语音内容特征和音色特征的拼接特征与基频特征再拼接之后输入至解码器，由解码器根据这三部分的拼接特征预测出对应的音频特征。

基频即基音的频率，基音可以理解为语音数据中频率最低的纯音。基频(通常称为F0)是语音中最重要的声学参数之一，代表了说话人声音音调的起伏，在韵律特征中具有重要地位。不同的说话人的基频通常都是不同的，基频可以用于控制说话人语音的语调变化，因此，为了使得得到的目标语音数据能够更加贴近目标对象的语调变化，本申请的该可选实施例中，在基于语音内容特征和音色特征获取目标对象的目标语音数据时，还考虑了目标对象的基频特征，即能够表征目标对象的语调变化的特征向量。从而可以基于表征说话人说话内容的语音内容特征、表征说话人音色信息的音色特征、以及说话人语调变化的基频特征，预测得到更加高质量的语音数据。

其中，在预测目标对象的音频特征时，音频特征具体采用哪种语音特征，可以根据实际需求设置，可选的，该音频特征可以包括但不限于梅尔谱特征。对于基于音频特征得到对应的语音数据的具体实现方式本申请实施例也不做限定，可以采用现有任意方式实现，比如，可以将目标对象的梅尔谱特征作为声码器的输入，通过声码器将梅尔谱特征转换成对应的语音波形，也就是该目标对象的目标语音数据。

本申请实施例提供的语音合成方法，通过采用基于训练数据集训练得到的第一语音内容预测网络，可以基于从视频中提取的目标对象的唇语特征预测得到目标对象的语音内容特征，基于目标对象的参考语音数据得到能够表征目标对象的音色信息的音色特征，从而可以基于目标对象对应的语音内容特征和音色特征，实现对符合目标说话人音色特点的语音内容(即目标语音数据)的重建，使得重建后的语音数据具有高自然度、且与说话人本身的发音具有高相似度。此外，本申请实施例的方法不仅适用于一个目标对象说话的应用场景，也可以适用于多个目标对象说话的应用场景，不论是一个目标对象还是多个目标对象，基于该方法都可以高度还原出各个目标对象对应的目标语音数据，可以更好的满足实际应用需求。

作为一可选方案，对于每个目标对象，基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征，可以包括：

其中，说话人VQ码本可以理解为一个标准的由各个语音单元(声学单元)的内容特征所构成的数据库，该数据库中各个语音单元的内容特征(可以称为语音单元内容特征或声学单元内容特征)可以是基于包含大量第二样本语音数据的第二训练数据集学习得到的。每个语音单元的内容特征可以表征一个声学单元，即构成语音数据的基本单元，可以理解为与音素相关的声学单元，说话人VQ码本中的一个语音单元内容特征可以表征至少一个音素的内容特征。VQ码本中语音单元内容特征的数量可以理解为声学单元的数量，基于这些声学单元可以合成得到任何语音数据。

本申请实施例提供的上述第一语音内容预测网络可以称为Lip2Ind网络或Lip2Ind模型，其输入是唇语特征，输出是一个目标索引值序列，该序列中的每个值代表说话人VQ码本中的一个语音单元内容特征的索引值。在得到目标索引序列之后，则可以从说话人VQ码本中找到该序列中的各个索引值所对应的语音单元内容特征(即特征向量，也可以称为特征表示或内容表示)，从而可以基于各个索引值对应的语音单元内容特征得到对应的语音内容特征。

作为一个示例，假设说话人VQ码本中包含200个声学单元内容特征，即200个特征向量，每个特征向量的维度为160，那么该VQ码本可以理解成一个200×160的特征矩阵，其中，每一行数据表示一个声学单元内容特征即语音单元内容特征，每个声学单元内容特征具有唯一的索引值，索引值的形式本申请实施例不做限定，可以根据实际要求配置，比如，200个声学单元内容特征的索引值分别为1至200，索引值1表示第1行的声学单元内容特征，索引值表示第2行的声学单元内容特征，以此类推。对于一个目标对象，假设基于该目标对象的唇语特征，通过Lip2Ind网络预测得到的目标索引序列为{a，b，c，d，...，g}，其中，该序列中的各个值都是取值范围在[1，200]之间的正整数，根据这些数值可以分别找到对应的声学单元内容特征，那么该目标对象的语音内容特征则是将这些声学单元内容特征按照各个值在序列中的顺序进行组合后得到的特征向量。

本申请实施例提供的该方法，可以基于第二训练数据集中的大量第二样本语音数据学习得到上述与声学单元(如音素)有关的VQ码本，该码本中包含多个与音素有关的声学单元的内容特征，并可以基于第一训练数据集和该VQ码本训练得到能够很好的将唇语特征映射到该VQ码本元素索引的Lip2Ind网络，从而在采用该Lip2Ind网络进行语音内容特征的预测时，可以准确地将唇语特征映射到与音素有关的声学单元上，从而基于映射出的各声学单元的内容特征进行目标对象的语音内容的重建，本申请实施例提供的该方法，提供了更加清晰、具有可解释性的唇语到语音的映射过程，且基于具有可解释性的VQ码本，使得Lip2Ind网络也具有更好的鲁棒性。

在实际应用中，第一训练数据集中的第一样本语音数据和第二训练数据集中第二样本语音数据可以相同，也可以不同。

作为一可选方案，本申请提供的语音合成方法的实施流程可以包括：

获取待处理视频，待处理视频中包含至少一个目标对象；

对待处理视频中每个目标对象对应的唇部图像序列分别进行特征提取，得到每个目标对象的唇语特征；

对于每个目标对象，基于该目标对象的唇语特征，通过调用Lip2Ind网络预测得到该目标对象的目标索引序列，根据该目标索引序列和说话人VQ码本，得到该目标索引序列中的各目标索引值对应的语音单元内容特征，按照各目标索引值在目标索引序列中的顺序，将各语音单元内容特征组合得到该目标对象的语音内容特征；

获取每个目标对象的参考语音数据，并提取每个目标对象的参考语音数据的音频特征，基于每个目标对象对应的音频特征，得到每个目标对象的音色特征；

对于每个目标对象，基于该目标对象的语音内容特征和音色特征，通过基频预测器预测得到该目标对象的基频特征，基于该目标对象的语音内容特征、音色特征和基频特征，通过解码器得到该目标对象的音频特征，基于该目标对象的音频特征得到该目标对象的目标语音数据。

基于本申请的该方法，可以首先将唇语特征映射到中间层和音素相关的声学单元(即语音内容特征)，再利用声学单元进行语音内容的重构，相比于现有技术该方法具有更加透明的映射过程，提高了深度模型(即本申请实施例提供的Lip2Ind网络)的可解释性。进一步的，该方法可以采用说话人编码器提取有效的说话人表示(即音色特征)来灵活地控制说话人音色，还可以基于将语音内容特征和音色特征作为输入，预测能够有效地控制所生成的语音的语调变化的基频特征，从而使得最终生成的语音数据具有高自然度，高可懂度和高说话人相似度。

下面对本申请可选实施方案中所涉及的各神经网络模型的训练方式分别进行说明。

本申请的可选实施例中，上述第一语音内容预测网络即Lip2Ind网络可以是通过以下方式对第一神经网络模型进行训练得到的：

对于第一训练数据集中的每个样本视频，对该样本视频中样本对象对应的唇部图像序列进行特征提取，得到该样本视频对应的唇语特征；

基于各样本视频对应的唇语特征和样本索引序列，对第一神经网络模型重复进行第一训练操作，直至第一神经网络模型对应的第一训练损失满足第一训练结束条件，将满足第一训练结束条件时的第一神经网络模型作为第一语音内容预测网络，其中，上述第一训练操作包括：

对于每个样本视频，基于该样本视频对应的唇语特征，通过第一神经网络模型预测得到该样本视频对应的预测索引序列；

其中，对于获取各样本视频对应的唇语特征的具体实现方式，可以参考前文中获取待处理视频中各目标对象对应的唇语特征的实现方式，只是此处处理的是样本视频中样本对象的唇部序列，可选的，每个样本图像中可以包括一个样本对象，当然，也可以包括多个样本对象，如果是包括多个样本对象，那么获取的该样本视频对应的第一样本语音数据则包括各个样本对象各自对应的语音数据，此时，可以将该视频中每个样本对象对应的唇部图像序列和语音数据分别作为一个训练样本。

对于各第一样本语音数据而言，第一样本语音数据对应的样本索引序列是训练第一神经网络模型时的标签数据，也就是是真实索引序列，同样的，真实索引序列中的各个索引值也是说话人VQ码本中的各个声学单元内容特征的索引值。由于每个样本视频对应的第一样本语音数据是该样本视频中样本对象的真实语音数据，因此，在训练第一神经网络模型时，可以将第一样本语音数据的真实索引序列作为标签数据，通过训练让第一神经网络模型学习到唇语特征和对应的语音数据之间的映射关系，从而可以让第一神经网络模型基于唇语特征输出的预测索引序列，能够不断接近该唇语特征对应的真实语音数据所对应的样本索引序列。

具体的，可以根据各样本语音数据对应的样本索引序列和预测索引序列之间的差异程度，计算得到Lip2Ind网络的训练损失，并根据该训练损失来约束模型的训练，可选的，可以采用梯度下降算法进行Lip2Ind网络的训练，如果训练损失不满足第一训练结束条件，则需要对第一神经网络模型的模型参数进行调整后继续重复上述第一训练操作，直至得到的满足训练结束条件时的Lip2Ind网络。在实际应用中，对于Lip2Ind网络的损失函数的具体形式本申请实施例不做限定，该损失函数可以包括但不限于交叉熵损失函数，采用该损失函数时，将各样本语音数据对应的样本索引序列作为真值，将预测索引序列作为预测值，可以通过计算各样本语音数据对应的真值和预测值之间的差异，得到训练损失。

在实际实施时，Lip2Ind网络在预测样本语音数据对应的预测索引序列时，其输出可以包括该序列中各个位置的索引值是真值(即样本索引序列中对应位置的索引真)的概率，基于各位置的真值和对应的概率，计算得到训练损失，如上述交叉熵损失函数的值。

其中，上述第一训练结束条件可以根据实际需求配置，本申请实施例不做限定，如可以包括但不限于训练次数达到设定次数或第一训练损失小于设定值或者连续若干次小于设定值(也就是损失函数收敛)等。

可选的，各第一样本语音数据对应的样本索引序列也可以是通过训练好的神经网络模型预测得到的，具体的，对于每个第一样本语音数据，基于该第一样本语音数据和说话人VQ码本，获取该第一样本语音数据对应的样本索引序列，可以包括：

其中，第二语音内容预测网络(也可以称为内容编码器)可以是基于大量的第二样本语音数据训练得到的，该模型可以基于语音数据的音频特征提取得到对应的语音内容特征。对于内容编码器的具体网络结构本申请实施例也不做限定，可以根据实际需求配置。可选的，音频特征预测网络可以采用VC模型中的内容编码器。

在通过训练好的内容编码器提取得到各第一样本语音数据的第一内容特征之后，对于每个第一样本语音数据，可以基于该样本语音的第一内容特征与说话人VQ码本中各语音单元内容特征之间的匹配度，得到该第一内容特征对应的样本索引序列，并可以将该样本语音序列用作Lip2Ind网络训练时的标签数据。

本申请的可选实施例中，说话人VQ码本包括多个语音单元内容特征；对于每个第一样本语音数据，上述获取该第一样本语音数据的音频特征，并基于该音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，可以包括：

将该第一样本语音数据进行分帧处理，得到至少两个语音帧；

获取至少两个语音帧中的音频特征；

相应的，上述根据该第一样本语音数据的第一内容特征和说话人VQ码本，得到该样本语音数据对应的样本索引序列，包括：

对于该样本语音数据的第一内容特征中的每个子内容特征，基于该子内容特征与所述说话人VQ码本中各个语音单元内容特征的匹配度，将最高匹配度对应的语音单元内容特征的索引值，确定为该子内容特征对应的索引值；

在实际应用中，由于语音数据在宏观上来看是不平稳的，但是从微观上来看，在比较短的时间内语音数据可以看成是平稳的，因此，在对语音数据进行处理时，通常都需要进行包括但不限于分帧在内的一些预处理，通过分帧处理可以将语音数据划分为多个短时连续的语音帧，之后再对各语音帧进行音频特征的提取。可选的，音频特征可以是梅尔谱特征。

对于每个第一样本语音数据，在获取待该语音数据的各个语音帧的音频特征之后，可以将各语音帧的音频特征一起输入到音频特征预测网络(即内容编码器)中，可以有编码器对各语音帧的音频特征进行降采样处理，得到具有更好的特征表达能力的第一内容特征，比如，可以通过音频特征预测网络对输入至模型的各语音帧的音频特征进行2倍下采样，得到更加连续、稠密的语音内容特征。其中，内容编码器的具体网络结构本申请实施例不做限定，可选的，可以采用基于卷积网络的网络模型。

作为一个示例，假设第一样本语音数据对应的语音帧数为T，输入至内容编码器的音频特征的数量则是T，可以表示X＝{x₁,x₂,...,x_T}，x_i表示第i个语音帧的音频特征，通过2倍下采样处理后得到的第一内容特征则可以表示为X＝{x₁,x₂,...,x_T/2}，该第一内容特征包括的子内容特征的数量为T/2。

对于每个样本语音数据，在得到该第一样本语音数据对应的第一内容特征之后，对于该第一内容特征的每个子内容特征，可以通过该子内容特征与说话人VQ码本中各个语音单元内容特征的匹配度，确定出该子内容特征对应的目标语音单元内容特征，将该目标语音单元内容特征的索引值即为该子内容特征对应的索引值。

对于计算子内容特征和说话人VQ样本中的语音单元内容特征之间的匹配度的方式，本申请实施例不做限定，可以采用任何计算两个特征向量之间的相似度的方式。比如，可以通过计算子内容特征和语音单元内容特征之间的L2距离得到两者之间的匹配度，距离越小，匹配度越高，对于一个子内容特征，可以将各语音单元内容特征与该子内容特征之间的L2距离中最小距离对应的语音单元内容特征作为最匹配的语音单元内容特征，将该语音单元内容特征的索引值确定为子内容特征对应的索引值。

在得到第一内容特征中各个子内容特征对应的索引值之后，按照各个子内容特征在第一内容特征中的时序信息(即前后位置)，将各个子内容特征对应的索引值组合即得到了该样本语音数据对应的样本索引序列。

本申请可选实施例中，上述音频特征预测网络、第二语音内容预测网络和说话人VQ码本可以是通过以下方式训练得到的：

获取第二训练数据集以及初始的待训练VQ码本；获取第二训练数据集中各第二样本语音数据的样本音频特征；

基于各第二样本语音数据的样本音频特征和音色特征，对第二神经网络模型、第三神经网络模型和所述待训练VQ码本进行重复第二训练操作，直至训练总损失满足第二训练结束条件，将满足第二训练结束条件时的第二神经网络模型、第三神经网络模型和待训练VQ码本分别作为第二语音内容预测网络、音频特征预测网络和说话人VQ码本：

其中，上述第二训练操作可以包括：

对于每个第二样本语音数据，基于该第二样本语音数据的样本音频特征，通过第二神经网络模型得到对应的第二内容特征，并基于待训练VQ码本确定与第二内容特征匹配的第三内容特征；

根据第二训练损失和第三训练损失，确定训练总损失；

对于获取第二样本语音数据的样本音频特征以及对应的音色特征的方式，可以参照前文中对于第一样本语音数据的样本音频特征和音色特征的获取方式的描述。可以理解的是，在第一样本语音数据和第二样本语音数据相同时，一个第二样本语音数据对应的第二内容特征也就是该样本语音数据对应的第一内容特征。

对于音频特征预测网络(可选的，可以包括基频预测模型和音频特征预测模型)、第二语音内容预测网络(即内容编码器)和说话人VQ码本，可以是基于大量第二样本语音数据的样本音频特征和音色特征训练得到的。其中，在训练阶段，第二神经网络模型的输入包括第二样本语音数据的样本音频特征，输出是第二样本语音数据的第二内容特征，对于第二内容特征的提取，可以参照前文中通过第二语音内容预测网络提取第一样本语音数据的第一内容特征的相关描述，两部分的原理是相同，只不过对于第一样本语音数据而言，是基于训练好的第二语音内容预测网络和说话人VQ码本实现的，对于第二样本语音数据而言，是基于在训练的第二语音内容预测网络和需要训练的VQ码本实现的。

在得到各第二样本语音数据的第二内容特征之后，可以将该第二内容特征映射到待训练VQ码本上，得到对应的第三内容特征。具体的，对应第二内容特征中的每个子内容特征，可以计算该子内容特征与待训练VQ码本中各个语音单元内容特征之间的匹配度，将匹配度最高的语音单元内容特征替换该子内容特征，通过该方式，可以得到第二内容特征对应到VQ码本上的第三内容特征。

对于第三神经网络模型，其输入包括第二样本语音数据的第三内容特征和音色特征，通过该网络模型可以预测得到第二样本语音数据对应的预测音频特征。

之后，可以将各第二样本语音数据的样本音频特征作为标签数据(即真实值)，通过计算通过神经网络模型预测得到的预测音频特征和样本音频特征之间的差异，得到第二训练损失，通过计算各第二样本语音数据对应的第二内容特征和第三内容特征之间的差异，可以得到第三训练损失，并基于这两部分训练损失，进一步确定出训练总损失，以基于训练总损失来判定是否需要继续对模型进行训练，如果训练总损失不满足第二训练结束条件，则对第二神经网络模型和第三神经网络模型的模型参数、以及待训练VQ码本中的语音单元内容特征进行调整，并继续重复训练过程，直至得到满足该第二训练结束条件的第二神经网络模型、第三神经网络模型和VQ码本。

基于上述第二训练损失和第三训练损失对模型进行训练，可以通过不断调整第二神经网络模型和第三神经网络模型的模型参数、以及待训练VQ码本中的各语音单元内容特征，使得第三神经网络模型预测出的样本语音数据的音频特征和样本语音特征越来越接近，可以让第二神经网络模型提取得到的样本语音数据的第二内容特征能够更好的映射到VQ码本中的语音单元内容特征上，并可以让学习到与样本语音数据的内容有关的码本，也就是可以使得VQ码本中的各语音单元内容特征越来越能够代表一个个的声学单元的内容特征。

本申请的可选实施例中，上述第三神经网络模型包括第一子网络模型和第二子网络模型，其中，对于每个第二样本语音数据，上述根据该第二样本语音数据对应的音色特征和第三内容特征，通过第三神经网络模型预测得到该第二样本语音数据对应的预测音频特征，可以包括：

该方法还可以包括：

对于每个第二样本语音数据，根据该第二样本语音数据，获取该第二样本语音数据对应的样本基频特征；

根据各第二样本语音数据对应的样本基频特征和预测基频特征，确定第四训练损失；

其中，训练总损失还包括第四训练损失。

由前文的描述可知，不同说话人的基频信息也都是有所不同的，在预测说话人的语音数据时，通过融入该说话人的基频信息可以获取到更加符合该说话人说话语调的语音数据。基于此，本申请实施例提供的该训练方案中，在基于各第二样本语音数据对应的音色特征和第三内容特征，预测对应的音频特征时，首先可以根据这两部分内容预测得到对应的基频特征，再基于音色特征、第三内容特征和预测基频特征得到对应的音频特征。相应的，为了使第二神经网络能够学习到用于区分不同说话人的基频特征，可以通过获取各第二样本语音数据对应的样本基频特征，将该样本基频特征作为标签数据，通过计算各第二样本语音数据对应的样本基频特征和预测基频特征之间的差异，得到对应的训练损失即上述第三训练损失，通过增加该训练损失，可以使得训练好的音频特征预测网络能够对于不同的说话人提取到不同的基频特征，并将基频特征融入到说话人的音频特征的预测中，从而使得预测出的音频特征中还包含了说话人的语调信息，使得基于该音频特征得到的目标语音数据更加贴合说话人的语调，进一步提升了语音数据的质量。

可以理解的是，训练总损失满足第二训练结束条件的上述第一子网络模型即为基频特征预测模型(即基频预测器)，第二子网络模型即为音频特征预测模型(即音频解码器)。

本申请的可选实施例中，该方法还可以包括：

确定各第二样本语音数据对应的音色特征和第三内容特征之间的关联程度；

根据该关联程度，确定第五训练损失，第五训练损失与关联程度成正相关；

其中，训练总损失还包括第五训练损失。

为了降低说话人的音色特征和语音内容特征(即第三内容特征)之间的依赖性，本申请的该可选方案中，训练总损失中还增加了第五训练损失。通过训练减少第二样本语音数据对应的音色特征和第三内容特征之间的关联程度，来解耦语音数据的音色信息与语音内容，从而可以使得通过使得第三神经网络预测出的内容特征可以尽量与说话人的音色无关，可以让学习到的VQ码本中的各语音单元内容特征可以与说话人的声音特点无关，尽可能只与内容有关，从而在基于训练好的第二神经网络模型(即内容编码器)进行语音内容特征提取时，可以得到能够更加准确表征语音内容的特征，从而可以提高预测得到的语音数据的内容的准确性。

本申请的可选实施例中，第二训练数据集中还包括每个第二样本语音数据对应的第三样本语音数据，第二样本语音数据和第二样本数据对应的第三样本语音数据是同一个说话人的语音数据；该方法还包括：

对于每个第三样本语音数据，获取该第三样本语音数据的样本音频特征，并根据该样本音频特征，通过第二神经网络模型和待训练VQ码本确定该第三样本语音数据对应的第四内容特征；

对于每个第二样本语音数据，将该第二样本语音数据对应的第三内容特征作为正样本来源，将该第二样本语音数据对应的第三样本语音数据所对应的第四内容特征作为负样本来源，确定该第二样本语音数据对应的比对预测编码损失；

其中，对于每个第二样本语音数据，其对应的第三样本语音数据可以是从同一个说话人即样本对象的语音数据中随机采样得到的。通过第三神经网络和待训练VQ码本确定各第三样本语音数据对应的第四内容特征的具体步骤，可以参见前文中通过第二神经网络模型和待训练VQ码本确定各第二样本语音数据对应的第三内容特征的描述，其原理是相同的。

在训练过程中，在得到各个第二样本语音数据的第三内容特征和各个第三样本语音数据的第四内容特征之后，可以基于第三内容特征和第三内容特征对应的第四内容特征分别构建用于确定预测编码损失(即CPC损失)的正样本集合和负样本集合，基于该正样本集合和负样本集合，通过一个自回归网络预测得到正样本对应的预测结果和负样本对应的预测结果，通过CPC损失可以使得正样本与其预测结果之间的相似度高于各负样本与其对应的预测结果之间的相似度。可选的，在训练第二神经网络模型、第三神经网络模型和VQ码本时，上述自回归网络可以是已经训练好的神经网络模型，也就是说在训练过程中自回归网络的模型参数可以是固定的，当然，自回归网络的模型参数也可以是与第二神经网络模型、第三神经网络模型和VQ码本一起训练学习到的，此时，在训练总损失不满足第二预设结束条件时，也需要对自回归网络部分的模型参数进行调整。对于CPC损失的具体计算实现，将在后文中结合具体示例进行详细说明，此处先不展开进行描述了。

本申请实施例提供的语音合成方法，适用于任何需要基于待处理视频获取视频中各个说话人的语音数据的场景中。比如，在多人视频会议的应用场景中，尤其是工作中，视频会议的会议内容通常都是要进行保存的，可以对多方参会人员进行音视频内容的采集并存储，但是有时可能会由于各种各样的原因，导致视频对应的音频数据并未被保存下来或者被破坏了，而基于本申请实施例提供的方法，则可以恢复出视频中各个说话人的语音数据。下面结合该应用场景，对本申请提供的方法的可选实施例和实用价值进行说明。

可选的，本申请实施例提供的语音合成方法可以实现为一独立的应用程序或者是已有应用程序的功能插件。图2示出了本申请该场景实施例中适用的一种语音处理系统的结构示意图，如图2中所示，该语音处理系统可以包括用户终端10、应用服务器20和训练服务器30，用户终端10可以通过网络与应用服务器20通信连接，用户终端10可以是任意用户的用户终端，应用服务器20可以是上述应用程序的服务器，通过执行本申请实施例提供的方法，可以实现语音数据的合成。用户终端10中可以运行有上述应用程序的客户端，如果用户需要对待处理视频(图2中所示的无声视频)中的语音数据进行还原，可以通过网络将待处理视频和视频中各个说话人(即目标对象)的参考语音数据发送给应用服务器20，应用服务器20可以基于接收到的数据预测出各个说话人的目标语音数据，并可以将目标语音数据(图2中所示的有声视频)提供给用户。其中，如果无声视频中包含多个说话人，用户在将无声视频通过其用户终端发送给应用服务器20时，应当告知服务器各个说话人的参考语音数据和视频中各个说话人的对应关系，这样应用服务器才能够将每个说话人的参考语音数据与该说话人的唇部图像序列正确的对应起来。

训练服务器30可以通过网络与应用服务器20通信连接，训练服务器30可以用于执行本申请实施例中所涉及的神经网络模型的训练操作，并可以将训练好的语音合成网络提供给应用服务器20中，应用服务器20可以通过调用该语音合成网络生成待处理视频中各个说话人的目标语音数据。

下面将结合图2所示的语音处理系统、以及图3至图6对本申请提供的语音合成方法的一种可选实施例进行说明。该实施例中，语音数据的音频特征以梅尔谱特征为例进行说明。

图3示出了本申请实施例提供的一种语音合成网络及其数据处理原理的示意图，如图3中所示，该语音合成网络包括说话人编码器、Lip2Ind network(即Lip2Ind网络，也就是第一语音内容预测网络)和音频特征预测网络，该音频特征预测网络包括基频预测器(图3中的F₀预测器)以及解码器。图4示出了采用图3中所示的语音合成网络预测说话人(即目标对象)的目标语音数据的流程示意图，如图4中所示，基于图3中所示的语音合成网络预测待处理视频中目标对象的目标语音数据的流程可以包括以下步骤S10至步骤S50，从图4中可以看出，步骤S10和步骤S20在实施实施时，是没有先后顺序的，可以并行实施，也可以是按照一定顺序实施。

在实际应用中，待处理视频中可以只有一个目标对象的，也可以是包含多个目标对象。对于多个目标对象的情况，在通过视频处理，得到每个目标对象各自对应的唇部图像序列之后，基于每个目标对象各自对应的唇部图像序列和参考语音数据，获取该目标对象的目标语音数据的具体实现都是相同的，为了描述方便，下面将以一个目标对象为例进行说明。

步骤S10：该步骤用于获取目标对象的音色特征，如图4中所示，该步骤可以包括以下步骤S11和步骤S12。

步骤S11：提取目标对象的参考语音数据的音频特征，即梅尔谱特征，也就是图3中所示的目标说话人语音梅尔谱X′_k。

步骤S12：根据目标对象的参考语音数据的音频特征，通过说话人编码器得到该目标对象的音色特征，也就是图3中的s′_k。

可选的，可以采用目标说话人的一条语音(如一个语音帧)的梅尔谱X′_k作为说话人编码器的输入得到目标说话人的说话人表示s′_k。

步骤S20：该步骤用于基于待处理视频(图4中的图像序列)获取说话人的语音内容特征，如图4中所示，该步骤可以包括以下步骤S21和步骤S23。

步骤S21：基于目标对象的唇部图像序列，提取对应的唇语特征。

该步骤可以通过训练好的视频特征提取模型实现。对于该视频特征提取模型的网络结构本申请实施例不做限定。可选的，可以对待处理图像中的每一帧进行人脸检测并进行人脸标记，并通过对每个目标对象在各帧图像的唇部区域进行特征提取得到对应的唇语特征，如图3中所示的Y_k。

步骤S22：基于提取的唇语特征，通过Lip2Ind网络预测得到对应的目标索引序列。

步骤S23：基于目标索引序列和说话人VQ码本，得到对应的语音内容特征。

在提取得到目标对象的唇语特征Y_k之后，将该唇语特征Y_k作为Lip2Ind网络的输入，预测得到声学单元(也就是声学单元内容特征)的索引，如图3中所示的

其中，T/2表示待处理视频中图像帧数的2倍，对应的语音数据的帧数的一半。在得到该目标索引序列之后，则可以将该索引中的各个索引值对应到说话人VQ码本(图3中所示的VQ码本：E)上，得到每个索引值对应的声学单元，如图3中所示，索引值

对应的声学单元是VQ码本中第1个声学单元

该声学单元也就是语音内容特征的第一个子内容特征，即图3中的

基于目标索引序列中各个索引值对应的声学单元即可得到说话人的语音内容特征，即图3中所示的

也就是

步骤S30：基于音色特征和语音内容特征，通过基频预测器预测得到目标对象的基频特征。

步骤S40：基于音色特征、语音内容特征和基频特征，通过解码器预测得到目标对象的音频特征。

步骤S50：基于目标对象的音频特征，得到目标对象的目标音频数据即语音信号。

如图3中所示，在得到目标对象的音色特征(即说话人表示s′_k)和语音内容特征(即声学单元表示)，可以对语音内容特征进行2倍上采样处理，可以将音色特征重复T次，将这两部特征拼接(图3和图4中所示的

)之后输入到基频预测器(图3中的F₀预测器)，预测得到目标对象的基频特征

最后将声学单元表示(上采样后的)、说话人表示(重复T次的s′_k)和预测值作为解码器的输入生成梅尔谱特征，之后，可以基于预测出的梅尔谱特征采用声码器将梅尔谱转换成语音波形，也就是目标对象语音数据。基于该方法，最终生成的语音数据可以准确地恢复原本的说话内容，同时具有目标说话人的音色以及自然的语调变化。

下面结合图5至图6，对训练得到图3中所示的语音合成网络的过程进行说明。该过程可以包括以下三个阶段：

(a)训练一个高性能的VC系统，该阶段采用VQ和CPC机制训练得到内容编码器，以通过训练好的内容编码器来提取和音素有关的离散的声学单元。

(b)训练Lip2Ind网络用于从唇语特征序列预测得到离散声学单元索引。

(c)构建多说话人LTS系统，即上述语音合成网络。

下面对各个阶段进行展开描述。

阶段(a)：训练高性能的VC系统

图5中示出了阶段(a)的示意图。如图5中所示，该VC系统主要包括内容编码器(即第二语音内容预测网络)、说话人编码器、F₀预测器和解码器，其中，说话人编码器是预先训练好的，该阶段基于第二训练数据集(包括大量的第二样本语音数据，如图5中所示的语音波形)训练得到内容编码器、F₀预测器、解码器和说话人VQ码本，得到训练好的内容编码器、F₀预测器和解码器(也就是图3中的F₀预测器和解码器)、以及VQ码本(即说话人VQ码本，也就是图3中使用的VQ码本)。

具体的，说话人编码器用于提取说话人表示，内容编码器用于提取内容表示(如前文中的第二内容特征)，F₀预测器用于预测基频特征F₀，解码器用于将说话人表示、内容表示以及F₀映射到语音特征梅尔谱即音频特征。其中，说话人编码器可以在说话人识别任务上通过最小化广义端到端损失函数来进行预训练，用于对说话人音色进行建模。在该训练阶段，说话人编码器可以是预先训练好的，训练好的说话人编码器的编码参数固定(即模型参数固定)，用于从任意帧数的梅尔谱(即音频特征)提取单一的向量作为说话人表示(即音色特征)来进行音色的控制。

可选的，以训练数据集中的第k个样本语音数据为例，假设该语音数据的语音帧数为T帧，内容编码器先通过一个特征提取网络(可以称为h-net网络，对于该网络的结构本申请实施例不做限定，如可以是基于卷积网络的模型，用于对音频特征进行特征再提取)将帧数为T的梅尔谱X_k＝{x_k,1,x_k,2,...,x_k,T}进行2倍下采样得到连续特征Z_k＝{z_k,1,z_k,2,...,z_k,T}，也就是第二内容特征，然后再通过VQ码本将Z_k进行离散化得到声学单元

也就是第三内容特征，离散化的方式可以如下：

其中，e_i是VQ码本E＝{e₁，e₂，...，e_N}中第i个元素即语音单元内容特征。对于第二内容特征，可以根据其子内容特征与码本中各个元素之间的L2距离，将最小的L2距离对应的元素作为该子内容特征对应的声学单元，比如，对于Z_k中的第t个特征z_k，t，假设其与码本中第i_k，t个元素之间的L2距离最小，那么z_k，t对应的离散化的声学单元就是码本中的第i_k，t个元素即

通过上述处理，可以得到Z_k对应的

在该训练阶段，为了学到一个和语音内容相关的码本，可以通过最小化以下VQ损失函数(即第三训练损失L_VQ，图5中VQ+CPC损失部分的VQ损失)来获得信息瓶颈：

其中，sg(·)代表去梯度操作，

表示L2距离的平方，K表示第二样本语音数据的数量，T表示一个第二样本语音数据的语音帧的帧数。

同时，可以在

的上方加入一个自回归网络，如图6中所示的g-net网络，该自回归网络的输入是

可以通过对

进行特征提取得到对应的特征R_k＝{r_k，1，r_k，2，...，r_k，T/2}，其中，R_k中的元素r_k，t可以用于区分未来m步的正样本z_k，t+m和负样本集合Ω_k，t，m中的样本，即最小化以下CPC损失函数(即对比预测编码损失，图5中的CPC损失)：

其中，T′＝T/2-M，W_m(m＝1，2，...，M)是一个可训练的投射函数(也可以理解称为可以训练的模型参数)，负样本集合Ω_k，t，m是从同一条语音(第三样本语音)中随机采样得到。CPC损失使得离散的声学单元

捕捉和内容相关的局部信息，比如音素。

其中，对于每个第二样本语音数据而言，该第二样本语音数据对应的一个正样本z_k，t+m可以是

中的一个元素，负样本集合Ω_k，t，m中包括多个负样本，这些负样本可以是基于该第二样本语音数据对应的第三样本语音数据得到的

(为了与正样本区分，第三样本语音数据对应的

中的元素采样

表示)，对于每个正样本，例如对于正样本

如图6中g-net网络部分所示，可以基于该正样本的对应的之前时刻的特征r_k，t(

对应的自回归网络提取到的特征，是基于

和第二样本语音数据对应的

中

的前一个元素对应的隐层特征获取到的)，通过自回归网络预测得到

对应的预测结果即W_mr_k，t，可以通过训练使得

与

最大化，即正样本和其预测结果之间相似度越来越高，各负样本和正样本的预测结果之间相似度越来越低。

此外，为了降低声学单元

和说话人表示s_k表示之间的依赖性，可以计算并最小化

和s_k之间的互信息损失函数L_MI(第五训练损失，图5中的MI loss)。

F0预测器的输入是声学单元

(上采样2倍)和说话人表示s_k(重复T次)的拼接，学习目标是语音原始的F₀，即让F₀预测器输出的预测基频特征(如图5中所示的

)逼近F₀原始值(样本基频特征)，F₀原始值可以是采用现有的基频提取方式从样本语音数据的各语音帧中提取(图5中的F₀提取步骤)得到，如图5中所示的{p_k，1，p_k，2，...，p_k，T}。F₀预测器的训练损失函数L_F0-MS(即第四训练损失，图5中的L_F0-MSE loss)是F₀原始值和预测值之间的均方差。在VC系统训练过程中，解码器的输入是声学单元

说话人表示s_k和F₀原始值，学习目标是原始的梅尔谱X_k(样本音频特征)，所以解码器对应的重构损失函数L_REC(第二训练损失)可以是梅尔谱原始值和预测值之间的均方差。因此，最终VC系统训练阶段的损失函数(训练总损失L_VC)可以为上述各项损失函数的总和：

L_VC＝L_VQ+L_CPC+L_MI+L_F0-MSE+L_REC

阶段(b)：训练由嘴唇特征(即唇部特征)预测声学单元索引的Lip2Ind网络

该阶段是基于第一训练数据集对神经网络模型进行训练得到。其中，该训练数据集中包括大量的样本视频和各样本视频对应的第一样本语音数据，其中，第一样本语音数据和阶段(a)使用的第二样本语音数据可以相同，也可以不同。

如图6所示，给定一段有声视频对应语音流(第一样本语音数据)和图像流(样本视频)，对语音流进行处理得到梅尔谱X_k＝{x_k，1，x_k，2，...，x_k，T}(第一样本语音数据的音频特征)，对图像流的每一帧进行人脸检测得到脸部标记，并对嘴唇区域进行提取，从而得到唇语特征Y_k＝{y_k，1，y_k，2，...，y_k，T/4}(样本视频对应的唇语特征)，其中，作为一示例，假设X_k的帧率是100(即语音流的帧率)，Y_k的帧率(即图像流的帧率)为25。采用训练好的VC系统的内容编码器首先将X_k转换为离散的声学单元

其在训练好的VQ码本上对应的索引序列(即第一样本语音数据对应的样本索引序列)为{i_k，1，i_k，2，...，i_k，T/2}，该索引序列和语音内容高度相关。因此，可以将该索引序列作为语音模态的知识，并迁移到图像模态，从而可以从唇语特征预测内容信息。所以，本申请提供的方法可以训练一个Lip2Ind网络用于从Y_k预测索引序列。对于具有N个元素的VQ码本E，Lip2Ind网络的训练可以看成是一个N类的分类任务，其训练损失函数L_Trans(也就是第一训练损失，图6中的Transferloss，本实施例中采用的交叉熵损失)为：

其中，K表示第一训练数据集中训练样本的数量，即第一样本语音数据和样本视频的数量，T为第一样本语音数据的语音帧的帧数，

是Lip2Ind网络的输出，代表在时刻t处索引i_k，t的后验概率，即在预测得到的索引序列中t个索引值是VQ码本中第i_k，t个元素的概率。其中，在该阶段，内容编码器的模型参数是已经固定的，在阶段(a)训练好的，该阶段是用于训练Lip2Ind网络，也就是需要对Lip2Ind网络的模型参数通过训练进行不断更新优化，得到满足训练结束条件的Lip2Ind网络。

图6中示出了本申请实施例提供的一种可选的Lip2Ind网络的模型结构，如图6中所示，该Lip2Ind网络可以包括依次级联的采样倍数为2的3DTransposed Conv(转置3D卷积层)、ReNet-18(网络深度为18的残差网络)、Multi-scale temporal CNN(多尺度时卷积网络)、以及分类层(图6中的softmax层)，在训练阶段，分类层的输出是输入到Lip2Ind网络的唇语特征对应的预测索引序列中各个位置的索引值对应的概率向量，基于样本索引序列，可以计算得到上述交叉熵损失，如图6中所示的样本索引序列为{...，i_k，t-1，i_k，t，i_k，t+1，i_k，t+2，...}，索引值i_k，t表示该序列中第t个位置的索引值是i_k，t，通过Lip2Ind网络可以得到输入的唇语特征对应的预测索引序列中每个位置出现VQ码本中各个元素对应的索引值的概率，可以将预测索引序列中每个位置出现索引真实值(也就是样本索引序列中对应位置的索引值)的概率代入到上述损失函数计算公式中，得到对应的训练损失。

需要说明的是，图6中所示的自回归网络即g-net网络部分在阶段(b)部分是不使用的，该网络是应用在阶段(a)的训练过程中。在阶段(b)，对于每个第一样本语音数据，得到该样本语音数据的音频特征即图6中所示的梅尔谱X_k＝{x_k，1，x_k，2，...，x_k，T}之后，将该特征输入至在阶段(a)训练好的内容编码器中，通过内容编码器的h-net网络对梅尔谱X_k＝{x_k，1，x_k，2，...，x_k，T}进行特征提取，如进行采样倍数为2的下采样处理，得到该样本语音数据对应的内容特征即图6中所示的Z_k＝{...，z_k，t-1，z_k，t，z_k，t+1，z_k，t+2，...}，也就是Z_k＝{z_k，1，z_k，2，...，z_k，T/2}，之后，基于已经训练好的VQ码本E，通过计算Z_k中的各个元素与VQ码本中各元素的L₂距离，将Z_k转换为

根据

中各个元素在VQ码本E中的索引值得到该样本语音数据对应的样本索引序列，即图6中所示的索引序列。在训练Lip2Ind网络时，各该样本语音数据对应的样本索引序列即为标签数据。

在使用阶段，Lip2Ind网络的分类层的输出可以待处理视频中目标对象对应的目标索引序列(如图6中所示的

也就是每个位置对应的概率向量中最大概率对应的索引序列，其中，

表示预测索引序列中第t个索引值为

需要说明的是，图6中所示的Lip2Ind网络的模型结构只是一种可选方案，该网络的模型结构是可以根据实际需求进行调整和配置的，可以采用但不限于图6中所示的结构。

阶段(c)：构建基于VC的多说话人LTS系统

在经过阶段(a)和阶段(b)的训练得到满足训练结束条件的VQ码本、F₀预测器、解码器和Lip2Ind网络之后，可以基于训练好的VQ码本和Lip2Ind网络构建得到如图3所示的语音合成网络即上述LTS系统。具体的，训练好的Lip2Ind网络可以准确预测语音中的内容信息，因此可以将Lip2Ind网络替换VC系统中的内容编码器，并与训练好的VQ码本、说话人编码器，F0预测器以及解码器进行拼接得到多说话人LTS系统，如图3所示。在得到图3所示的语音合成网络之后，则可以将该语音合成网络应用于无声视频对应的语音数据的合成中，得到高质量的合成语音即目标语音数据。

本申请实施例提出的该语音合成网络，提出通过VC系统中基于VQ码本和CPC的内容编码器提取离散的声学单元，作为口语内容表示，并利用大量的多说话人视频数据训练从嘴唇运动轨迹(即唇语特征)到声学单元索引的预测模型即Lip2Ind网络，进一步地，可以将Lip2Ind网络替换VC系统中的内容编码器，构建基于VC的多说话人唇语到语音的合成系统LTS，该系统利用说话人编码器可以提取有效的说话人表示进行灵活的音色控制，可以提供清晰的唇语到语音的映射过程，同时充分利用高性能VC系统的优势生成高质量语音，提升生成语音的自然度和可懂度，同时可以灵活控制音色。

不同于现有缺乏模型可解释性的网络模型，本申请可以先准确地将唇语特征映射到和音素相关的声学单元，再进行语音内容的重构，提供了更加清晰的映射过程。同时，本申请提供的多说话人LTS系统还利用说话人编码器提取有效的说话人表示用于捕捉目标说话人的音色信息，从而达到灵活控制音色的目的，同时采用F₀预测器得到变化逼真的基频特征F₀用于有效地控制生成语音的语调变化，从而使得生成的语音具有高自然度，高可懂度和高说话人相似度。本申请实施例提供的多说话人LTS系统不仅可以应用于有限词汇量的简单场景(如室内场景)，也可以应用于开放词汇量的复杂场景(如室外场景)，都可以合成出具有更加丰富内容的语音数据，具有更好的鲁棒性。

基于与本申请实施例提供的方法相同的原理，本申请实施例还提供了一种语音合成装置，如图7中所示，该语音合成装置100可以包括视频获取处理模块110、唇语特征提取模块120、内容特征获取模块130、音色特征获取模块140和语音合成模块150。

视频获取模块110，用于获取待处理视频，待处理视频中包含至少一个目标对象；

唇语特征提取模块120，用于对待处理视频中每个目标对象对应的唇部图像序列分别进行特征提取，得到每个目标对象的唇语特征；

内容特征获取模块130，用于对于每个目标对象，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征；其中，第一语音内容预测网络是基于第一训练数据集训练得到的，第一训练数据集中包括多个样本视频以及每个样本视频对应的第一样本语音数据；

音色特征获取模块140，用于获取每个目标对象的参考语音数据，并提取每个目标对象的参考语音数据的音色特征；

语音合成模块150，用于对于每个目标对象，根据该目标对象的语音内容特征和音色特征，通过音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于待处理视频的目标语音数据。

基于获取的音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，其中，第一内容特征包括至少两个语音帧对应的至少两个子内容特征；

获取第二训练数据集以及初始的待训练VQ码本；

根据第二训练损失和第三训练损失，确定训练总损失；

第二训练模块还用于：

其中，训练总损失还包括第四训练损失。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述及有益效果具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

图8示出了本申请实施例所适用的一种电子设备的结构示意图，如图8所示，该电子设备4000包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003中存储有执行本申请实施例所提供的方法的计算机程序，并可以由处理器4001来控制执行。处理器4001在执行存储器4003中存储的上述计算机程序时，可以实现本申请前述任一方法实施例所示的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现本申请前述任一方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，该计算机产品中包括计算机程序，计算机程序被处理器执行时可实现本申请前述任一方法实施例的步骤及相应内容。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对于每个所述目标对象，所述根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，包括：

根据该目标对象的语音内容特征、音色特征和基频特征，通过调用音频特征预测模型预测得到该目标对象的音频特征，其中，所述音频特征预测网络包括所述基频预测模型和所述音频特征预测模型。

3.根据权利要求1或2所述的方法，其特征在于，对于每个所述目标对象，所述基于该目标对象的唇语特征，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征，包括：

基于该目标对象的唇语特征，通过所述第一语音内容预测网络预测得到该目标对象对应的目标索引序列，其中，所述目标索引序列中的各目标索引值是说话人向量量化VQ码本中语音单元内容特征的索引，其中，所述说话人VQ码本是基于第二训练数据集训练得到的，其中，所述第二训练数据集中包括多个第二样本语音数据；所述第一语音内容预测网络是基于所述第一训练数据集和所述说话人VQ码本训练得到的；

根据所述目标索引序列和所述说话人VQ码本，得到所述各目标索引值对应的语音单元内容特征；

基于所述各目标索引值对应的语音单元内容特征，得到该目标对象的语音内容特征。

4.根据权利要求3所述的方法，其特征在于，所述第一语音内容预测网络是通过以下方式对第一神经网络模型进行训练得到的：

对于每个所述样本视频，对该样本视频中样本对象对应的唇部图像序列进行特征提取，得到该样本视频对应的唇语特征；

对于每个所述第一样本语音数据，基于该第一样本语音数据和所述说话人VQ码本，获取该第一样本语音数据对应的样本索引序列；

基于各所述样本视频对应的唇语特征和样本索引序列，对第一神经网络模型重复进行第一训练操作，直至所述第一神经网络模型对应的第一训练损失满足第一训练结束条件，将满足所述第一训练结束条件时的第一神经网络模型作为所述第一语音内容预测网络，其中，所述第一训练操作包括：

对于每个所述样本视频，基于该样本视频对应的唇语特征，通过第一神经网络模型预测得到该样本视频对应的预测索引序列；

基于各所述样本视频对应的样本索引序列和预测索引序列之间的差异，确定第一训练损失；

若所述第一训练损失不满足第一训练结束条件，则对所述第一神经网络模型的模型参数进行调整。

5.根据权利要求4所述的方法，其特征在于，对于每个所述第一样本语音数据，所述基于该第一样本语音数据和所述说话人VQ码本，获取该第一样本语音数据对应的样本索引序列，包括：

根据该第一样本语音数据的第一内容特征和所述说话人VQ码本，得到该第一样本语音数据对应的样本索引序列。

6.根据权利要求5所述的方法，其特征在于，所述说话人VQ码本包括多个语音单元内容特征；

对于每个所述第一样本语音数据，所述获取该第一样本语音数据的音频特征，并基于该音频特征，通过调用第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，包括：

获取所述至少两个语音帧中的音频特征；

基于所述音频特征，通过调用所述第二语音内容预测网络提取得到该第一样本语音数据的第一内容特征，其中，所述第一内容特征包括所述至少两个语音帧对应的至少两个子内容特征；

对于每个所述第一样本语音数据，所述根据该第一样本语音数据的第一内容特征和所述说话人VQ码本，得到该样本语音数据对应的样本索引序列，包括：

7.根据权利要求5所述的方法，其特征在于，所述音频特征预测网络、第二语音内容预测网络和所述说话人VQ码本是通过以下方式训练得到的：

获取所述第二训练数据集以及初始的待训练VQ码本；

获取所述第二训练数据集中各第二样本语音数据的样本音频特征；

对于每个所述第二样本语音数据，根据该第二样本语音数据的样本音频特征，提取该第二样本语音数据对应的音色特征；

基于各所述第二样本语音数据的样本音频特征和音色特征，对第二神经网络模型、第三神经网络模型和所述待训练VQ码本进行重复第二训练操作，直至训练总损失满足第二训练结束条件，将满足所述第二训练结束条件时的第二神经网络模型、第三神经网络模型和待训练VQ码本分别作为所述第二语音内容预测网络、所述音频特征预测网络和所述说话人VQ码本：所述第二训练操作包括：

对于每个所述第二样本语音数据，基于该第二样本语音数据的样本音频特征，通过第二神经网络模型预测得到对应的第二内容特征，并基于所述待训练VQ码本确定与所述第二内容特征匹配的第三内容特征；

对于每个所述第二样本语音数据，根据该第二样本语音数据对应的音色特征和第三内容特征，通过第三神经网络模型预测得到该第二样本语音数据对应的预测音频特征；

根据各所述第二样本语音数据对应的预测音频特征和样本音频特征，确定第二训练损失；

根据各所述第二样本语音数据对应的第二内容特征和第三内容特征，确定第三训练损失；

根据所述第二训练损失和第三训练损失，确定训练总损失；

若所述训练总损失不满足第二训练结束条件，则对所述第二神经网络模型和所述第三神经网络模型的模型参数、以及所述待训练VQ码本中的语音单元内容特征进行调整。

8.根据权利要求7所述的方法，其特征在于，所述第三神经网络模型包括第一子网络模型和第二子网络模型，其中，对于每个所述第二样本语音数据，所述根据该第二样本语音数据对应的音色特征和第三内容特征，通过第三神经网络模型预测得到该第二样本语音数据对应的预测音频特征，包括：

所述方法还包括：

对于每个所述第二样本语音数据，根据该第二样本语音数据，获取该第二样本语音数据对应的样本基频特征；

根据各所述第二样本语音数据对应的样本基频特征和预测基频特征，确定第四训练损失；

其中，所述训练总损失还包括所述第四训练损失。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

确定各所述第二样本语音数据对应的音色特征和第三内容特征之间的关联程度；

基于所述关联程度，确定第五训练损失，其中，所述第五训练损失与所述关联程度成正相关；

其中，所述训练总损失还包所述第五训练损失。

10.根据权利要求7所述的方法，其特征在于，所述第二训练数据集中还包括每个所述第二样本语音数据对应的第三样本语音数据，所述第二样本语音数据和所述第二样本数据对应的第三样本语音数据是同一个说话人的语音数据；

所述方法还包括：

对于每个所述第三样本语音数据，获取该第三样本语音数据的样本音频特征，并根据该样本音频特征，通过所述第二神经网络模型和所述待训练VQ码本确定该第三样本语音数据对应的第四内容特征；

对于每个所述第二样本语音数据，将该第二样本语音数据对应的第三内容特征作为正样本来源，将该第二样本语音数据对应的第三样本语音数据所对应的第四内容特征作为负样本来源，确定该第二样本语音数据对应的比对预测编码损失；

其中，所述训练总损失还包括各所述第二训练样本对应的比对预测编码损失。

11.一种语音合成装置，其特征在于，所述装置包括：

视频获取模块，用于获取待处理视频，所述待处理视频中包含至少一个目标对象；

唇语特征提取模块，用于对所述待处理视频中每个所述目标对象对应的唇部图像序列分别进行特征提取，得到每个所述目标对象的唇语特征；

内容特征获取模块，用于对于每个所述目标对象，通过调用第一语音内容预测网络预测得到该目标对象的语音内容特征；其中，所述第一语音内容预测网络是基于第一训练数据集训练得到的，所述第一训练数据集中包括多个样本视频以及每个样本视频对应的第一样本语音数据；

音色特征获取模块，用于获取每个所述目标对象的参考语音数据，并提取每个所述目标对象的参考语音数据的音色特征；

语音合成模块，用于对于每个所述目标对象，根据该目标对象的语音内容特征和音色特征，通过调用音频特征预测网络预测得到该目标对象的音频特征，根据该目标对象的音频特征，得到该目标对象对应于所述待处理视频的目标语音数据。

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。

14.一种计算机程序产品，其特征在于，所述计算机产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。