CN108962216B

CN108962216B - 一种说话视频的处理方法及装置、设备和存储介质

Info

Publication number: CN108962216B
Application number: CN201810601813.4A
Authority: CN
Inventors: 周航; 刘宇; 刘子纬; 罗平; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2021-02-02
Anticipated expiration: 2038-06-12
Also published as: CN108962216A

Abstract

本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质，其中，所述方法包括：获取包含图像的第一文件和包含音频的第二文件；将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；输出所述合成的说话视频。

Description

一种说话视频的处理方法及装置、设备和存储介质

技术领域

本发明实施例涉及计算机视觉通信领域，涉及但不限于一种说话视频的处理方法及装置、设备和存储介质。

背景技术

说话视频生成，是指根据一张输入人脸图片和一段音频，生成与这段音频相同步的该人物说话的视频。说话人脸生成本身就是计算机视觉和图形学中的重要问题，此外还有多媒体用户交互，伪造视频等多方面的实际应用。

现有技术中说话视频生成方法大多依赖计算机图形学对特定的说话者建模，从而需要一个特定人物的视频进行训练而无法做到只针对一张图像进行视频生成。近期使用深度学习的方法则直接将图像和音频进行编码并联合解码进行视频生成，可以达到对应的目的。但缺乏对图像和音频特征编码明确的指导，导致生成的视频的嘴型或图像质量受到影响，不能够为用户显示质量较佳的说话视频。

发明内容

有鉴于此，本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种说话视频的处理方法，所述方法包括：

获取包含图像的第一文件和包含音频的第二文件；

将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；

输出所述合成的说话视频。

在本发明实施例中，所述第一文件至少包括以下一种：图像、视频；所述第二文件至少包括以下一种：音频、有声视频。

在本发明实施例中，所述说话视频合成模型的训练过程，包括：

获取图像与音频匹配的训练样本；

确定所述训练样本的身份子空间和所述训练样本的话语子空间；

确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征；

利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息，得到所述解离后的身份子空间；

利用人脸身份特征对所述训练样本的话语子空间解离人物身份信息，得到所述解离后的话语子空间。

在本发明实施例中，所述确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征，包括：

针对所述训练样本的每一帧；

将所述帧图像编码到所述训练样本的身份子空间，得到人脸身份特征向量；

将所述帧图像编码到所述训练样本的话语子空间，得到话语特征向量；

将所述帧图像对应的语音信息，编码到所述训练样本的话语子空间，得到音频特征向量。

在本发明实施例中，所述利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息，得到所述解离后的身份子空间，包括：通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间；

所述利用人脸身份特征对所述训练样本的话语子空间解离人物身份信息，得到所述解离后的话语子空间，包括：通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息，得到所述解离后的话语子空间。

在本发明实施例中，所述方法还包括：

将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置。

在本发明实施例中，所述将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置，包括：

利用同一个第一分类器将所述音频特征向量和所述话语特征向量映射到预设空间；

将处于所述预设空间中的所述音频特征向量和处于所述预设空间中的所述话语特征向量映射到所述预设空间中的预设位置。

在本发明实施例中，所述确定所述训练样本的身份子空间和所述训练样本的话语子空间，包括：

根据所述训练样本中包含的人物身份信息，确定所述训练样本的人物身份标签；

根据所述训练样本中包含的语音信息，确定所述训练样本的唇语识别标签；

根据获取的所述训练样本的人物身份标签训练所述训练样本的身份子空间；其中，所述人物身份标签用于识别所述人物身份信息中人物的身份；

根据获取的所述训练样本的唇语识别标签训练所述训练样本的话语子空间；其中，所述唇语识别标签用于识别所述语音信息对应的唇部运动。

在本发明实施例中，所述通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间，包括：

通过所述鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到第一身份子空间；

通过第二分类器将所述第一身份子空间中包含的剩余信息映射到所述训练样本的话语子空间，得到映射结果；

如果所述映射结果表明所述剩余信息中不包含语音信息，将所述第一身份子空间确定为所述解离后的身份子空间；

如果所述映射结果表明所述剩余信息中包含语音信息，通过所述鉴别器从所述第一的身份子空间中去除所述剩余信息中包含的语音信息，直到得到不包含语音信息的第二身份子空间；将所述第二身份子空间确定为所述解离后的身份子空间。

在本发明实施例中，所述通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息，得到所述解离后的话语子空间，包括：

通过所述通过鉴别器利用所述人脸身份特征向量从所述训练样本的身份子空间中去除人物身份信息，得到第三话语子空间；

通过第二分类器将所述第三话语子空间中包含的剩余信息映射到所述训练样本的身份子空间，得到映射结果；

如果所述映射结果表明所述剩余信息中不包含人脸身份信息，将所述第三话语子空间确定为所述解离后的话语子空间；

如果所述映射结果表明所述剩余信息中包含人脸身份信息，通过所述鉴别器从所述第三话语子空间中去除所述剩余信息中包含的人脸身份信息，直到得到不包含人脸身份信息的第四话语子空间；将所述第四话语子空间确定为所述解离后的话语子空间。

在本发明实施例中，在所述将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置之后，所述方法还包括：

通过第三分类器对所述音频特征向量对应的训练样本和所述话语特征向量对应的训练样本进行分类，得到分类结果；

根据所述分类结果，对第三分类器进行对抗训练；

当所述分类结果不为空时，继续对所述第三分类器进行对抗训练，直到所述分类结果为空，结束对所述第三分类器的对抗训练。

在本发明实施例中，所述将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，包括：

将所述第一文件输入解离后的身份子空间，获取所述第一文件对应的人脸身份特征向量；

将所述第二文件输入解离后的话语子空间，获取所述第二文件对应的音频特征向量；

根据所述人脸身份特征向量和所述音频特征向量合成预设视频，对所述预设视频进行对抗训练，得到合成的说话视频。

本发明实施例提供一种说话视频的处理装置，所述装置包括：第一获取模块、第一处理模块和第一输出模块，其中：

所述第一获取模块，用于获取包含图像的第一文件和包含音频的第二文件；

所述第一处理模块，用于将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；

所述第一输出模块，用于输出所述合成的说话视频。

在本发明实施例中，所述装置还包括第一训练模块，用于训练所述说话视频合成模型，所述第一训练模块包括：

第一获取单元，用于获取图像与音频匹配的训练样本；

第一确定单元，用于确定所述训练样本的身份子空间和所述训练样本的话语子空间；

第二确定单元，用于确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征；

第一解离单元，用于利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息，得到所述解离后的身份子空间；

第二解离单元，用于利用人脸身份特征对所述训练样本的话语子空间解离人物身份信息，得到所述解离后的话语子空间。

在本发明实施例中，所述第二确定单元包括：

第一编码子单元，用于针对所述训练样本的每一帧；将所述帧图像编码到所述训练样本的身份子空间，得到人脸身份特征向量；

第二编码子单元，用于将所述帧图像编码到所述训练样本的话语子空间，得到话语特征向量；

第三编码子单元，用于将所述帧图像对应的语音信息，编码到所述训练样本的话语子空间，得到音频特征向量。

在本发明实施例中，所述第一解离单元，用于通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间；

所述第二解离单元，用于通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息，得到所述解离后的话语子空间。

在本发明实施例中，所述第一训练模块，还包括：

映射单元，用于将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置。

在本发明实施例中，所述映射单元，包括：

第三映射子单元，用于利用同一个第一分类器将所述音频特征向量和所述话语特征向量映射到预设空间；

第四映射子单元，用于将处于所述预设空间中的所述音频特征向量和处于所述预设空间中的所述话语特征向量映射到所述预设空间中的预设位置。

在本发明实施例中，所述第一训练模块，还包括：

第三确定单元，用于根据所述训练样本中包含的人物身份信息，确定所述训练样本的人物身份标签；

第四确定单元，用于根据所述训练样本中包含的语音信息，确定所述训练样本的唇语识别标签；

第一训练单元，用于根据获取的所述训练样本的人物身份标签训练所述训练样本的身份子空间；其中，所述人物身份标签用于识别所述人物身份信息中人物的身份；

第二训练单元，用于根据获取的所述训练样本的唇语识别标签训练所述训练样本的话语子空间；其中，所述唇语识别标签用于识别所述语音信息对应的唇部运动。

在本发明实施例中，所述第一解离单元，包括：

第一去除子单元，用于通过所述鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到第一身份子空间；

第一映射子单元，用于通过第二分类器将所述第一身份子空间中包含的剩余信息映射到所述训练样本的话语子空间，得到映射结果；

第一确定子单元，用于如果所述映射结果表明所述剩余信息中不包含语音信息，将所述第一身份子空间确定为所述解离后的身份子空间；

第二去除子单元，用于如果所述映射结果表明所述剩余信息中包含语音信息，通过所述鉴别器从所述第一身份子空间中去除所述剩余信息中包含的语音信息，直到得到不包含语音信息的第二身份子空间；

第二确定子单元，用于将所述第二身份子空间确定为所述解离后的身份子空间。

在本发明实施例中，所述第二解离单元，包括：

第三去除子单元，用于通过所述通过鉴别器利用所述人脸身份特征向量从所述训练样本的身份子空间中去除人物身份信息，得到第三话语子空间；

第二映射子单元，用于通过第二分类器将所述第三话语子空间中包含的剩余信息映射到所述训练样本的身份子空间，得到映射结果；

第三确定子单元，用于如果所述映射结果表明所述剩余信息中不包含人脸身份信息，将所述第三话语子空间确定为所述解离后的话语子空间；

第四去除子单元，用于如果所述映射结果表明所述剩余信息中包含人脸身份信息，通过所述鉴别器从所述第三话语子空间中去除所述剩余信息中包含的人脸身份信息，直到得到不包含人脸身份信息的第四话语子空间；

第四确定子单元，用于将所述第四话语子空间确定为所述解离后的话语子空间。

在本发明实施例中，所述映射单元，还包括：

分类子单元，用于通过第三分类器对所述音频特征向量对应的训练样本和所述话语特征向量对应的训练样本进行分类，得到分类结果；

第一训练子单元，用于根据所述分类结果，对第三分类器进行对抗训练；

第二训练子单元，用于当所述分类结果不为空时，继续对所述第三分类器进行对抗训练，直到所述分类结果为空，结束对所述第三分类器的对抗训练。

在本发明实施例中，所述第一处理模块，包括：

第二获取单元，用于将所述第一文件输入解离后的身份子空间，获取所述第一文件对应的人脸身份特征向量；

第三获取单元，用于将所述第二文件输入解离后的话语子空间，获取所述第二文件对应的音频特征向量；

第一训练单元，用于根据所述人脸身份特征向量和所述音频特征向量合成预设视频，对所述预设视频进行对抗训练，得到合成的说话视频。

本发明实施例提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本发明实施例提供的说话视频的处理方法中的步骤。

本发明实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现本发明实施例提供的说话视频的处理方法中的步骤。

本发明实施例提供一种说话视频的处理方法及装置、设备和存储介质，其中，首先，获取包含图像的第一文件和包含音频的第二文件；然后，将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；最后，输出所述合成的说话视频；如此，解决了现有技术方案中，当基于图像和音频合成说话视频时，由于缺乏对图像和音频特征编码明确的指导，导致不能够为用户显示视频质量较佳的说话视频的问题，通过对训练样本进行解离得到解离后的身份子空间和解离后的话语子空间，形成说话视频合成模块，从而能够对任意照片和音频都可生成说话视频，并为用户显示音频和画面完美匹配的说话视频。

附图说明

图1A为本发明实施例网络架构的组成结构示意图；

图1B为本发明实施例说话视频的处理方法的实现流程示意图；

图1C为本发明实施例实现说话视频的处理方法的网络架构图；

图1D为本发明实施例又一实现说话视频的处理方法的网络架构图；

图2为本发明实施例说话视频的处理方法的又一实现流程示意图；

图3为本发明实施例训练说话视频合成模型的框架图；

图4为本发明实施例将音频特征向量和话语特征向量设置在相同点的示例图；

图5为本发明实施例合成说话视频的应用场景图；

图6A为本发明实施例合成说话视频与相关技术合成说话视频的对比图；

图6B为本发明实施例基于不同形式的监督合成说话视频的应用场景图；

图7为本发明实施例生成说话视频装置的组成结构示意图；

图8为本发明实施例计算机设备的组成结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例先提供一种网络架构，图1A为本发明实施例网络架构的组成结构示意图，如图1A所示，该网络架构包括两个或多个计算机设备11至1N和服务器30，其中计算机设备11至1N与服务器30之间通过网络21进行交互。计算机设备在实现的过程中可以为各种类型的具有信息处理能力的计算机设备，例如所述计算机设备可以包括手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、电视机等。

本实施例提出一种说话视频的处理方法，能够有效解决利用图片和音频合成说话视频时，生成的视频质量不佳的问题，该方法应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

本发明实施例提供一种说话视频的处理方法，图1B为本发明实施例说话视频的处理方法的实现流程示意图，如图1B所示，所述方法包括以下步骤：

步骤S101，获取包含图像的第一文件和包含音频的第二文件。

这里，所述第一文件至少包括以下一种：图像、有声视频或无声视频；所述第二文件至少包括以下一种：音频、有声视频。所述步骤S101可以是由计算机设备实现的，进一步地，所述计算机设备可以是智能终端，例如可以是移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端设备，还可以是台式计算机等不便移动的智能终端设备。所述计算机设备用于进行生成说话视频。

在本实施例中，所述第一文件可以是外观复杂的图像，还可以是外观简单的图像。

步骤S102，将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间。

这里，所述步骤S102可以是由计算机设备实现的。所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间。所述解离后的身份子空间是对训练样本解离语音信息得到的；所述解离后的话语子空间是对所述训练样本解离人物身份信息得到的。

在所述解离后的身份子空间中，不包含语音信息，仅包含人物身份信息；在所述解离后的话语子空间中，不包含人物身份信息，仅包含语音信息；因此，从解离后的话语子空间中和解离后的身份子空间中各取一个特征向量并连接，再通过解码器解码成新视频的一帧，即可得到合成的说话视频，既简单又能保证合成的说话视频的视频质量。

步骤S103，输出所述合成的说话视频。

这里，所述步骤S103可以是由计算机设备实现的。

在实际实现过程中，所述计算机设备输出所述合成的说话视频可以是在自身显示屏上输出所述合成的说话视频，还可以是所述计算机设备将所述合成的说话视频输出至其他设备，也就是发送给其他设备，例如所述其他设备可以是用户的智能终端上。

在本发明实施例提供的说话视频的处理方法中，其中，首先，获取包含图像的第一文件和包含音频的第二文件；然后，将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；最后，输出所述合成的说话视频；如此，通过对训练样本进行解离得到解离后的身份子空间和解离后的话语子空间，形成说话视频合成模块，从而实现了对任意照片和音频都可生成说话视频，提高了生成图像质量和人脸身份信息的保持，并保证了合成的视频中语音和画面的匹配度。

在实现的过程中，经过训练的说话视频合成模型可以在计算机设备的本地，也可以是在服务器端。

当经过训练的说话视频合成模型在计算机设备本地时，可以是计算机设备安装客户端的时候，即安装了经过训练的说话视频合成模型，这样，参见图1C所示，计算机设备通过步骤S101获取第一文件和第二文件，然后通过步骤S102获取合成的说话视频，最后通过步骤S103合成的说话视频。从以上过程可以看出，计算机设备在安装完客户端之后，上述的步骤S101至步骤S103都在计算机设备本地执行，最后，计算机设备将得到合成的说话视频输出给用户。

在其他实施例中，经过训练的说话视频合成模型也可以位于服务器端，参见图1D所示，这样计算机设备将第一文件和第二文件发送给服务器，这样服务器接收计算机设备发送的第一文件和第二文件，这样服务器实现了步骤S101，换句话说，如果上述的方法是在服务器端实现，那么步骤S101，包括：服务器接收计算机设备发送的第一文件和第二文件，即服务器确定待合成说话视频的第一文件和第二文件，然后服务器通过步骤S102获得合成的说话视频，最后通过步骤S103获得输出的合成的说话视频；从以上过程可以看出，上述的步骤S101至步骤S103都在服务器端执行，最后服务器还可以将合成的说话视频发送给计算机设备，这样计算机设备接收到合成的说话视频后，输出合成的说话视频给用户。本实施例中，计算机设备在安装完客户端之后，用户上传用户的第一文件和第二文件，以及接收服务器发送的第一文件和第二文件，并合成的说话视频输出给用户。

在其他实施例中，所述步骤S102，即“将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频”，可以通过以下步骤实现：

步骤S121，将所述第一文件输入解离后的身份子空间，获取所述第一文件对应的人脸身份特征向量。

步骤S122，将所述第二文件输入解离后的话语子空间，获取所述第二文件对应的音频特征向量。

步骤S123，根据所述人脸身份特征向量和所述音频特征向量合成预设视频，对所述预设视频进行对抗训练，得到合成的说话视频。

在本实施例中，将第一文件和第二文件合成说话视频时，将第一文件和第二文件输入对于输入的说话视频合成模型之后，还要再进行对抗训练，以使最终得到的说话视频声音和画面是完美匹配的。

本发明实施例提供一种说话视频的处理方法，图2为本发明实施例说话视频的处理方法的又一实现流程示意图，如图2所示，所述方法包括以下步骤：

步骤S201，获取图像与音频匹配的训练样本。

这里，所述训练样本包括相匹配的音频和图像，比如，一个人同一时间，说话的动作，和说话的声音。

步骤S202，针对所述训练样本的每一帧。

这里，针对所述训练样本的每一帧确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征。然后，利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息，得到所述解离后的身份子空间；利用人脸身份特征对所述训练样本的话语子空间解离人物身份信息，得到所述解离后的话语子空间；从而使得训练好的说话视频合成模型中包含的两个子空间都是完全解离的，当需要合成说话视频时，从这两个子空间中任意选择两个特征向量即可合成声音与画面完美匹配的说话视频。

步骤S203，将所述帧图像编码到所述训练样本的身份子空间，得到人脸身份特征向量。

这里，所述人脸身份特征向量是人脸身份特征的向量。在本实施例中，根据获取的所述训练样本的人物身份标签训练所述训练样本的身份子空间；其中，所述人物身份标签用于识别所述人物身份信息中人物的身份。

步骤S204，将所述帧图像编码到所述训练样本的话语子空间，得到话语特征向量。

这里，所述话语特征向量是话语特征的向量。

步骤S205，将所述帧图像对应的语音信息，编码到所述训练样本的话语子空间，得到音频特征向量。

这里，所述音频特征向量是音频特征的向量。在本实施例中，根据获取的所述训练样本的唇语识别标签训练所述训练样本的话语子空间；其中，所述唇语识别标签用于识别所述语音信息对应的唇部运动。

步骤S206，将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置。

这里，所述预设位置可以是一个空间点，比如，所述音频特征向量和所述话语特征向量在同一个空间点，即所述音频特征向量和所述话语特征向量相等，那么当合成说话视频时，就可以从话语子空间和身份子空间中随意选择两个特征，即可完美的合成说话视频，保证了合成的说话视频的流畅度以及视频的质量。

所述步骤S206，可以通过以下步骤实现：

步骤S2061，利用同一个第一分类器将所述音频特征向量和所述话语特征向量映射到预设空间。

这里，所述第一分类器用于使所述音频特征向量和所述话语特征向量处于预设空间。

步骤S2062，将处于所述预设空间中的所述音频特征向量和处于所述预设空间中的所述话语特征向量映射到所述预设空间中的预设位置。

这里，所述步骤S2062可以理解为，将所述处于预设空间中的所述音频特征向量和所述预设空间中的所述话语特征向量映射到所述预设空间中的同一个点。

步骤S207，通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间。

步骤S208，通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息，得到所述解离后的话语子空间。

在本发明实施例中，通过鉴别器将训练样本的话语子空间和训练样本的身份子空间进行完全解离，得到对于任意的图片和视频，都能够将二者合成声音和画面完美匹配的说话视频，而且提高了合成的说话视频的质量。

在其他实施例中，在所述步骤S206，即“将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置”之后，所述方法还包括以下步骤：

步骤S261，通过第三分类器对所述音频特征向量对应的训练样本和所述话语特征向量对应的训练样本进行分类，得到分类结果。

这里，如果所述训练样本包括相匹配的音频和视频，那么所述音频特征向量对应的训练样本和所述话语特征向量对应的训练样本可以理解为，音频特征向量对应的训练样本中的音频，所述话语特征向量对应的训练样本中的视频。也就是说，当所述分类结果为空时，表明第三分类器不能够区分出音频特征向量对应的训练样本中的音频和所述话语特征向量对应的训练样本视频，即说明所述音频特征向量与所述话语特征向量映射到预设位置。

当分类结果不为空时表明，第三分类器能够区分出音频特征向量对应的训练样本中的音频和所述话语特征向量对应的训练样本视频，那么说明音频特征向量和话语特征向量没有处于预设位置，即音频特征向量和话语特征向量没有在预设空间中的同一个点处，那么就根据所述分类结果，对第三分类器和编码器进行对抗训练；其中，所述编码器用于对所述样本文件进行编码。在对抗训练的过程中，通过编码器把音频特征向量和话语特征向量编码到预设空间中的同一个位置，以使第三分类器区分不出音频特征向量对应的音频和话语特征向量对应的视频。

步骤S262，根据所述分类结果，对第三分类器进行对抗训练。

这里，如果分类结果编码，第三分类器不能区分音频特征向量对应的音频和话语特征向量对应的视频，那么说明音频特征向量和话语特征向量在同一个位置。

步骤S263，当所述分类结果不为空时，继续对所述第三分类器进行对抗训练，直到所述分类结果为空，结束对所述第三分类器的对抗训练。

在本发明实施例中，通过用分类器对音频特征向量和话语特征向量的来源进行分类，然后根据分类结果，再对分类器进行对抗训练，保证了音频特征向量和话语特征向量在同一个点；所以在合成说话视频时，就可以从解离后的话语子空间和解离后的身份子空间中任意选择两个特征向量，从解离后的话语子空间中任意选择一个音频特征向量或话语特征向量，从解离后的身份子空间中任意选择一个人脸身份特征向量，即可合成说话视频，这样保证了对于任意的图片和音频都可以合成视频质量较佳的说话视频。

在其他实施例中，所述步骤S207，即“通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间”，可以通过以下步骤实现：

步骤S271，通过所述鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到第一身份子空间。

这里，所述第一身份子空间是对训练样本的身份子空间进行一次去除语音信息后得到的去除语音信息后的身份子空间。也就是说，如果在训练样本的身份子空间中进行一次去除语音信息后，并没有完全将语音信息去除第一身份子空间中，那么该身份子空间中可能还包含剩余的语音信息，在本实施例中，将还包含剩余的语音信息的身份子空间，确定为第一身份子空间。

步骤S272，通过第二分类器将所述第一身份子空间中包含的剩余信息映射到所述训练样本的话语子空间，得到映射结果。

这里，如果所述映射结果为空，表明所述解离的身份子空间中不包含语音信息，那么结束训练过程，将第一身份子空间确定为说话视频合成模型中需要的解离后的身份子空间。如果所述映射结果不为空，根据所述映射结果确定所述解离的人脸身份子空间中包含语音信息，那么就还需要继续从第一身份子空间中去除语音信息。

步骤S273，如果所述映射结果表明所述剩余信息中包含语音信息，通过所述鉴别器从所述第一身份子空间中去除所述剩余信息中包含的语音信息，直到得到不包含语音信息的第二身份子空间。

这里，所述步骤S273中，从第一身份子空间中二次或多次去除语音信息，直到第一身份子空间的剩余信息中不包含语音信息，即得到仅包含人物身份信息的第二身份子空间。

步骤S274，将所述第二身份子空间确定为所述解离后的身份子空间。

在本实施例中，对于经过一次去除语音信息的训练样本的身份子空间，进行映射，通过判断映射结果以确定该身份子空间是否完全解离，若不是，则继续去除其中的语音信息，直到将该身份子空间完全解离。

在其他实施例中，所述步骤S208，即“通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息，得到所述解离后的话语子空间”，可以通过以下步骤实现：

步骤S281，通过所述通过鉴别器利用所述人脸身份特征向量从所述训练样本的身份子空间中去除人物身份信息，得到第三话语子空间。

这里，所述第三话语子空间是对训练样本的话语子空间进行一次去除人物身份信息后得到的去除人物身份信息后的话语子空间。也就是说，如果在训练样本的话语子空间中进行一次去除人物身份信息后，并没有完全将人物身份信息去除第三话语子空间中，那么该话语子空间中可能还包含剩余的人物身份信息，在本实施例中，将还包含剩余的人物身份信息的话语子空间，确定为第三话语子空间。

步骤S282，通过第二分类器将所述第三话语子空间中包含的剩余信息映射到所述训练样本的身份子空间，得到映射结果。

这里，这里，如果所述映射结果为空，表明所述解离的话语子空间中不包含人脸身份信息，那么结束训练过程，将第三话语子空间确定为说话视频合成模型中需要的解离后的话语子空间。如果所述映射结果不为空，根据所述映射结果确定所述解离的话语身份子空间中包含人脸身份信息，那么就还需要继续从第三话语子空间中去除人脸身份信息。

步骤S283，如果所述映射结果表明所述剩余信息中包含人脸身份信息，通过所述鉴别器从所述第三话语子空间中去除所述剩余信息中包含的人脸身份信息，直到得到不包含人脸身份信息的第四话语子空间。

这里，所述步骤S283中，从第三话语子空间中二次或多次去除人脸身份信息，直到第三话语子空间的剩余信息中不包含人脸身份信息，即得到仅包含语音信息的第四话语子空间。

步骤S284，将所述第四话语子空间确定为所述解离后的话语子空间。

在本实施例中，对于经过一次去除人脸身份信息的训练样本的话语子空间，进行映射，通过判断映射结果以确定该话语子空间是否完全解离，若不是，则继续去除其中的人脸身份信息，直到将该话语子空间完全解离。

在相关技术中，从视频合成嘴唇运动或从视频中产生说话视频的工作长期以来一直是计算机视觉和图形社区关注的一个重要问题。然而，大多数音频合成工作需要大量的目标人员的视频素材进行训练、建模和采样。但是无法将音频信息转移到任意照片中。在相关技术中使用了与传统设置不同的设置，以基于音频的图像到图像的平移方式直接生成具有不同嘴唇运动的整个脸部图像。但该方法基于使用自编码器的数据驱动训练，导致结果模糊并且缺乏连续性。

视频语音识别的任务是使用视频和音频中的一个或两个作为输入的识别问题。只使用视觉信息的技术已经彻底完成。近年来，随着卷积神经网络(Convolutional NeuralNetworks，CNN)和递归神经网络(Recurrent Neural Networks，RNN)的使用，该领域发展迅速，可用于端到端词级、句级和多视角唇读。与此同时，通过建立大型单词级唇读数据集和大型句级多视图数据集，大大推动了该主题的探索。对于人脸与音频剪辑之间的对应关系，提出了许多方法来解决唇部运动与语音之间的说话视频同步问题。但缺乏对图像和音频特征编码明确的指导，导致生成的视频的嘴型与人脸图像发生不吻合的情况。

在本发明实施例中，提出了在说话视频合成模型中采用对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间，这是一种端到端的可训练网络，用于学习联合音频和视频嵌入和解离音频和视频特征向量以完成说说话视频生成，如图3所示，在图3中，31表示人脸身份信息，32表示语音信息，33表示音频特征向量，34表示话语特征向量，35表示语音信息对抗人脸身份信息，36表示语音信息对抗人脸身份信息；在训练说话视频合成模型期间，输入的训练样本是视频S_V301及其对应的音频S_a302对于输入中的一个视频帧S_V，编码器

将该帧视频的人物身份编码为训练样本的身份子空间304(PersonIDentity，PID)中的人脸身份特征向量

并且编码器

将该帧视频对应的话语信息编码为话语子空间307(Word-ID，WID)中的话语特征向量

该帧视频相应的音频S_a由编码器

编码为训练样本的话语子空间中的音频特征向量

将话语特征向量

音频特征向量

和话语特征向量

输入到对抗网络G 311中，得到合成的说话视频312，并将说话视频312再输入到对抗网路D_seq 313中，使合成的说话根据获取的所述训练样本的人物身份标签训练所述训练样本的身份子空间；其中，所述人物身份标签用于识别所述人物身份信息中人物的身份；根据获取的所述训练样本的唇语识别标签训练所述训练样本的话语子空间；其中，所述唇语识别标签用于识别所述语音信息对应的唇部运动。从这两个子空间中任意选择一对，均可以被组合以通过具有人脸身份特征的外观和音频特征的唇部运动信息的解码器G来合成和重构人脸。综上所述，对于说话人脸生成问题，除了重构帧丢失外，我们还引入人脸身份和唇语识别的监听，以便形成解离后话语子空间和解离后的身份子空间。

在本实施例中限制提取的音频特征向量接近其对应的话语特征向量，强制嵌入的特征共享相同的分布并限制

以便

可以实现；如此，保证了视频和音频是同步的，为了让音频和视频的特征向量映射到同一个点(即编码器编码的时候是将话语特征向量和音频特征向量编码到同一个点，以至于解码的时候也能够从同一个点解码)。所以解码的时候不论从音频还是从视频的特征向量解码都能够得到同样的一段视频。

当需要来自身份子空间的人物身份信息时，必须是人物身份信息不变的。音频和视频语音识别的任务主要依赖于嘴唇运动的视觉和音频音素的轨迹，这有助于通过将视频和音频映射到单词标签来创建一个有识别能力的子空间。所述有识别能力的子空间即话语子空间和身份子空间的实现，如图4所示，将音频特征向量集合401与话语特征向量集合402输入到进行对抗训练的分类器403和编码器404中，以进行训练，使得音频特征向量集合401与话语特征向量集合402处于同一个点。

本实施例通过对比损失函数，共享分类器和分布映射对抗损失函数来实现整个音频和视频的联合嵌入。在从话语子空间的编码器

中提取嵌入的特征向量之后，

获得话语特征向量集合

和音频特征向量集合

通常这些特征向量会被送入不同的分类器。在这里，为这两种特征向量采用同一个第一分类器，以使音频特征向量和话语特征向量共享彼此的分布，即二者在同一个点。

由于音频和视频映射在一起的问题与特征映射检索非常相似，特别是与嘴唇同步相同，我们采用对比损失函数作为基准。在训练期间，对于一批N个音频和视频匹配的训练样本，第m个和第n个样本用标记l_m＝n＝1表示(即在训练的过程中，采用的音频和视频的一帧，二者是匹配的)，而其他样本l_m≠n＝0。采用欧式准则测量

和

是欧氏准则

排序损失函数可以写为如公式(1)所示：

在公式(1)中，max(*)表示对函数取最大值。margin表示一个超参数，即不匹配的音频和视频对应的特征向量之间的距离的阈值，在当距离小于阈值(margin)的时候会有损失惩罚。为了进一步推动人脸和音频特征向量处于相同的分布状态，应用域对抗训练方法。附加一个额外的两级域分类器用于区分特征向量的来源。然后对音频和面部编码器进行训练，以使分类器不能区分出特征向量的来源。如此，通过对抗训练可以提升训练系统的精确度，使最后生成的说话视频更流畅，避免出现人物唇部运动和语音不吻合的情况。

我们要求嵌入式特征不仅用于话语特性向量，而且还用于解离身份子空间和解离话语子空间。当编码器需要能够编码没有固定信息的特征时，可以应用对抗训练。通过训练一个鉴别器来提取这个信息的特征向量，提取包含在该特征中的信息的最大投影。当编码器阻止鉴别器鉴别成功时，该信息可认为是消失了。

在本实施例中希望解离的身份子空间中不包含语音信息，鉴别器可以形成为第二分类器

来将采集的

映射为语音信息的类别(即通过第二分类器将所述第一身份子空间中包含的剩余信息映射到所述训练样本的话语子空间)。训练分类器的方法与交叉熵损失函数相同，但参数更新仅在第二分类器上执行，因此，训练

的目标函数

可以表示为如公式(2)所示：

在公式(2)中，

表示从身份子空间抽取语音信息的分类器，为一层神经网络，在这里直接用

表数操作；N_w表示唇语识别标签中的标签一共N_w个类，p_w ^j表示N_w个类中第j个类对应的标签，如果视频属于是第k个类，p_w ^k就是1，其他均为0。

表示身份子空间编码器的网络参数；softmax(*)表示对参数进行分类器的操作。

然后在修复分类器的同时更新编码器。但是，对于分类来说，采取相对损失函数并不一定意味着该特征与其他类别不同。确保该特征丢失了所有信息的方式，分类器

是对任何输入特征都会产生相同的预测。形成这种限制的一种方法是在交叉熵损失函数中将认证的概率分配为

(因为，在使用softmax函数计算概率的时候，唇语识别标签共有N_w个类，每一类估计的概率的和是1，所以分类器完全没有区分度的时候，每一类估计的概率值是

也就是说，当分类结果是

时，表明身份子空间中没有语音信息，即身份子空间是解离的身份子空间)。这种损失函数的问题在于，即使达到最小值，参数更新仍会向后倾斜，因此本实施例使用欧几里得距离来实现损失函数：

对偶特征向量

也应相应地不包含人脸身份信息，因此使用第三分类器

编码来自每个

的人脸身份信息的损失函数，以及编码器消除人脸身份信息的损失函数，分别如公式(4)和公式(5)所示：

在图4中可以看出，对第三分类器和编码器进行对抗训练，在对抗训练的过程中，通过编码器把音频特征向量和话语特征向量编码到预设空间中的同一个位置，以使第三分类器区分不出音频特征向量对应的音频和话语特征向量对应的视频。

在训练过程中的重构阶段，本实施例使用随机第k帧的人脸身份特征向量作为身份监督。重构损失函数L₁和对抗式网络(Generative Adversarial Networks，GAN)，训练样本对应的生成的序列

作为输入的鉴别器。这里

因此由训练样本中对应的音频信息产生的损失函数可以表示为如公式(6)和公式(7)所示：

重构损失函数可以写成L_Re可以表示为，如公式(8)所示：

在公式(8)中，L_GAN表示对抗网络的损失函数。相应地，在公式(6)和公式(7)中，通过用

替换

可以得到由训练样本中对应的图像信息产生的损失函数。

在本实施例中，在试验过程中，说话视频合成模型在当前最大的单词级唇读数据集上进行了训练和评估，该数据集具有500类不同的唇语识别标签。对于每个类，都有800多个训练样本和50个验证/测试样本。每个样本都是有目标词语的一秒钟的视频。此外，网络的身份保持模块在MS-Celeb-1M数据集的子集上进行训练。使用非对称加密算法(RSA算法)检测并对齐视频中的所有说话人脸，然后调整到256*256。对于音频信息，以100赫兹(Hz)的采样率提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征。然后我们将每个图像与尺寸为12*20的MFCC音频输入进行匹配。

为确保与相关技术的公平比较，本实施例采用改进的牛津大学计算机视觉组(Visual Geometry Group-M，VGG-M)作为编码器的主干网络。同时，本实施例的解码器包含10个卷积层和6个双线性上采样层，以获得全分辨率输出图像。在本实施例中所有编码的特征向量(即音频特征向量、所述话语特征向量和人脸身份特征向量)都设置为256维。

在测试过程中，对于身份子空间中的编码器的输入可以是任意一个人的脸部图像，并且仅仅一个输入用于与语音信息配对。

为了证明本实施例的GAN损失函数对改善图像质量的有效性，在重构的数据集的测试集上评估PSNR和SSIM评分。比较表1中有无GAN损失的结果。可以看到，通过将

更改为L_Re，PSNR和SSIM评分对应的分数都得到了改善。

表1PSNR和SSIM输入到有GAN损失或没有GAN损失的音频和视频信息中，对应的评分

在图5中显示图像结果为将音频501和对应的视频502以及引导输入503输入到采用本实施例提供的说话视频合成模型得到的合成的说话视频504，这时在训练说话视频合成模型时，由训练样本中对应的音频信息产生的损失函数。合成的说话视频505是将音频501和对应的视频502以及引导输入506输入由训练样本中对应的人脸身份信息产生的损失函数的说话视频合成模型得到的。相应的音频剪辑是单词“always”的第一部分。

在图6A中，可以清楚地看到，当输入相同时，即输入都是图像601，采用本实施例提供的说话视频的处理方法得到的说话视频602、比采用相关技术得到的说话视频603，从身份保持和图像质量两方面都有明显的优势。从图6B可以，当采用不同形式的监督时，得到的合成视频是有所差别的。当仅采用对比函数(L_C)进行监督，得到说话视频合成模型时，将音频604、视频605和引导输入606，输入到该说话视频合成模型中，合成的说话视频为说话视频607；当采用对比函数(L_C)和第一分类器(CS)进行监督，得到说话视频合成模型时，将音频604、视频605和引导输入608，输入到该说话视频合成模型中，合成的说话视频为说话视频609；当仅采用对比函数(L_C)和对抗网络

进行监督，得到说话视频合成模型时，将音频604、视频605和引导输入610，输入到该说话视频合成模型中，合成的说话视频为说话视频611。当仅采用对比函数(L_C)、第一分类器(CS)和对抗网络

进行监督，得到说话视频合成模型时，将音频604、视频605和引导输入612，输入到该说话视频合成模型中，合成的说话视频为说话视频613。

此外，本实施例还进行了用户研究，以调查生成的说话视频的视觉质量，并与相关技术进行比较。在相关技术中评估了四个不同的标准：参与者是否可以将生成的谈话面视为现实的(真或假)，所生成的谈话面是否保留身份(真或假)，以及多少时间百分比时间步长生成的谈话面与相应的音频同步。本实施例使用身份指导生成视频为10张不同的名人照片。至于语音内容信息，本实施例使用来自LRW数据集测试集的剪辑和来自Voxceleb数据集的选择，不用于训练。在测试过程中，总共有10名参与者参与，对于参与者和视频时间都是平均的。本实施例的结果如表2，在表2中以同步速率和现实程度来执行基线。

表2本实施例的用户研究结果和基准

为了同时确定特征向量的相似性，并同时挖掘提供的监督的有效性，本实施例评估词分类的任务和音频和视频检索上性能。

表3采用本实施例的方法的正确率与相关技术的正确率的比较

本实施例在LRW数据集的测试集上报告音频-视频识别的准确性。在这里，本实施例使用术语唇读来指代以图像作为输入的词身份分类的任务，以及用于具有音频MFCC特征的实验术语语音识别。语音识别相对来说是一件容易的事情，原因很简单，听演讲是人类互动的关键，而不是读唇。由于单词级别的语音识别不是我们的目标，因此结果将作为参考。本实施例的唇型读数模型结构与相关技术中达到最高唇读数结果的方法相似，因此将其视为基准。不同之处在于特征的连接是以1*1的空间大小执行的。对于这个任务而言，这不是合理的选择，因为图像中的空间信息将会丢失。但是，如表3所示，本实施例得到的合成的说话视频加上对比损失本身的表现优于基线。在分享分类器和域对抗训练的帮助下，结果大幅度提高。

为了评估音频和脸部特征之间的紧密性，借用了检索社区中使用的协议。检索实验也在LRW数据集的测试集上进行，包含25000个样本，这意味着给定一个测试目标视频(音频)，本实施例根据话语特征向量，找到最接近的音频特征向量对应的测试样品。正如我们在表3中看到的那样，通过所有监督(即当仅采用对比函数(L_C)、第一分类器(CS)和对抗网络

进行监督)，合成的说话视频的视频质量最高。

为了证明本实施例的对抗训练能够从身份分支中解离语音信息，本实施例将所有人脸身份特征分类为相应的音频标签。身份子空间特征解离之前的结果是27.8％，身份子空间特征解离之后的结果9.7％，因此编码器中的相当多的语音内容信息消失了。图6显示了上面提供的具有不同形式监督的音频的序列生成质量。从图6中观察到，给定相同的音频片段，开放的持续时间以及开放的程度均受到不同的监督。共享分类器显然会延长开口的时间和强度，使图像更接近实际情况。结合对抗训练可以提高质量。

在本实施例中，展示了学习联合视频特征向量和音频特征向量的强大功能。利用单词标签的优点，找到了表示嘴唇运动的两种模式的有区别的共享子空间。对抗训练机制的哲学在本实施例的说话视频的处理方法中被广泛地用来解开话语子空间和身份子空间之间的信息。利用区分任务来指导用于生成任务的特征的学习，该说话视频的处理方法统一了视听语音识别，视听同步和说话视频的生成。实验结果表明，使用本实施例提供的说话视频的处理方法，可以改善唇部阅读基线结果，并且可以从音频或视频生成高质量的说话视频。

本发明实施例提供一种说话视频的处理装置，图7为本发明实施例说话视频的处理组成结构示意图，如图7所示，所述说话视频的处理装置700包括：第一获取模块701、第一处理模块702和第一输出模块703，其中：

所述第一获取模块701，用于获取包含图像的第一文件和包含音频的第二文件；

所述第一处理模块702，用于将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本进行解离后得到的解离后的身份子空间和解离后的话语子空间；

所述第一输出模块703，用于输出所述合成的说话视频。

第一获取单元，用于获取图像与音频匹配的训练样本；

在本发明实施例中，所述第二确定单元包括：

在本发明实施例中，所述第一训练模块，还包括：

在本发明实施例中，所述映射单元，包括：

在本发明实施例中，所述第一训练模块，还包括：

在本发明实施例中，所述第一解离单元，包括：

在本发明实施例中，所述第二解离单元，包括：

在本发明实施例中，所述映射单元，还包括：

在本发明实施例中，所述第一处理模块702，包括：

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

需要说明的是，本发明实施例中，如果以软件功能模块的形式实现上述的即时通讯方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台即时通讯设备(可以是终端、服务器等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

应地，本发明实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本发明实施例提供的说话视频的处理方法中的步骤。

相应地，本发明实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的说话视频的处理方法的步骤。

相应地，本发明实施例提供一种计算机设备，

图8为本发明实施例计算机设备的组成结构示意图，如图8所示，该计算机设备800的硬件实体包括：处理器801、通信接口802和存储器803，其中

处理器801通常控制计算机设备800的总体操作。

通信接口802可以使计算机设备通过网络与其他终端或服务器通信。

存储器803配置为存储由处理器801可执行的指令和应用，还可以缓存待处理器801以及计算机设备800中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

以上即时计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明即时通讯设备和存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种说话视频的处理方法，其特征在于，所述方法包括：

获取包含图像的第一文件和包含音频的第二文件；

将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本解离语音信息得到的解离后的身份子空间和对所述训练样本解离人物身份信息得到的解离后的话语子空间；

输出所述合成的说话视频；

其中，所述将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，包括：

对所述第一文件和所述第二文件进行解离，得到解离后的话语子空间和解离后的身份子空间，从解离后的话语子空间中和解离后的身份子空间中各取一个特征向量并连接，采用解码器解码成所述说话视频的一帧。

2.根据权利要求1所述的方法，其特征在于，其中，所述第一文件至少包括以下一种：图像、视频；所述第二文件至少包括以下一种：音频、有声视频。

3.根据权利要求1所述的方法，其特征在于，所述说话视频合成模型的训练过程，包括：

获取图像与音频匹配的训练样本；

4.根据权利要求3所述的方法，其特征在于，所述确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征，包括：

针对所述训练样本的每一帧；

将帧图像编码到所述训练样本的身份子空间，得到人脸身份特征向量；

5.根据权利要求4所述的方法，其特征在于，所述利用所述音频特征和所述话语特征对所述训练样本的身份子空间解离语音信息，得到所述解离后的身份子空间，包括：通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间；

6.根据权利要求4所述的方法，其特征在于，在所述确定所述训练样本中每一帧的话语特征、人脸身份特征和音频特征之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置，包括：

8.根据权利要求3所述的方法，其特征在于，所述确定所述训练样本的身份子空间和所述训练样本的话语子空间，包括：

9.根据权利要求5所述的方法，其特征在于，所述通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间，包括：

如果所述映射结果表明所述剩余信息中包含语音信息，通过所述鉴别器从所述第一身份子空间中去除所述剩余信息中包含的语音信息，直到得到不包含语音信息的第二身份子空间；将所述第二身份子空间确定为所述解离后的身份子空间。

10.根据权利要求5所述的方法，其特征在于，所述通过鉴别器利用所述人脸身份特征向量从所述训练样本的话语子空间中去除人物身份信息，得到所述解离后的话语子空间，包括：

11.根据权利要求7所述的方法，其特征在于，在所述将所述训练样本的话语子空间中的所述音频特征向量与所述话语特征向量映射到预设位置之后，所述方法还包括：

根据所述分类结果，对第三分类器进行对抗训练；

12.根据权利要求3所述的方法，其特征在于，所述将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，包括：

13.一种说话视频的处理装置，其特征在于，所述装置包括：第一获取模块、第一处理模块和第一输出模块，其中：

所述第一处理模块，用于将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，其中，所述说话视频合成模型包括对训练样本解离语音信息得到的解离后的身份子空间和对所述训练样本解离人物身份信息得到的解离后的话语子空间；其中，所述将所述第一文件和所述第二文件输入经过训练得到的说话视频合成模型，得到合成的说话视频，包括：对所述第一文件和所述第二文件进行解离，得到解离后的话语子空间和解离后的身份子空间，从解离后的话语子空间中和解离后的身份子空间中各取一个特征向量并连接，采用解码器解码成所述说话视频的一帧

所述第一输出模块，用于输出所述合成的说话视频。

14.根据权利要求13所述的装置，其特征在于，所述第一文件至少包括以下一种：图像、视频；所述第二文件至少包括以下一种：音频、有声视频。

15.根据权利要求13所述的装置，其特征在于，所述装置还包括第一训练模块，用于训练所述说话视频合成模型，所述第一训练模块包括：

第一获取单元，用于获取图像与音频匹配的训练样本；

16.根据权利要求15所述的装置，其特征在于，所述第二确定单元包括：

第一编码子单元，用于针对所述训练样本的每一帧；将帧图像编码到所述训练样本的身份子空间，得到人脸身份特征向量；

17.根据权利要求16所述的装置，其特征在于，所述第一解离单元，用于通过鉴别器利用所述音频特征向量与所述话语特征向量从所述训练样本的身份子空间中去除语音信息，得到所述解离后的身份子空间；

18.根据权利要求16所述的装置，其特征在于，所述第一训练模块，还包括：

19.根据权利要求18所述的装置，其特征在于，所述映射单元，包括：

20.根据权利要求15所述的装置，其特征在于，所述第一训练模块，还包括：

21.根据权利要求17所述的装置，其特征在于，所述第一解离单元，包括：

22.根据权利要求17所述的装置，其特征在于，所述第二解离单元，包括：

23.根据权利要求19所述的装置，其特征在于，所述映射单元，还包括：

24.根据权利要求13所述的装置，其特征在于，所述第一处理模块，包括：

25.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至12任一项所述的方法步骤。

26.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至12任一项所述的方法步骤。