CN115225829A

CN115225829A - 一种视频生成方法及装置、计算机可读存储介质

Info

Publication number: CN115225829A
Application number: CN202210834191.6A
Authority: CN
Inventors: 白亚龙; 周默涵; 张炜; 梅涛
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-21
Also published as: WO2024011903A1

Abstract

本发明实施例提供了一种视频生成方法及装置、计算机可读存储介质，其中，方法包括：采集真实对象的音视频序列；对音视频序列进行特征提取，确定拟人化特征；利用虚拟预测网络、预设的标准特征，以及第一特征对拟人化特征进行预测，生成虚拟对象的视频序列；预设的标准特征为参考对象对应的特征；第一特征表征不同的态度；虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；呈现虚拟对象的视频序列。本发明实施例根据真实对象的音视频序列，生成虚拟对象的视频序列，呈现的虚拟对象的视频序列更加生动和准确。

Description

一种视频生成方法及装置、计算机可读存储介质

技术领域

本发明涉及人机交互领域，尤其涉及一种视频生成方法及装置、计算机可读存储介质。

背景技术

从人类行为学上讲，良好的沟通指的就是一种双向的沟通过程，不是单向的信息输入或者输出，而是伴随着信息的交互，真实的人和人的沟通交流是在倾听和诉说这两个状态间不断切换、循环的过程。其中，倾听与诉说是同等重要的。这两者对于构建拟人化的数字人进行人机交互是必不可少的。一方面，要求数字人要用对方明白的语言，尽量清晰、简洁、明了地表达自己的观点，另一方面，拟人化的数字人还要善于倾听和理解别人的观点。现有技术的主要针对讲者的参考图像和时变信号生成相应的讲者视频，主要做法是使用人脸关键点、人脸3D模型、人体骨架模型等将讲者参数化，再通过深度神经网络来拟合这些参数，并将这些参数渲染图像作为生成结果，生成的图像效果差。

发明内容

本发明实施例提供一种视频生成方法及装置、计算机可读存储介质，能够根据真实对象的音视频序列生成虚拟对象视频序列，提高了生成虚拟对象视频序列的生动性和准确性。

本发明的技术方案是这样实现的：

本发明实施例提供了一种视频生成方法，所述方法包括：

采集真实对象的音视频序列；

对所述音视频序列进行特征提取，确定拟人化特征；

利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象视频序列；所述预设的标准特征为参考对象对应的特征；所述第一特征表征不同的态度；所述虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；

呈现所述虚拟对象的视频序列。

上述方案中，所述利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列，包括：

获取预设的标准特征；所述预设的标准特征包括第一姿态表情特征和第一身份特征；

基于所述第一姿态表情特征、所述拟人化特征和所述第一特征，通过所述虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征；

基于所述虚拟对象的多帧姿态表情特征和所述第一身份特征，生成所述虚拟对象的视频序列。

上述方案中，所述获取预设的标准特征，包括：

获取标准图像；所述标准图像表征参考对象的图像；

通过人脸重建模型对所述标准图像进行特征提取，得到所述预设的标准特征。

上述方案中，所述拟人化特征包括：所述音视频序列对应的多帧拟人化特征；所述虚拟预测网络包括：第一处理模块和第二处理模块；所述基于所述第一姿态表情特征、所述拟人化特征和所述第一特征，通过所述虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征，包括：

基于所述多帧拟人化特征中的第一帧拟人化特征、所述第一姿态表情特征和所述第一特征，通过所述第一处理模块进行预测，得到下一个预测视频帧；所述第一特征为积极态度、消极态度和普通态度中的一种；

通过所述第二处理模块对所述下一个预测视频帧进行解码，确定所述下一个预测视频帧对应的所述虚拟对象的下一个姿态表情特征；

基于所述下一个姿态表情特征和所述多帧拟人化特征中的下一帧拟人化特征，继续进行预测和解码，直至得到最后一个预测视频帧对应的所述虚拟对象的最后一个姿态表情特征时为止，从而得到所述虚拟对象的多帧姿态表情特征；所述第一姿态表情特征作为所述多帧姿态表情特征中的第一帧。

上述方案中，所述基于所述虚拟对象的多帧姿态表情特征和所述第一身份特征，生成所述虚拟对象的视频序列，包括：

将所述多帧姿态表情特征中的每一帧姿态表情特征分别与所述第一身份特征进行融合，得到多个第二特征；所述第二特征表征身份特征与姿态表情特征的融合结果；

将所述多个第二特征通过渲染器，生成所述虚拟对象对应的所述虚拟对象的视频序列；所述第一身份特征包括第一身份标识、第一材质和第一光照信息。

上述方案中，所述音视频序列包括：真实对象的音频序列和真实对象的视频序列；所述对所述音视频序列进行特征提取，确定拟人化特征，包括：

通过编码器对所述真实对象的视频序列进行预处理，得到多个视频特征；

通过编码器对所述真实对象的音频序列进行特征提取，得到多个音频特征；所述音频特征包括响度、过零率和倒频谱系数；

基于所述多个视频特征和所述多个音频特征，通过特征融合函数进行特征转换，确定所述拟人化特征；所述拟人化特征为音视频序列对应的多帧拟人化特征；所述拟人化特征包括视频特征和音频特征。

上述方案中，所述通过编码器对所述真实对象的视频序列进行特征提取，得到多个视频特征，包括：

通过人脸重建模型对所述真实对象的视频序列的每一帧视频帧进行特征提取，得到多个视频帧特征；所述视频帧特征包括第二身份特征和第二姿态表情特征；

将所述真实对象的视频序列中对应的所有所述第二姿态表情特征作为所述视频特征。

上述方案中，所述利用虚拟预测网络和预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列之前，所述方法还包括：

采集真实倾诉对象的音视频序列样本，及其对应的真实倾听对象的人脸图像；

通过初始编码器对所述样本音视频序列进行特征提取，确定拟人化样本特征；

通过初始虚拟预测网络和所述拟人化样本特征，生成训练真实对象的音视频序列样本下的预测人脸特征；所述预测人脸特征包含预测姿态特征和预测表情特征；

根据所述真实倾听对象的人脸图像，通过人脸重建模型进行特征提取，确定真实人脸特征，所述真实人脸特征包括真实姿态特征和真实表情特征；

通过第一损失函数和所述拟人化样本特征不断优化所述初始编码器，直到第一损失函数值满足第一预设阈值，确定所述编码器；

基于所述真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，直到第二损失函数值和第三损失函数值满足第二预设阈值，确定所述虚拟预测网络。

上述方案中，所述基于所述真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，直到第二损失函数值和第三损失函数值满足第二预设阈值，确定所述虚拟预测网络，包括：

基于所述真实人脸特征和所述预测人脸特征，确定第二损失函数；所述第二损失函数用来保证预测表情、预测姿态与真实表情、真实姿态相似；

基于所述真实人脸特征对应的变化函数和所述预测人脸特征对应的变化函数，确定第三损失函数；所述第三损失函数用来保证预测人脸特征的帧间连续性与真实人脸特征相似；

通过所述第二损失函数和所述第三损失函数，持续优化初始虚拟预测网络，直到第二损失函数值和第三损失函数值满足第二预设阈值，确定所述虚拟预测网络。

本发明实施例提供了一种视频生成装置，其特征在于，所述视频生成装置包括获取单元、确定单元和生成单元；其中，

所述获取单元，用于采集真实对象的音视频序列；

所述确定单元，用于对所述音视频序列进行特征提取，确定拟人化特征；

所述生成单元，用于利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列；所述预设的标准特征为参考对象对应的特征；所述第一特征表征不同的态度；所述虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；呈现所述虚拟对象的视频序列。

本发明实施例提供了一种视频生成装置，其特征在于，所述视频生成装置包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，当所述可执行指令被执行时，所述处理器执行所述的视频生成方法。

本发明实施例提供了一种计算机可读存储介质，其特征在于，存储有可执行指令，当所述可执行指令被一个或多个处理器执行的时候，所述处理器执行所述的视频生成方法。

本发明实施例提供了一种视频生成方法及装置、计算机可读存储介质，其中，方法包括：采集真实对象的音视频序列；对所述音视频序列进行特征提取，确定拟人化特征；利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列；所述预设的标准特征为参考对象对应的特征；所述第一特征表征不同的态度；所述虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；呈现所述虚拟对象的视频序列。本发明实施例根据真实对象的音视频序列，生成虚拟对象的视频序列，呈现的虚拟对象视频序列更加生动和准确。

附图说明

图1为本发明实施例提供一种视频生成方法的一个可选的终端工作示意图；

图2为本发明实施例提供一种视频生成方法的一个可选的流程示意图一；

图3a为本发明实施例提供一种视频生成方法的一个可选的讲者视频生成示意图一；

图3b为本发明实施例提供一种视频生成方法的一个可选的讲者视频生成示意图二；

图3c为本发明实施例提供一种视频生成方法的一个可选的讲者视频生成示意图三；

图4为本发明实施例提供一种视频生成方法的一个可选的流程示意图二；

图5为本发明实施例提供一种视频生成方法的一个可选的流程示意图三；

图6为本发明实施例提供一种视频生成方法的一个可选的流程示意图四；

图7为本发明实施例提供一种视频生成方法的一个可选的流程示意图五；

图8a为本发明实施例提供一种视频生成方法的虚拟对象视频序列结果图一；

图8b为本发明实施例提供一种视频生成方法的虚拟对象视频序列结果图二；

图9为本发明实施例提供一种视频生成方法的一个可选的流程示意图六；

图10为本发明实施例提供一种视频生成方法的一个可选的模型架构图；

图11为本发明实施例提供的一种视频生成装置的结构示意图一；

图12为本发明实施例提供的一种视频生成装置的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。图1为本发明实施例提供一种视频生成方法的一个可选的终端工作示意图，如图1所示，终端里面包括编码器和虚拟预测网络和虚拟人界面(图中未示出)，终端可以通过讲者编码器(相当于编码器)对真实对象的音视频进行特征提取，将提取的特征、态度(相当于第一特征)和参考者图像(相当于预设的标准图像)输入至听者解码器(相当于虚拟预测网络)中进行预测，生成按时间线排列的倾听者的头部运动和表情变化，从而得到虚拟对象视频序列。图1中还有参考者图像和态度，说明书中未出现相应描述。

在本发明的一些实施例中，图2是本发明实施例提供一种视频生成方法的一个可选的流程示意图一，将结合图2示出的步骤进行说明。

S101、采集真实对象的音视频序列。

在本发明的一些实施例中，根据社会心理学和人类学的概念，“听”也是一种沟通时的功能性行为。其中，倾听行为风格可以分为四类，即非倾听者、边缘倾听者、评价性倾听者和积极倾听者。其中，积极响应的倾听是最有效的一种，它在沟通中也起到了关键作用。它要求听者完全专注于一个人所说的内容、仔细聆听，同时对说话者表现出一些视觉反应。这些反应可以反馈给讲者关于听者是否感兴趣，是否理解，是否同意讲话内容，以调节对话节奏、进程及促进沟通的顺利进行。

对于积极响应的聆听而言，听众在表达自己的观点时会存在常见的视觉模式，例如，对称和循环运动被用来表示“是”、“不是”或类似的信号；小幅度的线性运动与对方讲话中的强调音节相配合；而范围更大的线性运动则常在对方讲话的停顿期间出现。在人类面对面的交互中，甚至连听者眨眼的时间都可以被视为交流信号。因此，基于一些音视频序列，生成虚拟对象听到音视频序列下的视频序列具有重要的意义。

示例性的，通过给定讲者的参考图像和一段时变信号的条件下，生成一个讲者的能够与该时变信号相匹配的拟真片段。图3a、图3b、和图3c分别是本发明实施例提供一种视频生成方法的一个可选的讲者视频生成示意图一、讲者视频生成示意图二和讲者视频生成示意图三，如图3a所示，讲者视频生成任务包括讲者身体姿势的生成；如图3b所示，讲者视频生成任务包括讲者唇部运动的生成；如图3c所示，讲者视频生成任务包括讲者头部(含脸部)的运动生成。在图3a中，讲者身体姿势的生成是通过身体姿势生成模型对虚线框输入的一段时变信号进行处理，得到点线虚线框所示的身体姿势。在图3b中，讲者唇部运动的生成是通过唇部运动生成模型对虚线框输入的一段时变信号和一般的参考图像进行处理，输出点线虚线框所示的一般唇部运动图像帧。在图3c中，讲者头部(含脸部)的运动生成主要是通过头部运动生成模型对虚线框输入的一段时变信号和参考图像讲者和情绪进行处理，对处理后的结果通过头部渲染模型进行渲染，输出点线虚线框所示的讲者头部(含脸部)的运动图像帧。

在本发明的一些实施例中，终端可以通过收集设备采集真实对象的音频序列和视频序列。

示例性的，收集设备可以是具有采集视频和音频的设备，例如，摄像头，本发明不限于此；真实对象可以是在一个场景下正在讲话的人；音频序列和视频序列可以是在游客旅游景点场景下，游客询问自助咨询设备(虚拟对象的载体)过程中获取的。

在本发明的一些实施例中，本发明应用于需要人机交互的场合，例如，商场的智能咨询设备，可以根据购物者展示的视频，做出相应的视频，对购物者进行指引。

S102、对音视频序列进行特征提取，确定拟人化特征。

在本发明的一些实施例中，音视频序列包括真实对象的音频序列和真实对象的视频序列。

在本发明的一些实施例中，特征提取可以通过神经网络模型实现。特征提取的过程是：将视频序列的每一帧输入到神经网络中，通过多个卷积层和池化层进行特征提取，得到多个视频特征。拟人化特征指在真实场景中，人说话时会伴随一些肢体动作，将肢体动作进行特征化得到的特征。拟人化特征是包含音频特性和视频特性的特征；拟人化特征是对音视频序列进行特征提取后，得到的音频特征和视频特征。示例性的，在一段视频中，讲者说话时伴随抬手动作，拟人化特征就可以是抬手动作对应的特征。

在本发明的一些实施例中，终端可以通过编码器对真实对象的视频序列进行特征提取，得到多个视频特征；通过编码器对真实对象的音频序列进行特征提取，得到多个音频特征；音频特征包括响度、过零率和倒频谱系数；通过多个视频特征和多个音频特征，通过特征融合函数进行特征转换，确定拟人化特征。

在本发明的一些实施例中，图4是本发明实施例提供一种视频生成方法的一个可选的流程示意图二，如图4所示，S102可以通过S1021-S1023实现，如下：

S1021、通过编码器对真实对象的视频序列进行特征提取，得到多个视频特征。

在本发明的一些实施例中，视频特征是人进行交流的过程中，头部会有转动以及面部会有一些表情变化，将头部的转动以及面部的表情进行记录得到的特征。视频特征是对视频序列进行特征提取后得到的特征；视频特征包括姿态和表情。

在本发明的一些实施例中，终端可以通过人脸重建模型对真实对象的视频序列的每一帧视频帧进行特征提取，得到多个视频帧特征；将真实对象的视频序列中对应的所有第二姿态表情特征作为视频特征。

在本发明的一些实施例中，图5是本发明实施例提供一种视频生成方法的一个可选的流程示意图三，如图5所示，S1021可以通过S10211和S10212实现，如下：

S10211、通过人脸重建模型对真实对象的视频序列的每一帧视频帧进行特征提取，得到多个视频帧特征。

在本发明的一些实施例中，视频帧特征是针对视频序列里面的每一视频帧中的人物的头部转动，面部表情以及拍摄的多种因素进行记录得到的。视频帧特征包括第二身份特征和第二姿态表情特征。第二身份特征是对视频序列拍摄的环境因素以及被拍摄对象的身份信息进行记录的结果。第二身份特征包括真实对象的身份标识、材质和光照。第二姿态表情特征是真实对象在进行说话时，伴随头部转动以及面部表情变化，对其进行记录得到的结果。第二姿态表情特征包括真实对象的头部的姿态和面部的表情。人脸重建模型一般选择3D人脸重建模型，本发明不限于此。

在本发明的一些实施例中，终端可以通过人脸重建模型对真实对象的视频序列的每一帧视频帧中的人物和背景进行特征提取，每一帧视频帧中都会得到人物的身份标识、视频帧的材质、拍摄时的光照、人物的头部姿势和人物脸部的表情。将人物的身份标识、视频帧的材质、拍摄时的光照作为第二身份特征，将人物的头部姿势和人物脸部的表情作为第二姿态表情特征；将所有的特征作为一个视频帧特征。

示例性的，对于视频序列

使用3D人脸重建模型提取其人脸3D参数。对于每一帧图片，都可以提取形如{α,β,δ,p,γ}的五元组参数，分别代表当前人脸的身份标识、人物脸部的表情、视频帧的材质、人物脸部的姿态和拍摄时的光照，这些所有特征组合在一起就是一个视频帧特征。

S10212、将真实对象的视频序列中对应的所有第二姿态表情特征作为视频特征。

在本发明的一些实施例中，终端将真实对象的视频序列中对应的所有第二姿态表情特征确定为视频序列对应的视频特征。

示例性的，将{α,β,δ,p,γ}参数分为两类，一类是相对固定的、与身份标识信息耦合较为紧密的特征

(相当于第二身份特征)，另一类是相对动态的，与身份标识信息独立的特征m＝(β,p)(相当于第二姿态表情特征)。由于只考虑真实对象的表情变化和头部运动，忽略其身份标识信息，因此，对于输入的真实对象的视频序列，可以抽取它们的视频特征为

可以理解的是，在本发明的一些实施例中，终端可以通过人脸重建模型对真实对象的视频序列的每一帧视频帧进行特征提取，得到多个视频帧特征；将真实对象的视频序列中对应的所有第二姿态表情特征作为视频特征，去除了身份固有特征(例如人物的身份标识、视频帧的材质、拍摄时的光照，)，提高了特征提取的有效性，为后续生成虚拟对象视频序列提供数据支持。

S1022、通过编码器对真实对象的音频序列进行特征提取，得到多个音频特征。

在本发明的一些实施例中，音频特征是针对人交流过程中，说话者说话时伴随的一些特征。音频特征是对音频序列进行特征提取后得到的特征；音频特征包括真实对象说话时对应的响度、过零率和倒频谱系数。

在本发明的一些实施例中，终端可以通过编码器对真实对象的音频序列的频谱进行特征提取，得到真实对象讲话每一时刻的响度、过零率和倒频谱系数；将响度、过零率和倒频谱系数都是视为音频特征，从而得到多个音频特征。

示例性的，对于真实对象的音频序列

抽取其能量特征、时域特征及频域特征作为其特征；分别提取了响度、过零率(ZCR)、倒频谱系数(MFCC)特征和相应的MFCC Delta和Delta-Delta特征作为音频段的音频特征s_i。从

中提取的音频特征表示为

可以理解的是，终端可以根据真实对象讲话时产生的音视频序列，进行特征提取，获取对应的多个音频特征和多个视频特征；可以快速提取音视频的有效特征，提高了特征提取的速度以及特征的有效性。

S1023、基于多个视频特征和多个音频特征，通过特征融合函数进行特征转换，确定拟人化特征。

在本发明的一些实施例中，拟人化特征为音视频序列对应的多帧拟人化特征；拟人化特征包括视频特征和音频特征；特征融合函数可以将非线性特征转换为线性特征。

在本发明的一些实施例中，终端通过编码器中的多模态的特征融合函数对多个音频特征和多个视频特征进行非线性特征转换，得到真实对象的特征表示，即就是确定拟人化特征。

可以理解的是，终端通过对音视频序列进行特征提取，可以提高处理音视频序列的速度；快速得到多个视频特征和多个音频特征，通过特征融合函数将多个视频特征和多个音频特征转化为第一特征，可以转换特征的表达方式，便于终端对其进行处理，提高了视频特征和音频特征处理的可行性。

S103、利用虚拟预测网络、预设的标准特征，以及第一特征对拟人化特征进行预测，生成虚拟对象的视频序列。

在本发明的一些实施例中，虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；预设的标准特征为参考对象对应的特征；预设的标准特征包括参考对象对应的第一姿态表情特征和第一身份特征；第一姿态表情特征是参考对象的头部姿态和面部表情；第一身份特征是参考对象对应的身份相关信息。第一特征是人在说话时，具有感情色彩的态度特征。第一特征表征不同的态度，第一特征可以是积极态度，也可以是消极态度，还可以是普通态度。

在本发明的一些实施例中，终端可以获取预设的标准特征；基于第一姿态表情特征、拟人化特征和第一特征，通过虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征；通过虚拟对象的多帧姿态表情特征和第一身份特征，生成虚拟对象的视频序列。

示例性的，给定一段时长从1到t的真实对象的输入视频序列

及其对应的音频序列

(相当于真实对象的音视频序列)。虚拟对象生成任务旨在生成时间步t+1的虚拟对象视频序列可以通过以下公式(1)表示。

其中，

是听者的参考图像(相当于标准图像)，e是听者的态度，生成的听者视频的全体

可以表示为

在本发明的一些实施例中，图6是本发明实施例提供一种视频生成方法的一个可选的流程示意图四，如图6所示，S103可以通过S1031-S1033实现，如下：

S1031、获取预设的标准特征。

在本发明的一些实施例中，终端可以获取标准图像；通过人脸重建模型对标准图像进行特征提取，得到第一姿态表情特征和第一身份特征，将第一姿态表情特征和第一身份特征作为预设的标准特征。

在本发明的一些实施例中，S1031可以通过S10311和S10312实现，如下：

S10311、获取标准图像。

在本发明的一些实施例中，标准图像是参考对象的图像；标准图像是随机在图像库中获取的任意一张不同于真实对象的人脸图像。

S10312、通过人脸重建模型对标准图像进行特征提取，得到预设的标准特征。

在本发明的一些实施例中，终端可以通过人脸重建模型对标准图像进行特征提取，得到标准图像中人物的身份标识、视频帧的材质、拍摄时的光照、人物的头部姿势和人物脸部的表情。将标准图像中人物的身份标识、视频帧的材质和拍摄时的光照作为第一身份特征；将标准图像中人物的头部姿势和人物脸部的表情作为第一姿态表情特征；将第一身份特征和第一姿态表情特征作为预设的标准特征。

可以理解的是，终端可以获取标准图像；通过人脸重建模型对标准图像进行特征提取，可以快速准确的获取第一姿态表情特征，提高了对标准图像处理的准确度和效率；第一姿态表情特征可以用于生成虚拟对象的视频序列，保证了生成虚拟对象视频序列的准确性。

S1032、基于第一姿态表情特征、拟人化特征和第一特征，通过虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征。

在本发明的一些实施例中，终端可以利用多帧拟人化特征中的第一帧拟人化特征、第一姿态表情特征和第一特征，通过第一处理模块进行预测，得到下一个预测视频帧；通过第二处理模块对下一个预测视频帧进行解码，确定下一个预测视频帧对应的虚拟对象的下一个姿态表情特征；通过下一个姿态表情特征和多帧拟人化特征中的下一帧拟人化特征，继续进行预测和解码，直至得到最后一个预测视频帧对应的虚拟对象的最后一个姿态表情特征时为止，从而得到虚拟对象的多帧姿态表情特征。

在本发明的一些实施例中，S1032可以通过S10321、S10322和S10323实现，如下：

S10321、基于多帧拟人化特征中的第一帧拟人化特征、第一姿态表情特征和第一特征，通过第一处理模块进行预测，得到下一个预测视频帧。

在本发明的一些实施例中，第一特征为积极态度、消极态度和普通态度中的一种；第一处理模块是虚拟预测网络中的编码模块；功能是实现预测处理中的编码。

在本发明的一些实施例中，终端可以选择积极态度、消极态度和普通态度中的任意一种态度作为第一特征，这里选择普通态度；在普通态度下，将多帧拟人化特征中的第一帧拟人化特征、第一姿态表情特征输入到虚拟预测网络中的第一处理模块中进行预测，得到下一个视频预测帧。

S10322、通过第二处理模块对下一个预测视频帧进行解码，确定下一个预测视频帧对应的虚拟对象的下一个姿态表情特征。

在本发明的一些实施例中，第二处理模块是虚拟预测网络中的解码模块；功能是实现预测处理中的解码。

在本发明的一些实施例中，终端可以通过虚拟预测网络中的第二处理模块对下一个预测视频帧进行解码，得到下一个预测视频帧对应的虚拟对象的下一个姿态表情特征；下一个姿态表情特征包括下一个姿态特征和下一个表情特征。

S10323、基于下一个姿态表情特征和多帧拟人化特征中的下一帧拟人化特征，继续进行预测和解码，直至得到最后一个预测视频帧对应的虚拟对象的最后一个姿态表情特征时为止，从而得到虚拟对象的多帧姿态表情特征。

在本发明的一些实施例中，第一姿态表情特征作为多帧姿态表情特征中的第一帧。

在本发明的一些实施例中，终端将下一个姿态表情特征和多帧拟人化特征中的第二帧拟人化特征输入到虚拟预测网络中的第一处理模块进行预测，得到下一个预测视频帧；通过虚拟预测网络中的第二处理模块进行解码，确定下一个预测视频帧对应的虚拟对象的下一个姿态表情特征；继续通过虚拟预测网络进行预测和解码，直至得到最后一个预测视频帧对应的虚拟对象的最后一个姿态表情特征，从而确定虚拟对象的多帧姿态表情特征。

可以理解的是，终端可以通过第一帧拟人化特征、第一姿态表情特征和第一特征进行预测，第一特征可以提高生成预测视频帧的多样性，第一帧拟人化特征和第一姿态表情特征可以提高生成预测视频帧的准确性；基于第一预测视频帧生成下一个预测视频帧，通过实时更新的预测视频帧预测下一个视频帧，可以生成连续的视频帧，提高了视频帧之间的连续性，保证了视频序列的完整性；通过对多个预测视频帧解码得到多帧姿态表情特征，可以充分体现虚拟对象听到真实对象的音视频的头部面部反应，提高了生成虚拟对象的视频序列的准确性。

S1033、基于虚拟对象的多帧姿态表情特征和第一身份特征，生成虚拟对象的视频序列。

在本发明的一些实施例中，虚拟对象是具有简单沟通功能的模拟对象，一般存在于交互设备中。

在本发明的一些实施例中，终端可以通过将虚拟对象的多帧姿态表情特征中的每一帧姿态表情特征分别与第一身份特征进行融合，得到多个第二特征；将多个第二特征通过渲染器生成虚拟对象对应的虚拟对象的视频序列。

可以理解的是，终端可以获取预设的标准特征；通过预设的标准特征中的第一姿态表情特征、拟人化特征和第一特征，通过虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征，可以提高多帧姿态表情特征的准确性；基于虚拟对象的多帧姿态表情特征和第一身份特征，生成虚拟对象的视频序列；可以提高虚拟对象的视频序列的准确性和生动性。

在本发明的一些实施例中，S1033可以通过S10331和S10332实现，如下：

S10331、将虚拟对象的多帧姿态表情特征中的每一帧姿态表情特征分别与第一身份特征进行融合，得到多个第二特征。

在本发明的一些实施例中，第二特征是将姿态表情特征赋予身份特征之后，所形成的融合特征。第二特征是身份特征与姿态表情特征的融合结果。

在本发明的一些实施例中，终端可以将虚拟对象的多帧姿态表情特征中的每一帧姿态表情特征分别与第一身份特征进行融合，得到多帧姿态表情特征对应的多个第二特征。

S10332、将多个第二特征通过渲染器，生成虚拟对象对应的虚拟对象的视频序列。

在本发明的一些实施例中，第一身份特征包括第一身份标识、第一材质和第一光照信息；第一身份标识对应标准图像的中人物的身份标识、第一材质对应视频帧的材质和第一光照信息对应拍摄时的光照。

在本发明的一些实施例中，终端可以通过渲染器将多个第二特征生成虚拟对象的视频序列。

示例性的，虚拟对象的视频序列生成任务可以通过公式(2)和公式(3)表示。

其中，

为虚拟预测网络的预测的虚拟对象的姿态特征；

为虚拟对象的、与其身份标识相关联的特征，它会与预测的姿态特征一起，通过渲染器生成虚拟对象的视频序列

可以理解的是，终端可以通过将虚拟对象的多帧姿态表情特征中的每一帧姿态表情特征分别与第一身份特征进行融合，得到多个第二特征；使得第二特征具有身份属性，可以提高第二特征的区分性，将多个第二特征通过渲染器生成虚拟对象的视频序列，针对性的生成的虚拟对象的视频序列，视频序列更加生动和准确。

S104、呈现虚拟对象的视频序列。

在本发明的一些实施例中，终端可以将虚拟对象的视频序列呈现在虚拟人界面上。

可以理解的是，终端采集真实对象的音视频序列；对音视频序列进行特征提取，确定拟人化特征；利用虚拟预测网络和预设的标准特征，以及第一特征，对拟人化特征进行预测，生成虚拟对象的视频序列；预设的标准特征为参考对象对应的特征；第一特征表征不同的态度；虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；呈现虚拟对象的视频序列。根据真实对象的音视频序列，生成虚拟对象的视频序列，呈现的虚拟对象的视频序列更加生动和准确。

在本发明的一些实施例中，图7是本发明实施例提供一种视频生成方法的一个可选的流程示意图五，如图7所示，在执行S103之前，还执行S105-S1010，如下：

S105、采集真实倾诉对象的音视频序列样本，及其对应的真实倾听对象的人脸图像。

在本发明的一些实施例中，音视频序列样本是记录真实倾诉对象的讲话以及对应讲话时的动作神情所形成的。

在本发明的一些实施例中，终端可以通过采集设备采集真实倾诉对象的音视频序列样本，及其对应的真实倾听对象的人脸图像。采集的真实倾听对象的人脸图像是在不同的第一特征下采集的，第一特征包括是积极态度、消极态度和普通态度。

S106、通过初始编码器对音视频序列样本进行特征提取，确定拟人化样本特征。

在本发明的一些实施例中，拟人化样本特征是音视频序列样本对应的场景下，人说话时会伴随一些肢体动作，将肢体动作进行特征化得到的特征。拟人化样本特征是对音视频序列样本进行特征提取后得到的，拟人化样本特征包括视频样本特征和音频样本特征。

在本发明的一些实施例中，终端可以通过初始编码器对音视频序列样本进行特征提取，得到拟人化样本特征，其中，拟人化样本特征包括多帧拟人化样本特征。

S107、通过初始虚拟预测网络和拟人化样本特征，生成训练真实对象的样本音视频序列下的预测人脸特征。

在本发明的一些实施例中，预测人脸特征包含预测姿态特征和预测表情特征。

在本发明的一些实施例中，终端可以通过初始虚拟预测网络和拟人化样本特征，生成训练真实对象的音视频序列样本下的预测姿态特征和预测表情特征；预测姿态特征包括多帧预测姿态特征；预测表情特征包括多帧预测表情特征；将预测姿态特征和预测表情特征作为预测人脸特征；预测人脸特征包括多帧预测人脸特征。

S108、根据真实倾听对象的人脸图像，通过人脸重建模型进行特征提取，确定真实人脸特征。

在本发明的一些实施例中，真实人脸特征包括真实姿态特征和真实表情特征；

在本发明的一些实施例中，终端可以通过人脸重建模型对真实倾听对象的人脸图像进行特征提取，得到真实姿态特征和真实表情特征，将真实姿态特征和真实表情特征作为真实人脸特征。其中，真实倾听对象的人脸图像的数量与通过音视频序列样本得到的多帧拟人化特征的数量是一致的，真实姿态特征包括多帧真实姿态特征；真实表情特征包括多帧真实表情特征；真实人脸特征也包括多帧真实人脸特征，真实人脸特征数量与预测人脸特征数量一致。

S109、通过第一损失函数和拟人化样本特征不断优化初始编码器，直到第一损失函数值满足第一预设阈值，确定编码器。

在本发明的一些实施例中，终端可以通过第一损失函数和拟人化样本特征不断优化初始编码器，若第一损失函数值大于或者等于第一预设阈值，则可以视为编码器已经训练好了，确定编码器；若第一损失函数值小于第一预设阈值，则继续训练编码器，直到第一损失函数值大于或者等于第一预设阈值，确定编码器。

S1010、基于真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，直到第二损失函数值和第三损失函数值均满足第二预设阈值，确定虚拟预测网络。

在本发明的一些实施例中，终端可以利用真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，若第二损失函数值与第三损失函数值的和大于或者等于第二预设阈值，则确定虚拟预测网络；若第二损失函数值与第三损失函数值的和小于第二预设阈值，则继续训练虚拟预测网络，直到第二损失函数值与第三损失函数值的和大于或者等于第二预设阈值，确定虚拟预测网络。

示例性的，图8a和图8b分别为本发明实施例提供一种视频生成方法的虚拟对象的视频序列结果图一和本发明实施例提供一种视频生成方法的虚拟对象的视频序列结果图二，如图8a和图8b所示，横坐标表示连续的视频帧，包括0-32帧；图8a中展示了生成虚拟对象的视频序列结果在域内(指训练数据中包含测试数据集中的倾诉人或者倾听人)上测试的结果，图8b中展示了生成虚拟对象的视频序列结果在域外(指倾诉人和倾听人的人脸数据都不曾在训练集中出现过，主要考验模型在未见过的人脸上的泛化能力)上测试的结果。图8a中真实的倾听者态度为积极，图8b中为自然态度的真实倾听者。图8a中第4、5和6行和图8b中第4、5、6行分别显示了以三种不同态度为条件生成的虚拟对象的视频序列结果，图8a和图8b中的生成听者就是虚拟对象。其中，第0帧是参考帧。图中的三角形表示显著的变化：右上方

视线随眼球运动而变化；左下方

头部运动；右下方

每一行的代表帧；左上方

在不同态度下有显著差异的帧(列方向)。

可以看到虚拟预测网络能够捕捉到通用的倾听者(相当于虚拟对象)的模式(如眼睛、嘴巴和头部运动等)，这些模式可能与真实的听者不同，但仍然是有意义的。此外，该虚拟预测网络能够呈现不同态度下虚拟对象的视觉模式。对于图8a所示的结果，可以看到，虽然中性态度也会笑(第2--8帧)，但它保持的时间比积极的态度(第2-16帧)短。而对于消极态度的人来说，虚拟对象并不关注谈话内容，它们在第10、16、22和30帧时看向屏幕的下侧。

最后，在图8b中，域外数据上也有相对好的生成结果。持有积极态度的虚拟对象在第6-14帧微笑，持有消极态度的听众皱着眉头，并在整个过程中表现出负面的嘴型。负面态度的虚拟对象动作变化小、眼神游离，而中性虚拟对象则保持着相对平静的表情，同时伴随着头部的有规律移动。

对于生成的虚拟对象视频序列结果进行评价，有10个志愿者做如下两个测试：

最佳匹配测试。在给定态度，真实对象音频序列，真实对象视频序列，真实的倾听者视频和生成的虚拟对象视频序列的情况下，志愿者需要选择感官上最恰当、最符合给定态度的倾听者。

态度分类测试。在给定生成的虚拟对象视频序列的情况下，志愿者需要确定它的情绪(积极、消极、自然)。需要说明的是，自然相当于普通态度。

两个测试都以双盲的形式进行，且结果如表1和表2所示。

表1最佳匹配测试结果

由表1中统计了两种“最好的倾听者”个数的均值和方差。在域内数据中，志愿者投票认为近20％的生成的虚拟对象看起来比真实的听者更合理，这验证了模型可以生成与人类主观感知相一致的响应式听者。而且，在域外数据中生成的结果被更多的志愿者喜欢。

表2表情分类测试结果

由表2可以看出，对于每一种态度，计算所有志愿者分类精度的均值和方差，得到模型可以在一定程度上生成指定态度的视频。

可以理解的是，终端可以根据采集真实倾诉对象的音视频序列样本，及其对应的真实倾听对象的人脸图像，真实倾听对象的人脸图像是在不同的第二特征下采集的，可以保证训练样本的多样性；通过音视频序列样本，及其对应的真实倾听对象的人脸图像，对初始编码器和初始虚拟预测网络进行优化训练，确定编码器和虚拟预测网络，可以提高编码器和虚拟预测网络输出结果的准确度。

在本发明的一些实施例中，图9是本发明实施例提供一种视频生成方法的一个可选的流程示意图六，如图9所示，在执行S1010之前还执行S1011-S1013，如下：

S1011、基于真实人脸特征和预测人脸特征，确定第二损失函数。

在本发明的一些实施例中，第二损失函数用来保证预测表情、预测姿态与真实表情、真实姿态相似。

在本发明的一些实施例中，终端可以根据真实人脸特征和预测人脸特征，进行作差求模运算，确定第二损失函数。

示例性的，第二损失函数可以通过以下公式(4)得到。

其中，

表示第二损失函数；

表示预测人脸特征中的预测表情特征；

表示真实人脸特征中的真实表情特征；

表示预测人脸特征中的预测姿态特征；

表示真实人脸特征中的真实姿态特征。对于优化过程，有真实倾听者的真实人脸特征

由于缺乏T+1帧的监督信号，丢弃初始虚拟预测网络最后一帧的生成结果

即就是最后预测视频帧对应的虚拟对象的姿态表情特征(相当于预测人脸特征的最后一帧)。

S1012、基于真实人脸特征对应的变化函数和预测人脸特征对应的变化函数，确定第三损失函数。

在本发明的一些实施例中，第三损失函数用来保证预测人脸特征的帧间连续性与真实人脸特征相似。

在本发明的一些实施例中，终端可以通过真实人脸特征对应的变化函数和预测人脸特征对应的变化函数，进行作差求模运算，确定第三损失函数。

示例性的，第三损失函数可以通过以下公式(5)得到。

其中，

表示第三损失函数；

表示预测人脸特征中的预测表情特征对应的变化函数；

表示真实人脸特征中的真实表情特征对应的变化函数；

表示预测人脸特征中的预测姿态特征对应的变化函数；

表示真实人脸特征中的真实姿态特征对应的变化函数；μ是衡量当前帧和其相邻的前一帧的帧间变化的函数，即

S1013、通过第二损失函数和第三损失函数，持续优化初始虚拟预测网络，直到第二损失函数值与第三损失函数值的和满足第二预设阈值，确定虚拟预测网络。

在本发明的一些实施例中，终端可以通过第二损失函数和第三损失函数求和，确定虚拟预测网络的损失函数，通过损失函数持续优化初始虚拟预测网络，直到损失函数值(相当于第二损失函数值与第三损失函数值的和)满足第二预设阈值，确定虚拟预测网络。

示例性的，虚拟预测网络的损失函数可以通过以下公式(6)得到。

其中，

表示虚拟预测网络的损失函数；

表示第二损失函数；

表示第三损失函数；w是用来平衡这两个损失函数的尺度。

可以理解的是，终端可以通过基于真实人脸特征和预测人脸特征，确定第二损失函数；通过真实人脸特征对应的变化函数和预测人脸特征对应的变化函数，确定第三损失函数，提高了虚拟预测网络的损失函数的有效性；通过第二损失函数和第三损失函数，持续优化初始虚拟预测网络，直到第二损失函数值与第三损失函数值的和满足第二预设阈值，确定虚拟预测网络；提高了虚拟预测网络预测的准确性和虚拟预测网络的预测效果。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

在本发明的一些实施例中，图10是本发明实施例提供一种视频生成方法的一个可选的模型架构图，如图10所示，终端获取讲者视频

(相当于真实对象的视频序列)，通过讲者编码器(相当于编码器)对讲者视频进行预处理，得到连续视频帧；通过人脸重建模型对讲者视频的每一帧进行特征提取，得到每一帧对应的身份标识、材质、光照、表情和姿态；表情和姿态作为视频特征

将获取讲者音频

(相当于真实对象的音频序列)，通过编码器对讲者音频进行处理，得到多个时刻的音频；对多个时刻的音频中的每一时刻的音频进行特征提取，得到每一时刻对应的响度、过零率和倒频谱系数；将响度、过零率和倒频谱系数作为音频特征

将视频特征

和音频特征

通过特征融合函数f_am准换成拟人化特征。终端中的听者解码器(相当于虚拟预测网络)获取听者的参考图像(相当于标准图像)，通过人脸重建模型对参考图像进行特征提取，得到身份标识、材质、光照、表情和姿态(表情和姿态如图10中的

和

)；将身份标识、材质、光照作为第一身份特征，将表情和姿态作为第一姿态表情特征。将第一姿态表情特征输入到长短期记忆网络编码器(相当于第一处理模块)中，利用态度e(相当于第一特征)结合拟人化特征生成多帧姿态表情特征(相当于

和

和

以及

和

)，一共有t+1帧。将第一身份特征共享至解码器中，通过解码器(相当于第二处理模块)将多帧姿态表情特征中的每一帧姿态表情特征分别和第一身份特征进行融合，得到虚拟对象视频序列。

示例性，对于讲者编码器，在每个时间步t，首先提取音频特征s_t和讲者的音频特征

然后使用一个多模态的特征融合函数f_am进行非线性特征转换，得到拟人化特征。

为了确保虚拟对象能够以某种态度做出反应，并产生更自然的头部动作和表情变化，将态度e和听者的参考图像的特征

(相当于第一姿态表情特征)作为虚拟对象视频序列的第一帧。然后，在每个时间步t，将讲者的融合特征

(相当于拟人化特征)作为输入，生成t+1步的预测视频帧。最后，使用听者解码器将预测视频帧解码为

其中包含两个特征向量，即

表示表情，

表示姿态(旋转和平移)。终端支持任意长度的讲者输入。该流程可以表述为：

其中，

表示预测的表情，

表示预测的姿态(旋转和平移)；D_m和LSTM均是听者解码器中的组成单元，用于生成多帧姿态表情特征；

表示融合特征；h_t表示预测视频帧；c_t表示存储预测视频帧。

可以理解的是，终端可以根据采集的真实对象的音视频序列，通过讲者编码器和听者解码器进行处理，生成虚拟对象视频序列，使得虚拟对象的视频序列更加生动和准确。

基于上述实施例的视频生成方法，本发明实施例还提供了一种视频生成装置，如图11所述，图11为本发明实施例提供的一种视频生成的结构示意图一，该装置11包括：获取单元1101、确定单元1102和生成单元1103；其中，

所述获取单元1101，用于采集真实对象的音视频序列；

所述确定单元1102，用于对所述音视频序列进行特征提取，确定拟人化特征；

所述生成单元1103，用于利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象视频序列；所述预设的标准特征为参考对象对应的特征；所述第一特征表征不同的态度；所述虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；呈现所述虚拟对象的视频序列。

在本发明的一些实施例中，所述获取单元1101，用于获取预设的标准特征；所述预设的标准特征包括第一姿态表情特征和第一身份特征；

所述确定单元1102，用于基于所述第一姿态表情特征、所述拟人化特征和所述第一特征，通过所述虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征；

所述生成单元1103，用于基于所述虚拟对象的多帧姿态表情特征和所述第一身份特征，生成所述虚拟对象的视频序列。

在本发明的一些实施例中，所述获取单元1101，用于获取标准图像；所述标准图像表征参考对象的图像；通过人脸重建模型对所述标准图像进行特征提取，得到所述预设的标准特征。

在本发明的一些实施例中，所述拟人化特征包括：所述音视频序列对应的多帧拟人化特征；所述虚拟预测网络包括：第一处理模块和第二处理模块；所述确定单元1102，用于基于所述多帧拟人化特征中的第一帧拟人化特征、所述第一姿态表情特征和所述第一特征，通过所述第一处理模块进行预测，得到下一个预测视频帧；所述第一特征为积极态度、消极态度和普通态度中的一种；通过所述第二处理模块对所述下一个预测视频帧进行解码，确定所述下一个预测视频帧对应的所述虚拟对象的下一个姿态表情特征；基于所述下一个姿态表情特征和所述多帧拟人化特征中的下一帧拟人化特征，继续进行预测和解码，直至得到最后一个预测视频帧对应的所述虚拟对象的最后一个姿态表情特征时为止，从而得到所述虚拟对象的多帧姿态表情特征；所述第一姿态表情特征作为所述多帧姿态表情特征中的第一帧。

在本发明的一些实施例中，所述获取单元1101，用于将所述多帧姿态表情特征中的每一帧姿态表情特征分别与所述第一身份特征进行融合，得到多个第二特征；所述第二特征表征身份特征与姿态表情特征的融合结果；

所述生成单元1103，用于将所述多个第二特征通过渲染器，生成所述虚拟对象对应的所述虚拟对象的视频序列；所述第一身份特征包括第一身份标识、第一材质和第一光照信息。

在本发明的一些实施例中，所述音视频序列包括：真实对象的音频序列和真实对象的视频序列；所述获取单元1101，用于通过编码器对所述真实对象的视频序列进行特征提取，得到多个视频特征；通过编码器对所述真实对象的音频序列进行特征提取，得到多个音频特征；所述音频特征包括响度、过零率和倒频谱系数；

所述确定单元1102，用于基于所述多个视频特征和所述多个音频特征，通过特征融合函数进行特征转换，确定所述拟人化特征；所述拟人化特征为音视频序列对应的多帧拟人化特征；所述拟人化特征包括视频特征和音频特征。

在本发明的一些实施例中，所述获取单元1101，用于通过人脸重建模型对所述真实对象的视频序列的每一帧视频帧进行特征提取，得到所述多个视频帧特征；所述视频帧特征包括第二身份特征和第二姿态表情特征；

所述确定单元1102，用于将所述真实对象的视频序列中对应的所有所述第二姿态表情特征作为所述视频特征。

在本发明的一些实施例中，所述获取单元1101，用于采集真实倾诉对象的音视频序列样本，及其对应的真实倾听对象的人脸图像；

所述确定单元1102，用于通过初始编码器对所述音视频序列样本进行特征提取，确定拟人化样本特征；

所述生成单元1103，用于通过所述初始虚拟预测网络和所述拟人化样本特征，生成训练真实对象的样本音视频序列下的预测人脸特征；所述预测人脸特征包含预测姿态特征和预测表情特征；

所述确定单元1102，用于根据所述真实倾听对象的人脸图像，通过人脸重建模型进行特征提取，确定真实人脸特征，所述真实人脸特征包括真实姿态特征和真实表情特征；通过第一损失函数和所述拟人化样本特征不断优化所述初始编码器，直到第一损失函数值满足第一预设阈值，确定所述编码器；基于所述真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，直到第二损失函数值与第三损失函数值的和满足第二预设阈值，确定所述虚拟预测网络。

在本发明的一些实施例中，所述确定单元1102，用于基于所述真实人脸特征和所述预测人脸特征，确定第二损失函数；所述第二损失函数用来保证预测表情、预测姿态与真实表情、真实姿态相似；基于所述真实人脸特征对应的变化函数和所述预测人脸特征对应的变化函数，确定第三损失函数；所述第三损失函数用来保证预测人脸特征的帧间连续性与真实人脸特征相似；通过所述第二损失函数和所述第三损失函数，持续优化初始虚拟预测网络，直到第二损失函数值与第三损失函数值的和满足第二预设阈值，确定所述虚拟预测网络。

需要说明的是，在进行视频生成时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其具体实现过程及有益效果详见方法实施例，这里不再赘述。对于本装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

基于上述实施例的视频生成方法，本发明实施例还提供一种视频生成装置，如图12所示，图12为本发明实施例提供的一种视频生成装置的结构示意图二，该装置12包括：处理器1201和存储器1202；存储器1202存储处理器可执行的一个或者多个程序，当一个或者多个程序被执行时，通过处理器1201执行如前所述实施例的任意一种视频生成方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种视频生成方法，其特征在于，包括：

采集真实对象的音视频序列；

对所述音视频序列进行特征提取，确定拟人化特征；

利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列；所述预设的标准特征为参考对象对应的特征；所述第一特征表征不同的态度；所述虚拟对象的视频序列是根据真实对象的音视频序列生成虚拟对象相应反应的视频序列；

呈现所述虚拟对象的视频序列。

2.根据权利要求1所述的方法，其特征在于，所述利用虚拟预测网络、预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取预设的标准特征，包括：

获取标准图像；所述标准图像表征参考对象的图像；

4.根据权利要求2所述的方法，其特征在于，所述拟人化特征包括：所述音视频序列对应的多帧拟人化特征；所述虚拟预测网络包括：第一处理模块和第二处理模块；

所述基于所述第一姿态表情特征、所述拟人化特征和所述第一特征，通过所述虚拟预测网络进行预测和解码，确定虚拟对象的多帧姿态表情特征，包括：

基于所述多帧拟人化特征中的第一帧拟人化特征、所述第一姿态表情特征和所述第一特征，通过所述第一处理模块进行预测，得到下一个预测视频帧；其中，所述第一特征为积极态度、消极态度和普通态度中的一种；

5.根据权利要求2所述的方法，其特征在于，所述基于所述虚拟对象的多帧姿态表情特征和所述第一身份特征，生成所述虚拟对象的视频序列，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述音视频序列包括：真实对象的音频序列和真实对象的视频序列；

所述对所述音视频序列进行特征提取，确定拟人化特征，包括：

通过编码器对所述真实对象的视频序列进行特征提取，得到多个视频特征；

7.根据权利要求6所述的方法，其特征在于，所述通过编码器对所述真实对象的视频序列进行特征提取，得到多个视频特征，包括：

8.根据权利要求1-5任一项所述的方法，其特征在于，所述利用虚拟预测网络和预设的标准特征，以及第一特征对所述拟人化特征进行预测，生成虚拟对象的视频序列之前，所述方法还包括：

通过初始编码器对所述音视频序列样本进行特征提取，确定拟人化样本特征；

基于所述真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，直到第二损失函数值和第三损失函数值均满足第二预设阈值，确定所述虚拟预测网络。

9.根据权利要求8所述的方法，其特征在于，所述基于所述真实人脸特征和预测人脸特征，通过第二损失函数和第三损失函数不断优化初始虚拟预测网络，直到第二损失函数值和第三损失函数值满足第二预设阈值，确定所述虚拟预测网络，包括：

10.一种视频生成装置，其特征在于，包括获取单元、确定单元和生成单元；其中，

所述获取单元，用于采集真实对象的音视频序列；

11.一种视频生成装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1-9任一项所述的视频生成方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有可执行指令，当所述可执行指令被执行时，用于引起处理器执行如权利要求1-9任一项所述的视频生成方法。