CN117156081A

CN117156081A - 说话人视频的编辑帧生成方法、装置、电子设备及介质

Info

Publication number: CN117156081A
Application number: CN202311418899.4A
Authority: CN
Inventors: 王伟; 董晶; 彭勃; 杨嵩林; 吕月明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2023-12-01
Anticipated expiration: 2043-10-30
Also published as: CN117156081B

Abstract

本发明实施例涉及一种说话人视频的编辑帧生成方法、装置、电子设备及介质，通过确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列；提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值构成所述视频帧序列的第一动作特征序列；将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从中提取出所述待编辑帧对应的动作特征；将第一上下文视频帧和待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧；实现高效、平滑地生成视频帧。

Description

说话人视频的编辑帧生成方法、装置、电子设备及介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种说话人视频的编辑帧生成方法、装置、电子设备及介质。

背景技术

说话人视频编辑任务是指对已录制好的人脸说话视频内容进行插入、删除或替换等，其核心挑战是如何生成音唇一致性好且与插入点前后帧动作平滑的视频帧。

相关技术中，通常基于三维人脸统计模型（3D Morphable Model，简称3DMM）或隐式辐射场的渲染模型生成视频帧，但是上述方法无法保证生成视频帧与前后视频帧的动作平滑度。

发明内容

本发明提供了一种说话人视频的编辑帧生成方法、装置、电子设备及介质，以解决目前生成的频帧无法与前后视频帧的动作平滑度不高的技术问题。

第一方面，本发明提供了一种说话人视频的编辑帧生成方法，包括：确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧；提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列；将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征；将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧。

在一些实施例中，所述赋予所述待编辑帧动作特征初始值，包括：计算所述第一上下文视频帧的动作特征平均值；将所述第一上下文视频帧的动作特征平均值确定为所述待编辑帧的动作特征初始值。

在一些实施例中，所述将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中之前，还包括：获取原说话人视频对应的原语音片段的原语音特征序列，获取原说话人视频对应的原视频帧序列的原动作特征序列；随机屏蔽所述原语音片段中的语音子片段，并确定所述原说话人视频中与所述语音子片段对应的目标视频帧以及所述目标视频帧的第二上下文视频帧；获取所述第二上下文视频帧的动作特征，并将所述第二上下文视频帧的动作特征平均值确定为所述目标视频帧的动作特征初始值，所述第二上下文视频帧的动作特征和目标视频帧的动作特征初始值构成所述原视频帧序列的第三动作特征序列；将所述原语音特征序列和第三动作特征序列拼接后输入到初始动作预测模型中，预测出原语音片段驱动的原视频帧序列的第四动作特征序列，所述初始动作预测模型经过预训练；根据所述第四动作特征序列和原动作特征序列的差值、所述第四动作特征序列中各相邻视频帧的动作特征差值确定损失函数值；重复执行所述随机屏蔽所述原语音片段中的语音子片段的步骤，直至所述损失函数值最小化，获得训练好的动作预测模型。

在一些实施例中，所述动作特征包括嘴唇特征、表情特征和姿态特征中的至少一种；所述提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，包括：基于语音识别模型DeepSpeech提取所述目标语音片段的语音特征序列；基于唇读模型LipNet提取所述第一上下文视频帧的嘴唇特征；基于表情和姿态捕捉模型DECA提取所述第一上下文视频帧的表情特征和姿态特征。

在一些实施例中，所述将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧，包括：将所述第一上下文视频帧作为参考视频帧进行形变、特征融合处理，获得参考动作特征，获取所述第一上下文视频帧对应的相机位姿信息；将所述相机位姿信息、所述参考动作特征以及待编辑帧的动作特征输入到全连接神经网络模型中，输出待编辑帧的各像素点的颜色和密度；基于所述待编辑帧的各像素点的颜色和密度进行渲染，得到目标编辑帧。

在一些实施例中，所述确定原说话人视频的编辑点，包括：基于语音到文本工具确定所述原说话人视频的时间对齐的视频文本，并基于所述时间对齐的视频文本确定编辑点的起始时间；基于文本到语音工具生成所述目标语音片段，并基于所述目标语音片段中的编辑语音确定编辑点的持续时间，根据所述持续时间确定待编辑帧的帧数。

在一些实施例中，所述方法还包括：基于所述目标语音片段和所述目标编辑帧在所述原说话人视频的编辑点进行相应的编辑处理，其中，所述编辑处理包括以下至少一种：插入、删除、替换。

第二方面，本发明提供一种说话人视频的编辑帧生成装置，包括：预对准模块，用于确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧；还用于提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列；动作预测模块，用于将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征；神经渲染模块，用于将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧。

第三方面，本发明提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现第一方面任一项所述的说话人视频的编辑帧生成方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面任一项所述的说话人视频的编辑帧生成方法的步骤。

本发明实施例提供的说话人视频的编辑帧生成方法、装置、电子设备及介质，通过确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧；提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列；将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征；将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧；即本发明的实施例通过将包含上下文信息的语音特征序列和动作特征序列输入到动作预测模型中，预测出编辑后语音片段所驱动的视频帧的动作特征序列，并通过渲染模型生成对应的视频帧，根据上下文信息生成视频帧，提高了与前后视频帧之间的运动平滑度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种说话人视频的编辑帧生成方法的流程示意图；

图2为本发明实施例提供的一种动作预测模型训练方法的流程示意图；

图3为图1所示实施例中步骤S104的一种详细流程图；

图4为本发明实施例提供的一种说话人视频的编辑帧生成方法的流程框图；

图5为本发明实施例提供的一种说话人视频的编辑帧生成装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

说话人视频编辑任务涉及“文本-语音-视觉”多模态操作，旨在实现对已录制好的人脸说话视频内容进行插入、删除或替换操作，该任务的核心挑战是如何生成音唇一致性好且与插入点前后帧动作一致的说话人视频帧。

相关技术中，为了实现说话人视频编辑处理，通常是利用训练好的视频生成模型来生成满足编辑目的的视频帧，主要包括以下三种方法：

（1）第一种方法是基于音频驱动、非神经辐射场（Neural Radiance Fields，简称NeRF）的视频生成模型，该模型完全基于卷积。虽然该模型是在由数千个不同说话人身份组成的大型数据集上训练，但无法将视觉上可比的结果与特定于个人的方法进行综合，并且由于缺乏对头部姿势和表情的明确控制，很难编辑非语言动作，无法顺利插入原始说话人视频。

（2）第二种方法是基于NeRF的渲染模型，该模型可在几分钟甚至几秒钟的视频数据上训练，合成个性化的全头图像。尽管具有数据效率的优点，但实际上需要对姿势序列进行采样以进行面部再现（即只能用原始姿势序列和新的音频序列来驱动目标身份），如果用于视频编辑，必须以高昂的劳动力成本精心采样姿势序列，并且在生成运动平滑的编辑帧方面仍然不足，缺乏对语言和非语言运动的精细控制。

（3）第三种方法是基于文本的说话人视频编辑方法，通过采用3D人脸模型来理清头部姿势和表情，并使用完全卷积网络来合成人脸图像，但是该模型至少需要几分钟的源视频和数小时的训练时间，这在应用场景中是不切实际的。因为在许多情况下，用户需要编辑短视频中的几个单词（例如，几秒钟），这意味着只有几秒钟的视频可用于训练，如果用户收到的编辑结果不令人满意，他们需要收集更长的视频，用户体验不佳。

综上，亟需一种新的说话人视频的编辑帧的生成方法，能够生成与前后帧动作平滑的视频帧，且只需很少的视频帧和很少的训练时间就可以有效地实现说话人视频编辑。

针对上述技术问题，本发明的技术构思在于：提取围绕原说话人视频的编辑点的新语音片段的语音特征序列和视频帧序列的动作特征序列；将语音特征序列和动作特征序列输入到动作预测模型中，预测出新语音片段驱动的视频帧序列的动作特征序列；通过预测的动作特征序列和上下文视频帧，神经渲染模型能够生成新的编辑帧，这些编辑帧与相邻的原始视频帧具有照片逼真性和运动平滑性。

图1为本发明实施例提供的一种说话人视频的编辑帧生成方法的流程示意图，其执行主体为说话人视频的编辑帧生成装置，或者部署有说话人视频的编辑帧生成装置的电子设备。如图1所示，该说话人视频的编辑帧生成方法包括：

步骤S101、确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧。

具体地，当需要对原说话人视频进行编辑（插入、删除或替换某些单词）时，可先确定编辑点，编辑点可理解为原说话人视频中待编辑单词对应的时间戳信息；然后确定出围绕编辑点的目标语音片段和视频帧序列，其中，目标语音片段包括编辑点对应的编辑语音和上下文语音，视频帧序列包括编辑点对应的待编辑帧和上下文视频帧。例如，原说话人视频为说话人A在说“我们都喜欢苹果”的头部视频片段，需要将其编辑为说话人A在说“我们都不喜欢苹果”的新头部视频片段，可确定出编辑点为“喜”的起始时间戳，围绕该编辑点的目标语音片段为“我们都不喜欢苹果”，视频帧序列包括新插入单词“不”对应的待编辑帧和上下文视频帧。

优选的，视频帧序列为预设固定帧数（如50帧），即待编辑帧和上下文视频帧的帧数之和为预设固定帧数。比如当编辑的新语音单词对应的待编辑帧的帧数为20帧时，则从原说话人视频中抽取出与待编辑帧相邻的30帧视频帧，若编辑的新语音单词对应的待编辑帧的帧数为30帧时，则从原说话人视频中抽取出与待编辑帧相邻的20帧的视频帧。需要说明的是，视频帧序列的帧数固定，便于输入到后续模型中。

在一些实施例中，所述步骤S101中的确定原说话人视频的编辑点，包括如下步骤：基于语音到文本工具确定所述原说话人视频的时间对齐的视频文本，并基于所述时间对齐的视频文本确定编辑点的起始时间；基于文本到语音工具生成所述目标语音片段，并基于所述目标语音片段中的编辑后语音确定编辑点的持续时间，根据所述持续时间确定待编辑帧的帧数。

具体地，给定原说话人视频后，可采用语音到文本工具（speech to text，简称STT）获得时间对齐的视频文本，可确定出待编辑单词的起始帧；再采用文本到语音工具（text to speech，简称TTS）生成目标语音片段，并可根据目标语音片段中的编辑语音确定出编辑点的持续时间，再根据编辑点的持续时间和25fps(每秒帧数)可确定出待编辑帧的帧数。

例如，采用STT工具确定原说话人视频“我们都喜欢苹果”的时间对齐的视频文本，获取“喜”的起始时间为编辑点的起始时间，再根据TTS工具生成“我们都不喜欢语音”语音片段，并将“不”所持续时间确定为编辑点的持续时间，最后确定出“不”对应的待编辑帧的帧数，因视频帧序列为预设固定帧数，则可进一步确定出从原说话人视频中提取的上下文视频帧的帧数。

步骤S102、提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列。

具体地，分别获取目标语音片段的语音特征序列和视频帧序列的动作特征序列。其中，目标语音片段的语音特征序列包括编辑后语音对应的语音特征序列和上下文语音对应的语音特征序列；视频帧的动作特征序列包括待编辑帧对应的动作特征和上下文视频帧对应的动作特征，其中，上下文视频帧的动作特征可直接提取，待编辑帧的动作特征通过初始化获得。

在一些实施例中，所述步骤S102中的所述赋予所述待编辑帧动作特征初始值，包括：计算所述第一上下文视频帧的动作特征平均值；将所述第一上下文视频帧的动作特征平均值确定为所述待编辑帧的动作特征初始值。

具体地，将待编辑帧的相邻视频帧的动作特征平均值初始化为各待编辑帧的动作特征初始值，也就是说，本实施例中的待编辑帧的动作特征初始值不从零开始预测，而是从与前后视频帧一致的起点出发进行预测的，减少了后续动作预测模型的训练难度，提高动作预测模型的预测效率和精度，也进一步提高了待编辑帧与前后视频帧的动作平滑度。

在一些实施例中，所述动作特征包括嘴唇特征、表情特征和姿态特征中的至少一种，则步骤S102中的提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征包括：基于语音识别模型DeepSpeech提取所述目标语音片段的语音特征序列；基于唇读模型LipNet提取所述第一上下文视频帧的嘴唇特征；基于表情和姿态捕捉模型DECA提取所述第一上下文视频帧的表情特征和姿态特征。

具体地，视频帧的动作特征可分为语言相关的动作特征（如嘴唇特征）和非语言相关的动作特征（表情特征、姿态特征等）。通过DeepSpeech从目标语音片段中提取语音特征，通过唇读模型LipNet从上下文视频帧中提取嘴唇特征，用于上下文信息嵌入，通过DECA从上下文视频帧中提取表情和姿态特征，以约束预测人脸的头部姿态和表情。另外需要说明的是，在DeepSpeech、LipNet、DECA模型后可分别接入全连接神经网络，获得长度一定序列，方便后续模型处理。

需要说明的是，本实施例从视频帧中提取出解耦的动作特征，包括表情（）、姿态(/>)和嘴唇特征（/>），该解耦的动作特征（即嘴唇、头部姿势和表情的特征）降低了对齐语音和非语言视觉内容的数据要求。

步骤S103、将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征。

具体地，动作预测模型由一个内容编码器和N个解码器组成。内容编码器采用了transformer结构中的多个模块，共由6层相同结构组成，每层结构包含一个多头自注意力机制层、一个位置前馈网络。解码器由多个基于MOE（Mixture-Of-Experts，混合专家）结构的transformer模块组成，其中每个MOE包含了多个专家网络和一个门控网络。每个专家网络的结构是相同的，都是由一个卷积层和一个全连接层组成，但是每个专家网络的参数是不同的。门控网络的输出是一个多维向量，专家网络会选取其中前K个最高值输出至下一层。参考语言学中汉语或者英语的音素的数量，专家网络的数量被设定为48。根据预定义好的视素数量，K的值被设定为16。

该动作预测模型可表示为P，可以公式化如下：

（1）

其中，S表示目标语音片段对应的语音特征序列，可写成S=（，…，/>,…，/>，…，)，1≤j≤k≤T表示编辑语音对应的第j帧-第k帧；A表示第一动作特征序列，可写成A=（，…,/>，…，/>,…,/>)，基于相邻视频帧的平均向量作为{/>}中的向量，其中j≤t≤k。由公式（1）可知，通过动作预测模型P，可预测出视频帧序列对应的动作特征序列，并从中提取出第j帧-第k帧的动作特征。

步骤S104、将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧。

具体地，神经渲染模型可以为利用大规模数据集预训练的基于NeRF的头部渲染模型，而后通过很少的帧进行有效的微调，获得用于生成照片逼真度和全头部图像的特定于个人的渲染模型。本步骤中，上下文视频帧作为参考视频帧，并将步骤S103预测出的待编辑帧的动作特征输入到神经渲染模型中，获得目标编辑帧。

在一些实施例中，所述步骤S104之后，还包括：基于所述目标语音片段和所述目标编辑帧在所述原说话人视频的编辑点进行相应的编辑处理，其中，所述编辑处理包括以下至少一种：插入、删除、替换。

具体地，原说话人视频插入新单词时，首先基于STT工具确定原说话人视频的编辑点，即插入点，根据插入点位置确定待编辑帧的起始帧，并且将从TTS工具获得该插入单词的新语音的持续时间；后续再使用动作预测模块获得其对应的动作特征序列，然后使用神经渲染模块获得编辑后的目标视频帧序列，最后将目标语音片段和目标视频帧插入到该编辑点。

原说话人视频中删除某个单词时，首先删除与该单词对应的视频帧，然后重新生成断开连接的视频帧，以获得平滑的视频帧。

原说话人视频中替换某个单词时，首先删除相应单词及视频帧，并确定要替换单词的起始点，并根据新单词确定持续时间，然后使用动作预测模块获得其对应的动作特征序列，然后使用神经渲染模块获得编辑后的目标视频帧序列，最后将目标语音片段和目标视频帧插入到该编辑点。

本发明实施例提供的说话人视频的编辑帧生成方法，通过提取围绕原说话人视频的编辑点的语音片段的语音特征和视频帧序列的动作特征；动作预测模型预测出新语音片段驱动的视频帧序列的动作特征序列；通过预测的动作特征序列和上下文视频帧，神经渲染模型能够生成新的编辑帧，这些编辑帧与相邻的原始视频帧具有照片逼真性和运动平滑性。

在上述实施例的基础上，图2为本发明实施例提供的一种动作预测模型训练方法的流程示意图，如图2所示，在步骤S103之前，还包括如下步骤：

步骤S201、获取原说话人视频对应的原语音片段的原语音特征序列，获取原说话人视频对应的原视频帧序列的原动作特征序列。

具体地，可基于DeepSpeech模型提取原语音片段的原语音特征序列，基于LipNet模型提取原视频帧序列的嘴唇特征，基于DECA模型提取原视频帧序列的姿态特征和表情特征，将嘴唇特征、姿态特征和表情特征进一步拼接得到原视频帧序列对应的原动作特征序列，原动作特征序列可作为原语音片段的实际标签。

步骤S202、随机屏蔽所述原语音片段中的语音子片段，并确定所述原说话人视频中与所述语音子片段对应的目标视频帧以及所述目标视频帧的第二上下文视频帧。

具体地，为了生成训练样本，可随机屏蔽原语音片段的单词，并确定被屏蔽单词对应的目标视频帧以及对应的上下文视频帧。

步骤S203、获取所述第二上下文视频帧的动作特征，并将所述第二上下文视频帧的动作特征平均值确定为所述目标视频帧的动作特征初始值，所述第二上下文视频帧的动作特征和目标视频帧的动作特征初始值构成所述原视频帧序列的第三动作特征序列。

具体地，可获取被屏蔽单词的上下文视频帧的动作特征，并根据上下文视频帧的动作特征平均值确定被屏蔽单词的目标视频帧的动作特征初始值，上下文视频帧的动作特征和目标视频帧的动作特征初始值构成样本动作特征序列（即第三动作特征序列）。

步骤S204、将所述原语音特征序列和第三动作特征序列拼接后输入到初始动作预测模型中，预测出原语音片段驱动的原视频帧序列的第四动作特征序列，所述初始动作预测模型经过预训练。

具体地，将原语音特征序列和样本动作特征序列输入到初始动作预测模型中，输出原视频帧序列的动作特征序列预测值，即第四动作特征序列。

步骤S205、根据所述第四动作特征序列和原动作特征序列的差值、所述第四动作特征序列中各相邻视频帧的动作特征差值确定损失函数值。

步骤S206、确定所述损失函数值是否最小化。

若否，则返回执行步骤S202，若是，则执行步骤S207。

步骤S207、获得训练好的动作预测模型。

具体地，在获得原视频帧序列的动作特征序列预测值后，根据与实际标签（原动作特征序列）之间的差值、动作特征序列预测值中各相邻帧的动作特征的差值（表征前后帧的平滑度）来确定损失函数值，若损失函数值最小化，则确定当前动作预测模型为训练好的动作预测模型，否则返回执行步骤S202。

本实施例中的动作预测模型是采用序列到序列的建模，可采用非自回归策略对动作特征序列的上下文信息进行建模，即基于变换器的网络来捕捉特征序列中的短期和长期相关性。先采用大规模数据集学习语音-动作的映射先验知识，获得预训练的初始动作预测模型，提高动作预测模型的泛化性；然后通过执行步骤S201-S207，利用原说话人视频对预训练后的初始动作预测模型进行微调，即通过随机屏蔽一些单词并保留语音特征，同时用其上下文视频帧的动作特征平均值替换相应的姿势、表情和嘴唇特征来获得训练数据，利用训练数据对动作预测模型进行训练，其中，训练的优化目标如下：

（2）

（3）

（4）

其中，表示语言特征损失项，通过实际嘴唇特征值/>和预测嘴唇特征值/>之间的差值确定，/>表示非语言特征损失项，通过实际表情特征值/>和预测表情特征值/>之间的差值、实际姿态特征值/>和预测姿态特征值/>之间的差值确定，/>表示平滑度损失项，通过所预测出的相邻视频帧之间的动作特征差值确定。

相应的，动作预测模型的损失函数可以表示为：

（5）

其中，、/>分别表示预设系数。

在前述实施例的基础上，采用非自回归Transformer架构先在大型视频数据集上进行有效训练，利用了大型视频数据集的先验知识来实现嘴唇的准确性；然后利用原说话人视频的包含上下文信息的训练数据对齐进行训练，实现高效训练动作预测模型。

在上述实施例的基础上，图3为图1所示实施例中步骤S104的一种详细流程图，如图4所示，该步骤S104包括：

步骤S1041、将所述第一上下文视频帧作为参考视频帧进行形变、特征融合处理，获得参考动作特征，获取所述第一上下文视频帧对应的相机位姿信息。

步骤S1042、将所述相机位姿信息、所述参考动作特征以及待编辑帧的动作特征输入到全连接神经网络模型中，输出待编辑帧的各像素点的颜色和密度。

步骤S1043、基于所述待编辑帧的各像素点的颜色和密度进行渲染，得到目标编辑帧。

具体地，本实施例中的神经渲染模型由面部神经辐射场（全连接神经网络模型）F和形变模块D组成。渲染一帧待编辑帧的画面需要得到每一个像素点的颜色值，而每个像素点的颜色值沿投影方向采样多个空间点的颜色、密度值，再根据体渲染公式得到。

面部神经辐射场F用于得到每个空间点的颜色、密度值，它采用全连接神经网络，输入是采样点三维空间坐标p=（x，y，z）、投影方向d=（,/>）、待编辑帧的动作特征/>以及参考动作特征/>，输出是采样点的颜色c和密度/>，其过程可以公式化如下：

（6）

其中，待编辑帧的动作特征是从动作预测模型获得的，是由表情、姿态以及唇部动作特征拼接得到；对于参考特征/>，采样视频上下文M帧，将其形变为图像特征图I，其中H和W是视频的尺寸；图像特征图中的每个特征定义为/>，采用三层全连接神经网络作为形变模块D，用来预测待预测像素值相对于每个图像特征图中特征/>的型变量/>。其中，形变模块D还需要输入对应待预测帧的动作特征/>，该过程可以表示为：

（7）

然后，采用可微策略和基于注意力机制的特征融合方法组合这些形变特征，得到最终的参考特征f。

最后，采用体积渲染将这些空间点的颜色、密度值渲染为像素值，并组合所有像素值得到最终的人像视频帧。其中，视频背景、躯干和颈部均被视为背景，是预先逐帧存储好的，不需要额外渲染。前景头部部分的渲染遵循体渲染方法，在给定动作和参考特征的条件下，每个像素点的具体颜色C，是沿着投影射线r的累积得到，该过程可以公式化如下：

（8）

（9）

上述公式（7）是一个沿着相机光线r的透射率表达，其中和/>是相机光线的近界和远界。在使用神经渲染模型前，需先对其进行训练，将最小化预测颜色/>与标签之间的距离为优化目标，公式如下：

（10）

在前述实施例的基础上，该模块采用了预先训练的基于NeRF的头部拓扑结构，并且只使用很少的帧进行有效的微调，以获得用于生成照片逼真度和全头部图像的特定于个人的渲染模型。

为了更详细了解本发明实施例，图4为本发明实施例提供的一种说话人视频的编辑帧生成方法的流程框图，如图4所示，主要包括预对准模块、动作预测模块和神经渲染模块，现结合图4，对将原说话人视频“我们都喜欢苹果”编辑为“我们都不喜欢苹果“的过程进行详细描述：

首先，在预对准模块中，采用STT工具生成时间对齐的视频文本确定编辑点，采用TTS工具生成目标语音片段“我们都不喜欢苹果”，并根据新插入词“不”的语音持续时间确定待编辑帧的帧数，并从原说话人视频中提取多个相邻视频帧。

然后，基于Deepspeech模型提取目标语音片段的语音特征序列S_1：T；基于LipNet模型提取相邻视频帧的语言特征，即嘴唇特征，并根据相邻视频帧的嘴唇特征平均值确定待编辑帧的初始嘴唇特征值，相邻视频帧的嘴唇特征和待编辑帧的初始嘴唇特征值构成嘴唇特征序列；基于DECA模型提取相邻视频帧的非语言特征，即表情特征和姿态特征，并根据相邻视频帧的表情特征平均值确定待编辑帧的初始表情特征值，根据相邻视频帧的姿态特征平均值确定待编辑帧的初始姿态特征值，相邻视频帧的表情特征和待编辑帧的初始表情特征值构成表情特征序列/>，相邻视频帧的姿态特征和待编辑帧的初始姿态特征值构成姿态特征序列/>。

在动作预测模块中，将语音特征序列S_1：T、表情特征序列、姿态特征序列/>以及嘴唇特征序列/>进行拼接（Concatenation）输入到基于Transformer架构的动作预测模型中，输出目标语音片段驱动的动作特征序列，包括嘴唇特征序列/>、表情特征序列、姿态特征序列/>，并从中提取待编辑帧的动作特征a ( Exp/>, Pose/>, Lip/>)，即待编辑帧对应的嘴唇特征/>、表情特征/>、姿态特征/>的拼接特征；

在神经渲染模块中，将编辑点的上下文视频帧作为参考视频帧进行形变、特征融合处理，获得参考动作特征f，并获取参考视频帧的相机位姿信息（三维点坐标p和投影位置d），将待编辑帧的动作特征( Exp/>, Pose/>, Lip/>)、参考动作特征/> 、三维点坐标p、投影位置d拼接后输入到全连接神经网络模型中，获得各待编辑帧的各像素点的颜色和密度，并基于体渲染渲染获得目标编辑帧。

最后将生成的目标编辑帧插入到原说话人视频的编辑点处即可，当然还可以进行删除和替换操作。对于删除，需要生成生成断开的帧以保持连续的运动平滑，对于插入和替换，编辑后的目标编辑帧不仅要确保精确的嘴唇同步，还要保持编辑后的视频片段和原始视频帧序列之间的运动平滑度。另外，在进行说话人视频编辑前，还需先对动作预测模块中的动作预测模型和神经网络模型进行训练。

综上，本发明实施例利用上下文感知来提高编辑效率和流畅性，其中，动作预测模块被设计为预测与编辑单词相对应的动作特征序列，特别是，该模块将动作条件嵌入为潜在特征序列，然后采用非自回归Transformer架构在大型视频数据集上进行有效训练，它充分利用了原始视频的上下文信息来实现运动平滑，同时利用了大型视频数据集的先验知识来实现嘴唇的准确性。然后神经渲染模块采用了预先训练的基于NeRF的头部拓扑结构，并且只使用很少的帧进行有效的微调，以获得用于生成照片逼真度和全头部图像的特定于个人的渲染模型。此外，解耦的动作特征（即嘴唇、头部姿势和表情的特征）降低了对齐语音和非语言视觉内容的数据要求。也就是说，本发明实施例能够取得高效、动作解耦和时序平滑的效果。

图5为本发明实施例提供的一种说话人视频的编辑帧生成装置的结构示意图，如图5所示，该说话人视频的编辑帧生成装置包括预对准模块501、动作预测模块502和神经渲染模块503；

其中，预对准模块501，用于确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧；还用于提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列；动作预测模块502，用于将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征；神经渲染模块503，用于将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧。

在一些实施例中，所述预对准模块501，具体用于：计算所述第一上下文视频帧的动作特征平均值；将所述第一上下文视频帧的动作特征平均值确定为所述待编辑帧的动作特征初始值。

在一些实施例中，所述动作预测模块502，还用于：将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中之前，获取原说话人视频对应的原语音片段的原语音特征序列，获取原说话人视频对应的原视频帧序列的原动作特征序列；随机屏蔽所述原语音片段中的语音子片段，并确定所述原说话人视频中与所述语音子片段对应的目标视频帧以及所述目标视频帧的第二上下文视频帧；获取所述第二上下文视频帧的动作特征，并将所述第二上下文视频帧的动作特征平均值确定为所述目标视频帧的动作特征初始值，所述第二上下文视频帧的动作特征和目标视频帧的动作特征初始值构成所述原视频帧序列的第三动作特征序列；将所述原语音特征序列和第三动作特征序列拼接后输入到初始动作预测模型中，预测出原语音片段驱动的原视频帧序列的第四动作特征序列，所述初始动作预测模型经过预训练；根据所述第四动作特征序列和原动作特征序列的差值、所述第四动作特征序列中各相邻视频帧的动作特征差值确定损失函数值；重复执行所述随机屏蔽所述原语音片段中的语音子片段的步骤，直至所述损失函数值最小化，获得训练好的动作预测模型。

在一些实施例中，所述动作特征包括嘴唇特征、表情特征和姿态特征中的至少一种；所述预对准模块501，具体用于：基于语音识别模型DeepSpeech提取所述目标语音片段的语音特征序列；基于唇读模型LipNet提取所述第一上下文视频帧的嘴唇特征；基于表情和姿态捕捉模型DECA提取所述第一上下文视频帧的表情特征和姿态特征。

在一些实施例中，所述神经渲染模块，具体用于：将所述第一上下文视频帧作为参考视频帧进行形变、特征融合处理，获得参考动作特征，获取所述第一上下文视频帧对应的相机位姿信息；将所述相机位姿信息、所述参考动作特征以及待编辑帧的动作特征输入到全连接神经网络模型中，输出待编辑帧的各像素点的颜色和密度；基于所述待编辑帧的各像素点的颜色和密度进行渲染，得到目标编辑帧。

在一些实施例中，所述预对准模块501，具体用于：基于语音到文本工具确定所述原说话人视频的时间对齐的视频文本，并基于所述时间对齐的视频文本确定编辑点的起始时间；基于文本到语音工具生成所述目标语音片段，并基于所述目标语音片段中的编辑语音确定编辑点的持续时间，根据所述持续时间确定待编辑帧的帧数。

在一些实施例中，所述装置还包括编辑处理模块504，所述编辑处理模块504，用于基于所述目标语音片段和所述目标编辑帧在所述原说话人视频的编辑点进行相应的编辑处理，其中，所述编辑处理包括以下至少一种：插入、删除、替换。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的说话人视频的编辑帧生成装置的具体工作过程以及相应的有益效果，可以参考前述方法示例中的对应过程，在此不再赘述。

如图6所示，本发明实施例提供了一种电子设备，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

在本发明一个实施例中，处理器601，用于执行存储器603上所存放的程序时，实现前述任意一个方法实施例提供的说话人视频的编辑帧生成方法的步骤。

本发明实施例提供的电子设备，其实现原理和技术效果与上述实施例类似，此处不再赘述。

上述存储器603可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。存储器603具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如，用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，光盘（CD）、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器603类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括用于执行根据本发明的实施例的方法步骤的程序，即可以由例如诸如601之类的处理器读取的代码，这些代码当由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

本发明的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的说话人视频的编辑帧生成方法的步骤。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人视频的编辑帧生成方法，其特征在于，包括：

确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧；

提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列；

将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征；

将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧。

2.根据权利要求1所述的方法，其特征在于，所述赋予所述待编辑帧动作特征初始值，包括：

计算所述第一上下文视频帧的动作特征平均值；

将所述第一上下文视频帧的动作特征平均值确定为所述待编辑帧的动作特征初始值。

3.根据权利要求2所述的方法，其特征在于，所述将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中之前，还包括：

获取原说话人视频对应的原语音片段的原语音特征序列，获取原说话人视频对应的原视频帧序列的原动作特征序列；

随机屏蔽所述原语音片段中的语音子片段，并确定所述原说话人视频中与所述语音子片段对应的目标视频帧以及所述目标视频帧的第二上下文视频帧；

获取所述第二上下文视频帧的动作特征，并将所述第二上下文视频帧的动作特征平均值确定为所述目标视频帧的动作特征初始值，所述第二上下文视频帧的动作特征和目标视频帧的动作特征初始值构成所述原视频帧序列的第三动作特征序列；

将所述原语音特征序列和第三动作特征序列拼接后输入到初始动作预测模型中，预测出原语音片段驱动的原视频帧序列的第四动作特征序列，所述初始动作预测模型经过预训练；

根据所述第四动作特征序列和原动作特征序列的差值、所述第四动作特征序列中各相邻视频帧的动作特征差值确定损失函数值；

重复执行所述随机屏蔽所述原语音片段中的语音子片段的步骤，直至所述损失函数值最小化，获得训练好的动作预测模型。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述动作特征包括嘴唇特征、表情特征和姿态特征中的至少一种；所述提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，包括：

基于语音识别模型DeepSpeech提取所述目标语音片段的语音特征序列；

基于唇读模型LipNet提取所述第一上下文视频帧的嘴唇特征；

基于表情和姿态捕捉模型DECA提取所述第一上下文视频帧的表情特征和姿态特征。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧，包括：

将所述第一上下文视频帧作为参考视频帧进行形变、特征融合处理，获得参考动作特征，获取所述第一上下文视频帧对应的相机位姿信息；

将所述相机位姿信息、所述参考动作特征以及待编辑帧的动作特征输入到全连接神经网络模型中，输出待编辑帧的各像素点的颜色和密度；

基于所述待编辑帧的各像素点的颜色和密度进行渲染，得到目标编辑帧。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述确定原说话人视频的编辑点，包括：

基于语音到文本工具确定所述原说话人视频的时间对齐的视频文本，并基于所述时间对齐的视频文本确定编辑点的起始时间；

基于文本到语音工具生成所述目标语音片段，并基于所述目标语音片段中的编辑语音确定编辑点的持续时间，根据所述持续时间确定待编辑帧的帧数。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

基于所述目标语音片段和所述目标编辑帧在所述原说话人视频的编辑点进行相应的编辑处理，其中，所述编辑处理包括以下至少一种：插入、删除、替换。

8.一种说话人视频的编辑帧生成装置，其特征在于，包括：

预对准模块，用于确定原说话人视频的编辑点，以及围绕所述编辑点的目标语音片段和视频帧序列，所述目标语音片段包括编辑点对应的编辑语音和上下文语音，所述视频帧序列包括编辑点对应的待编辑帧和第一上下文视频帧；

还用于提取所述目标语音片段的语音特征序列，提取所述第一上下文视频帧的动作特征，并赋予所述待编辑帧动作特征初始值，所述第一上下文视频帧的动作特征和所述待编辑帧的动作特征初始值构成所述视频帧序列的第一动作特征序列；

动作预测模块，用于将所述语音特征序列和第一动作特征序列拼接后输入到训练好的动作预测模型中，预测出所述目标语音片段驱动的视频帧序列的第二动作特征序列，并从所述第二动作特征序列中提取出所述待编辑帧对应的动作特征；

神经渲染模块，用于将所述第一上下文视频帧和所述待编辑帧对应的动作特征输入到训练好的神经渲染模型中，对所述待编辑帧进行渲染，得到目标编辑帧。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的说话人视频的编辑帧生成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的说话人视频的编辑帧生成方法的步骤。