CN108830786A

CN108830786A - 计算机可读存储介质、视频替换合成方法及系统

Info

Publication number: CN108830786A
Application number: CN201810599350.2A
Authority: CN
Inventors: 顾宁宁; 包建鹏; 陈飞
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-11-16
Anticipated expiration: 2038-06-12
Also published as: CN108830786B

Abstract

本发明实施例提供了一种计算机可读存储介质、视频替换合成方法及系统，所述方法包括获取视频对象的待替换面部视频和替换素材面部视频；获取待替换面部视频的待替换视频口型变化无关联点、面部位移距离和面部旋转角度，并获取替换素材面部视频的替换视频口型变化无关联点、面部位移距离和面部旋转角度；对替换素材面部视频进行头部运动消除处理，并进行口型肌群遮罩处理，获得替换素材口型肌群视频；使替换素材口型肌群视频覆盖待替换面部视频中的口型肌群，并根据待替换视频面部位移和待替换视频面部移动和旋转角度旋转替换素材口型肌群视频，获得合成视频。采用系统及方法、存储介质，可以降低对合成视频中视频对象一致性的要求。

Description

计算机可读存储介质、视频替换合成方法及系统

技术领域

本发明实施例涉及视频合成领域，尤其涉及一种计算机可读存储介质、视频替换合成方法及系统。

背景技术

在教学过程中，利用录制视频进行课程的讲解，可以大大解放讲师的工作量，然而由于听课人员的不同，在互动环节，录制视频无法根据正在听课人员的不同而改变，这会大大影响听课人员的感受。

为了改善上述情况，现阶段主要是通过对互动环节部分的视频的剪接替换，形成对应此次课程的听课人员的互动视频，为保证视频的真实性，就要求互动环节的替换视频和整体视频所拍摄的场景以及所拍摄的教师的妆容、服饰等均保持一致，而对于培训机构而言，针对同一教师所录制的视频可能会应用于很多的班级，也就是，对应同一整体视频会有多个替换视频与其结合，也就是会录制多个替换视频，而对视频对象的一致性要求，也造成了拍摄难度的提高。

因此，如何降低对于待合成的不同视频中视频对象的一致性要求，成为亟需解决的技术问题。

发明内容

本发明实施例解决的技术问题是提供一种计算机可读存储介质、视频替换合成方法和系统，可以降低对合成视频中视频对象一致性的要求。

为解决上述问题，本发明实施例提供一种视频替换合成方法，包括：

获取视频对象的待替换面部视频和替换素材面部视频；

获取所述待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取所述替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，所述待替换视频口型变化无关联点和所述替换视频口型变化无关联点为所述视频对象的同一点；

根据所述替换视频面部位移距离和所述替换视频面部旋转角度对所述替换素材面部视频进行头部运动消除处理，并进行口型肌群遮罩处理，获得替换素材口型肌群视频；

将所述替换视频口型变化无关联点覆盖所述待替换视频口型变化无关联点，使所述替换素材口型肌群视频覆盖所述待替换面部视频中的口型肌群，根据所述待替换视频面部位移距离移动所述替换素材口型肌群视频，根据所述待替换视频面部旋转角度旋转所述替换素材口型肌群视频，获得合成视频。

可选地，

所述口型肌群包括所述视频对象的嘴部肌肉群和所述视频对象的嘴部外周线向远离嘴部方向延伸2-4厘米范围内的肌肉群。

可选地，

所述待替换视频口型变化无关联点和所述替换视频口型变化无关联点均为所述视频对象的鼻梁点。

可选地，所述获取所述待替换视频面部旋转角度，包括：

获取辅助待替换视频口型变化无关联点；

计算所述待替换视频口型变化无关联点和所述辅助待替换视频口型变化无关联点在待替换面部视频中的待替换视频两点距离变化量，根据所述待替换视频两点距离变化量计算待替换旋转角度，获得所述待替换视频面部旋转角度。

可选地，所述辅助待替换视频口型变化无关联点为脸颊顶点。

可选地，所述获取所述替换视频面部旋转角度，包括：

获取辅助替换视频口型变化无关联点；

计算所述替换视频口型变化无关联点和所述辅助替换视频口型变化无关联点在替换面部视频中的替换视频两点距离变化量，根据所述替换视频两点距离变化量计算替换旋转角度，获得所述替换视频面部旋转角度。

可选地，所述辅助替换视频口型变化无关联点为脸颊顶点。

可选地，在获得合成视频之后，还包括：

执行对所述替换素材口型肌群视频的开始点进行视频淡入处理和对所述替换素材口型肌群视频的结束点进行视频淡出处理二者中的至少一者。

可选地，还包括执行对所述待替换面部视频的开始点进行音频淡出处理和对所述待替换面部视频的结束点进行音频淡入处理二者中的至少一者。

可选地，还包括执行对所述替换素材面部视频的开始点进行音频淡入处理和对所述替换素材面部视频的结束点进行音频淡出处理二者中的至少一者。

为解决上述问题，本发明还提供一种视频替换合成系统，包括：

视频获取单元，适于获取视频对象的待替换面部视频和替换素材面部视频；

关键点、位移和角度获取单元适于获取所述待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取所述替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，所述待替换视频口型变化无关联点和所述替换视频口型变化无关联点为所述视频对象的同一点；

口型肌群视频获取单元，适于根据所述替换视频面部位移距离和所述替换视频面部旋转角度对所述替换素材面部视频进行头部运动消除处理，并进行口型肌群遮罩处理，获得替换素材口型肌群视频；

视频合成单元适于将所述替换视频口型变化无关联点覆盖所述待替换视频口型变化无关联点，使所述替换素材口型肌群视频覆盖所述待替换面部视频中的口型肌群，根据所述待替换视频面部位移距离移动所述替换素材口型肌群视频，根据所述待替换视频面部旋转角度旋转所述替换素材口型肌群视频，获得合成视频。

可选地，

可选地，所述关键点、位移和角度获取单元包括：

辅助待替换视频口型变化无关联点获取单元，适于获取辅助待替换视频口型变化无关联点；

待替换视频面部旋转角度获取单元，适于计算所述待替换视频口型变化无关联点和所述辅助待替换视频口型变化无关联点在待替换面部视频中的待替换视频两点距离变化量，根据所述待替换视频两点距离变化量计算待替换旋转角度，获得所述待替换视频面部旋转角度。

可选地，所述关键点、位移和角度获取单元，包括：

辅助替换视频口型变化无关联点获取单元，适于获取辅助替换视频口型变化无关联点；

替换视频面部旋转角度获取单元，适于计算所述替换视频口型变化无关联点和所述辅助替换视频口型变化无关联点在替换面部视频中的替换视频两点距离变化量，根据所述替换视频两点距离变化量计算替换旋转角度，获得所述替换视频面部旋转角度。

可选地，所述辅助替换视频口型变化无关联点为脸颊顶点。

可选地，还包括：

视频淡入淡出处理单元，适于执行对所述替换素材口型肌群视频的开始点进行视频淡入处理和对所述替换素材口型肌群视频的结束点进行视频淡出处理二者中的至少一者。

可选地，还包括：

待替换面部视频中音频淡入淡出处理单元，适于执行对所述待替换面部视频的开始点进行音频淡出处理和对所述待替换面部视频的结束点进行音频淡入处理二者中的至少一者。

可选地，还包括：

替换素材面部视频中音频淡入淡出处理单元，适于执行对所述替换素材面部视频的开始点进行音频淡入处理和对所述替换素材面部视频的结束点进行音频淡出处理二者中的至少一者。

为解决所述问题，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上述任一项所述的视频替换合成方法。

与现有技术相比，本发明的技术方案具有以下优点：

采用本发明实施例所提供的计算机可读存储介质、视频替换合成系统及方法，在进行视频的替换合成时，利用替换素材口型肌群视频覆盖待替换面部视频的口型肌群部分，并将其与待替换面部视频进行替换合成，利用替换视频口型变化无关联点覆盖待替换视频口型变化无关联点，实现口型肌群基本位置的确定，并利用待替换视频面部位移距离对替换素材口型肌群进行移动，利用待替换视频面部旋转角度对替换素材口型肌群视频进行角度旋转，实现了口型肌群位置的视频替换。这样，一方面，因为仅仅是对口型肌群位置的视频进行了替换，无需进行整个视频的全部内容进行替换合成，从而，仅需要保证多个视频中口型肌群位置的一致性，而且口型肌群部位不会因为发型、服装的改变而改变，如有妆容，也只需要保证口红颜色基本一致，大大降低了视频替换合成时对于视频对象一致性的要求；另一方面，人类说话时，不仅仅会发生嘴部的变化，嘴部周围的肌肉群体也会发生变化，并且头部也会发生整体运动，就容易造成待替换视频与替换视频合成后产生错位等问题，为保证视频替换合成后具有较好的效果，从而不仅仅进行嘴部的替换合成，而是对整个口型肌群部位进行替换合成，同时为解决由于头部整体运动所造成的视频替换合成的问题，本发明所提供的视频替换合成系统及方法、存储介质还获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，以及替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，并通过替换视频口型变化无关联点和替换视频面部旋转角度消除替换素材面部视频的头部运动，将没有头部运动的替换素材口型肌群视频利用待替换视频口型变化无关联点和替换视频口型变化无关联点的重合实现位置的确定，并通过待替换视频面部位移距离和待替换视频面部旋转角度将待替换视频的角度运动赋予替换素材口型肌群视频，保证替换素材口型肌群视频与待替换面部视频合成后运动的一致性，大大提高了合成视频的效果，不仅降低了对合成视频中视频对象一致性的要求，而且提高了合成后所获得视频的匹配度和真实性。

可选方案中，本发明实施例所提供的计算机可读存储介质、视频替换合成系统及方法，口型肌群包括视频对象的嘴部肌肉群和视频对象的嘴部外周线向远离嘴部方向延伸2厘米-4厘米范围内的肌肉群。该范围已经包括了由于口型变化而改变位置的主要肌肉群，不仅可以满足替换合成后所得到的合成视频对于匹配性和真实性的要求，而且工作量较小，且进一步简化了视频合成过程中对于口型肌群确定的复杂度。

可选方案中，本发明实施例所提供的计算机可读存储介质、视频替换合成系统及方法，在获得合成视频后，还对替换素材口型肌群视频的开始点和结束点中的至少一个进行视频淡入淡出处理，视频淡入淡出处理使得替换素材口型肌群视频与待替换面部视频的结合有了一段缓慢过渡，从而保证了最终得到的合成视频更加自然和真实。

附图说明

图1是本发明实施例一种视频替换合成方法的流程示意图；

图2是本发明实施例另一种视频替换合成方法的流程示意图；

图3是本发明实施例另一种视频替换合成方法的流程示意图；

图4是本发明实施例另一种视频替换合成方法的流程示意图；

图5是本发明实施例一种视频替换合成系统的结构示意图；

图6是本发明实施例另一种视频替换合成系统的结构示意图；

图7是本发明实施例另一种视频替换合成系统的结构示意图；

图8是本发明实施例另一种视频替换合成系统的结构示意图。

具体实施方式

由背景技术可知，现有技术的视频替换合成系统，对于待合成的不同视频中视频对象一致性的要求很高，例如发型、妆容、服饰等。

为了能够降低对于待合成的不同视频中视频对象的一致性要求，本发明提供了一种视频替换合成方法和系统、存储介质，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中一种视频替换合成方法的流程示意图。

如图1所示，本发明实施例所提供的视频替换合成方法，包括以下步骤：

步骤S11：获取视频对象的待替换面部视频和替换素材面部视频。

首先获取视频对象的待替换面部视频和替换素材面部视频，即获取视频替换合成的操作对象，为后续对于视频的处理和替换合并做好准备。

具体地，在步骤S11中，所获取的视频不论是待替换面部视频还是替换素材面部视频，都可以是仅仅包含视频对象的面部的视频，也可以是包含其他部位的视频，比如整个头部或者上半身等等，但视频中含有视频对象的面部。

另外，本文所述的待替换面部视频对应的是需要被替换的一段视频，当然待替换面部视频可以是整个较长视频中的一段，其中包含需要被替换掉的面部视频，本文所述的视频对象即拍摄视频时的拍摄人物。

步骤S12：获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，待替换视频口型变化无关联点和替换视频口型变化无关联点为视频对象的同一点。

得到待替换面部视频和替换素材面部视频后，需要对其进行处理，首先要得到待替换视频口型变化无关联点以及替换视频口型变化无关联点，二者对应的是视频对象的同一点在不同视频中的点，待替换视频口型变化无关联点以及替换视频口型变化无关联点也就是视频对象的口型发生变化时该点在视频对象的面部的位置不会发生变化的点。

待替换视频口型变化无关联点以及替换视频口型变化无关联点的获取，保证了不同视频替换合成时的覆盖基准点。

因为人们在说话的过程中，除了会由于口型的变化而使面部的部分点发生位置变化，而且会产生头部的整体运动，比如头部的平移和摆动等，因此，为了保证视频的替换合成效果，本发明所提供的视频替换合成方法除了要获取待替换视频口型变化无关联点和替换视频口型变化无关联点，还需要获取待替换视频面部位移距离和替换视频面部位移距离，以及待替换视频面部旋转角度和替换视频面部旋转角度，从而可以在视频替换合成时将替换视频面部位移距离和替换视频面部旋转角度消除，并将待替换视频面部位移距离和待替换视频面部旋转角度赋予替换视频。

具体地，替换视频面部位移距离可以通过对替换视频口型变化无关联点在替换素材面部视频中的位移变化获取；待替换视频面部位移距离可以通过对待替换视频口型变化无关联点在待替换面部视屏的位移变化获取。

获取待替换口型变化无关联点和替换口型变化无关联点的方法有很多种，在一具体实施例中可以采用获取面部关键点的方式获得。

步骤S13：根据所述替换视频面部位移距离和所述替换视频面部旋转角度对所述替换素材面部视频进行头部运动消除处理，并进行口型肌群遮罩处理，获得替换素材口型肌群视频。

由于在替换视频的录制过程中，视频对象不可避免地会进行头部的整体移动和摆动，因此在进行视频替换合成前，需要将替换素材面部视频的头部位移和摆动消除，为防止由于口型变化而非头部运动而产生的位置变化对于头部位移和摆动的影响，并且也已经获得了替换视频口型变化无关联点，从而可以首先获取替换视频口型变化无关联点的位移距离，并以此作为位移距离消除头部的位移，同时，利用以获得的替换视频面部旋转角度值，消除替换素材面部视频的摆动量，最终实现对于替换素材面部视频的运动消除处理，获得仅保存有由于口型变化而产生的面部不同肌肉发生位置变化的替换素材面部视频。

并且，为提高合成视频的真实性，并降低对于替换素材面部视频与待替换面部视频的一致性要求，对消除头部运动后的替换素材面部视频进行遮罩处理，遮罩后所留下的视频为口型肌群部位的视频，即得到替换素材口型肌群视频。

具体地，口型肌群可以包括口轮匝肌、提上唇肌、提口角肌、颧肌、降口角肌、降下唇肌、颊肌等肌肉群，本文所述的口型肌群是指包括嘴部肌肉群和嘴部肌肉群以外的至少一部分会因为口型变化而产生位置改变的肌肉，当然也可以包括与口型变化而产生位置改变的全部肌肉。

步骤S14：将所述替换视频口型变化无关联点覆盖所述待替换视频口型变化无关联点，使所述替换素材口型肌群视频覆盖所述待替换面部视频中的口型肌群，根据所述待替换视频面部位移距离移动所述替换素材口型肌群视频，根据所述待替换视频面部旋转角度旋转所述替换素材口型肌群视频，获得合成视频。

经过上述加工后，首先利用替换视频口型变化无关联点和待替换视频口型变化无关联点的定位，实现替换素材口型肌群视频与待替换面部视频中的口型肌群部位的替换，将待替换面部视频的位置移动赋予替换素材口型肌群视频；另一方面，再根据待替换视频面部旋转角度旋转替换素材口型肌群视频，将待替换视频面部旋转运动赋予替换素材口型肌群视频，获得合成视频。

可以看出，经过上述步骤，获得了替换素材面部视频中的口型肌群部位的视频，即替换素材口型肌群视频，利用替换素材口型肌群视频覆盖待替换面部视频中的口型肌群部位，并将待替换面部视频的位置移动和旋转运动赋予替换素材口型肌群视频，得到了替换合成视频。

这样，一方面，因为仅仅是对口型肌群位置的视频进行了替换，无需进行整个视频的全部内容进行替换合成，这就仅需要保证多个视频中口型肌群位置的一致性，而且口型肌群部位不会因为发型、服装的改变而改变，如有妆容，也只需要保证口红颜色基本一致，大大降低了视频替换合成时对于视频对象一致性的要求；另一方面，人类说话时，不仅仅会发生嘴部的变化，嘴部周围的肌肉群体也会发生变化，并且头部也会发生整体运动，就容易造成待替换视频与替换视频合成后产生错位等问题，因此，为保证视频替换合成后具有较好的效果，不仅仅进行嘴部的替换合成，而是对整个口型肌群部位进行替换合成，同时为解决由于头部整体运动所造成的视频替换合成的问题，本发明所提供的视频替换合成方法还获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，以及替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，通过替换视频面部位移距离和替换视频面部旋转角度消除替换素材面部视频的头部运动，将没有头部运动的替换素材口型肌群视频利用待替换视频口型变化无关联点和替换视频口型变化无关联点的重合实现位置的确定，并通过待替换视频面部位移距离将待替换视频的位移赋予替换素材口型肌群视频，通过待替换视频面部旋转角度将待替换视频的角度运动赋予替换素材口型肌群视频，保证替换素材口型肌群视频与待替换面部视频合成后运动的一致性，大大提高了合成视频的效果，不仅降低了对合成视频中视频对象一致性的要求，而且提高了合成后所获得视频的匹配度和真实性。

在一种具体实施例中，口型肌群包括视频对象的嘴部肌肉群和视频对象的嘴部外周线向远离嘴部方向延伸2厘米-4厘米范围内的肌肉群。

比如：具体可以根据需要将口型肌群定为视频对象的嘴部肌肉群和视频对象的嘴部外周线向远离嘴部方向延伸3厘米范围内的肌肉群。

在其他实施例中，口型肌群可以根据具体与口型变化相关的肌肉群来确定。

嘴部外周线向远离嘴部方向延伸2厘米-4厘米范围内的肌肉群已经包括了由于口型变化而改变位置的主要肌肉群，不仅可以满足替换合成后所得到的合成视频对于匹配性和真实性的要求，而且工作量较小，并且通过距离范围确定口型肌群的范围，无需根据具体的肌肉进行确定，进一步简化了视频合成过程中对于口型肌群确定的复杂度。

在一具体实施方式中，待替换视频口型变化无关联点和替换视频口型变化无关联点均可以为视频对象的鼻梁点。

本文所述的鼻梁点为两眼中间位置的点，如果视频对象戴眼镜则可以选择眼镜左右对称的中间位置为鼻梁点。

待替换视频口型变化无关联点和替换视频口型变化无关联点均可以通过面部关键点识别的方式获取，现有的面部关键点识别工具一般能很方便地识别图片中的嘴部关键点、鼻部关键点、鼻梁点、眼部关键点、眉毛关键点和脸部轮廓关键点等等，鼻梁点为其中不会应为口型变化而改变、稳定性最好的关键点，并且该鼻梁点的获取也很方便和准确，实现了本发明所提供的视频替换合成方法对于位置确定的要求，并降低了获取难度。

请参考图2，图2是本发明实施例中另一种视频替换合成方法的流程示意图。

除了需要获取待替换视频口型变化无关联点和待替换视频面部位移距离，还要获取待替换视频面部旋转角度，如图2所示，在另一具体实施例中，本发明所提供的视频替换合成方法包括以下步骤：

步骤S21：获取视频对象的待替换面部视频和替换素材面部视频。其具体内容与步骤S11类似，在此不再赘述。

步骤S22，具体包括步骤S221和步骤S222，其中：

步骤S221：获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和辅助待替换视频口型变化无关联点，并获取替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，待替换视频口型变化无关联点和替换视频口型变化无关联点为视频对象的同一点。

在获取待替换面部视频的待替换视频口型变化无关联点的同时，还获取辅助待替换视频口型变化无关联点，辅助待替换视频口型变化无关联点为视频对象的面部关键点中的另一个点。

步骤S222：计算待替换视频口型变化无关联点和辅助待替换视频口型变化无关联点在待替换面部视频中待替换视频两点距离变化量，根据待替换视频两点距离变化量计算待替换旋转角度，获得待替换视频面部旋转角度。

其中，本文所述的待替换视频两点距离变化量是指在视频中所拍摄的不同图片的两点之间的距离的变化量，而不是实际物体的两点之间的距离变化，对于同一物体而言，实际物体的两点之间的距离不会发生变化。

通过两个与口型变化无关联的点在视频中的不同图片上的距离变化量，计算拍摄对象的转换角度，进而就可以获得待替换视频面部旋转角度。

在其他实施例中，也可通过其他方式获取待替换视频面部旋转角度，比如：通过计算机语言函数计算直接获取的方式。

利用待替换视频口型变化无关联点和辅助待替换视频口型变化无关联点之间的待替换视频两点距离变化量，计算待替换视频面部旋转角度，可以很容易地获取到待替换面部旋转角度。

步骤S23与步骤S13相同，步骤S24与步骤S14相同，在此不再赘述。

在另一具体实施例中，辅助待替换视频口型变化无关联点可以为脸颊顶点。脸颊顶点仅在人们说话口型发生变化，但头部位置和角度不变时，位置改变的可能性较小，从而可以用于计算由于头部角度变化时，在图片上所显示的与待替换视频口型变化无关联点之间的距离改变量，进而计算待替换视频面部旋转角度。

请参考图3，图3是本发明实施例中另一种视频替换合成方法的流程示意图。

除了要获取待替换视频面部旋转角度，还要获取替换视频面部旋转角度，在另一具体实施例中，本发明所提供的视频替换合成方法包括以下步骤：

步骤S31：获取视频对象的待替换面部视频和替换素材面部视频。其具体内容与步骤S11类似，在此不再赘述。

步骤S32，具体包括步骤S321和步骤S322，其中：

步骤S321：获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移量和待替换视频面部旋转角度，并获取替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和辅助替换视频口型变化无关联点，待替换视频口型变化无关联点和替换视频口型变化无关联点为视频对象的同一点。

在获替换素材面部视频的替换视频口型变化无关联点的同时，还获取辅助替换视频口型变化无关联点，辅助替换视频口型变化无关联点为视频对象的面部关键点中的另一个点。

步骤S322：计算替换视频口型变化无关联点和辅助替换视频口型变化无关联点在替换素材面部视频中的替换视频两点距离变化量，根据替换视频两点距离变化量计算替换旋转角度，获得替换视频面部旋转角度。

通过视频图像中两个与口型变化无关联的点之间的距离变化量，计算拍摄对象的转换角度，进而就可以获得替换视频面部旋转角度。

在其他实施例中，也可通过其他方式获取替换视频面部旋转角度，比如：通过计算机语言函数计算直接获取的方式。

利用替换视频口型变化无关联点和辅助替换视频口型变化无关联点之间的在替换素材面部视频中的替换视频两点距离变化量，计算替换视频面部旋转角度，可以很容易地获取到替换面部旋转角度。

步骤S33与步骤S13相同，步骤S34与步骤S14相同，在此不再赘述。

在另一具体实施例中，辅助替换视频口型变化无关联点可以为脸颊顶点。脸颊顶点仅在人们说话口型发生变化，但头部位置和角度不变时，位置改变的的可能性较小，从而可以用于计算由于头部角度变化时，在图片上所显示的与替换视频口型变化无关联点之间的距离变化量，进而计算替换视频面部旋转角度。

请参考图4，图4是本发明实施例中又一种视频替换合成方法的流程示意图。

如图中所示，在另一具体实施例中，本发明所提供的视频替换合成方法包括：

步骤S41：获取视频对象的待替换面部视频和替换素材面部视频。

步骤S42：获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，待替换视频口型变化无关联点和替换视频口型变化无关联点为视频对象的同一点。

步骤S43：根据所述替换视频面部位移距离和所述替换视频面部旋转角度对所述替换素材面部视频进行头部运动消除处理，并进行口型肌群遮罩处理，获得替换素材口型肌群视频。

步骤S44：将所述替换视频口型变化无关联点覆盖所述待替换视频口型变化无关联点，使所述替换素材口型肌群视频覆盖所述待替换面部视频中的口型肌群，根据所述待替换视频面部位移距离移动所述替换素材口型肌群视频，并根据所述待替换视频面部旋转角度旋转所述替换素材口型肌群视频，获得合成视频。

获得合成视频之后，还包括：

步骤S45：执行对替换素材口型肌群视频的开始点进行视频淡入处理和对替换素材口型肌群视频的结束点进行视频淡出处理二者中的至少一者。

视频淡入处理是指使替换素材口型肌群视频逐渐浮现的处理，视频淡出处理是指使替换素材口型肌群视频逐渐消失的处理。

经过视频淡入淡出处理，可以使替换素材口型肌群视频与待替换面部视频的结合更加地自然和真实，提高合成视频的显示效果。

除了对视频图像的处理，视频中还会涵盖音频信息，为了进一步提高合成后视频过渡的自然度以及合成视频的真实性，在另一种具体实施例中，本发明实施例所提供的视频替换合成方法还包括执行对待替换面部视频的开始点进行音频淡出处理和对待替换面部视频的结束点进行音频淡入处理二者中的至少一者。

这样合成后的视频，待替换面部视频开始点的声音逐渐消失，替换素材面部视频的开始点的声音进入，过渡自然，同样地，在待替换面部视频结束点，原本待替换面部视频的声音逐渐进入，替换素材面部视频结束点的声音消失，恢复到待替换面部视频结束后的其他视频内容上。

音频的处理不仅仅涉及待替换面部视频，还会涉及替换素材面部视频，本发明实施例所提供的视频替换合成方法还包括执行对替换素材面部视频的开始点进行音频淡入处理和对替换素材面部视频的结束点进行音频淡出处理二者中的至少一者。

从而，替换素材面部视频中的音频的出现和消失都是缓慢逐渐的过程，进一步提高合成视频整体的真实性。

当然，无论是对待替换面部视频中的音频的处理，还是对替换素材面部视频中的音频的处理，均可以在整个视频替换合成过程中的任何一个阶段进行，不受具体时间的限制。

为解决前述问题，本发明还提供一种视频替换合成系统，具体请参考图5，图5为本发明一种视频替换合成系统的结构示意图。

为了降低合成视频对于素材一致性的要求，本发明所提供的视频替换合成系统，包括视频获取单元11，适于获取视频对象的待替换面部视频和替换素材面部视频；关键点、位移和角度获取单元12，获取所述待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取所述替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，所述待替换视频口型变化无关联点和所述替换视频口型变化无关联点为所述视频对象的同一点；口型肌群视频获取单元13，适于根据所述替换视频面部位移距离和所述替换视频面部旋转角度对所述替换素材面部视频进行头部运动消除处理，并进行口型肌群遮罩处理，获得替换素材口型肌群视频；视频合成单元14，适于将所述替换视频口型变化无关联点覆盖所述待替换视频口型变化无关联点，使所述替换素材口型肌群视频覆盖所述待替换面部视频中的口型肌群，根据所述待替换视频面部位移距离移动所述替换素材口型肌群视频，根据所述待替换视频面部旋转角度旋转所述替换素材口型肌群视频，获得合成视频。

首先视频获取单元11获取视频对象的待替换面部视频和替换素材面部视频，即获取视频替换合成的操作对象，为后续对于视频的处理和替换合并做好准备。

具体地，视频获取单元11所获取的视频不论是待替换面部视频还是替换素材面部视频，都可以是仅仅包含视频对象的面部的视频，也可以是包含其他部位的视频，比如整个头部或者上半身等等，但视频中含有视频对象的面部。

另外，待替换面部视频指的是需要被替换的一段视频，当然待替换面部视频可以是整个较长视频中的一段，其中包含需要被替换掉的面部视频，视频对象是指拍摄视频时的拍摄人物。

通过视频获取单元11得到待替换面部视频和替换素材面部视频后，需要对其进行处理，首先利用关键点、位移和角度获取单元12得到待替换视频口型变化无关联点以及替换视频口型变化无关联点，二者对应的是视频对象的同一点在不同视频中的点，待替换视频口型变化无关联点以及替换视频口型变化无关联点也就是视频对象的口型发生变化时该点在视频对象的面部的位置不会发生变化的点。

因为人们在说话的过程中，除了会由于口型的变化而使面部的部分点发生位置变化，而且会产生头部的整体运动，比如头部的平移和摆动等，因此，为了保证视频的替换合成效果，本发明所提供的视频替换合成系统除了要获取待替换视频口型变化无关联点和替换视频口型变化无关联点，还需要获取、待替换视频面部位移距离和替换视频面部位移距离，以及待替换视频面部旋转角度和替换视频面部旋转角度，从而可以在视频替换合成时将替换视频面部位移距离和替换视频面部旋转角度消除，并将待替换视频面部位移距离和待替换视频面部旋转角度赋予替换视频。

获取待替换口型变化无关联点和替换口型变化无关联点的方法有很多种，具体在一种实施例中可以采用获取面部关键点的方式获得。

由于在替换视频的录制过程中，视频对象不可避免地会进行头部的整体移动和摆动，因此在进行视频替换合成前，需要利用口型肌群视频获取单元13首先将替换素材面部视频的头部位移和摆动消除，为防止由于口型变化而非头部运动而产生的位置变化对于头部位移和摆动的影响，并且也已经获得了替换视频口型变化无关联点，从而可以首先获取替换视频口型变化无关联点的位移量，并以此作为位移量消除头部的位移，同时，利用以获得的替换视频面部旋转角度值，消除替换素材面部视频的摆动量，最终实现对于替换素材面部视频的运动消除处理，获得仅保存有由于口型变化而产生的面部不同肌肉发生位置变化的替换素材面部视频。

并且，为提高合成视频的真实性，并降低对于替换素材面部视频与待替换面部视频的一致性要求，口型肌群视频获取单元13还对消除头部运动后的替换素材面部视频进行遮罩处理，遮罩后所留下的视频为口型肌群部位的视频，即得到替换素材口型肌群视频。

经过上述处理后，视频合成单元14首先利用替换视频口型变化无关联点和待替换视频口型变化无关联点的定位，实现替换素材口型肌群视频与待替换面部视频中的口型肌群部位的替换，将待替换面部视频的位置移动赋予替换素材口型肌群视频；再根据待替换视频面部旋转角度旋转替换素材口型肌群视频，将待替换视频面部旋转运动赋予替换素材口型肌群视频，获得合成视频。

可以看出，本发明所提供的视频替换合成方法系统，获得了替换素材面部视频中的口型肌群部位的视频，即替换素材口型肌群视频，利用替换素材口型肌群视频覆盖待替换面部视频中的口型肌群部位，并将待替换面部视频的位置移动和旋转运动赋予替换素材口型肌群视频，得到了替换合成视频。

这样，一方面，本发明所提供的视频替换合成方法系统，仅仅是对口型肌群位置的视频进行了替换，无需进行整个视频的全部内容进行替换合成，这就仅需要保证多个视频中口型肌群位置的一致性，而且口型肌群部位不会因为发型、服装的改变而改变，如有妆容，也只需要保证口红颜色基本一致，大大降低了视频替换合成时对于视频对象一致性的要求；另一方面，人类说话时，不仅仅会发生嘴部的变化，嘴部周围的肌肉群体也会发生变化，并且头部也会发生整体运动，就容易造成待替换视频与替换视频合成后产生错位等问题，因此，为保证视频替换合成后具有较好的效果，不仅仅进行嘴部的替换合成，而是对整个口型肌群部位进行替换合成，同时为解决由于头部整体运动所造成的视频替换合成的问题，本发明所提供的视频替换合成方法还获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移和待替换视频面部旋转角度，以及替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移和替换视频面部旋转角度，通过替换视频口型变化无关联点、替换视频面部位移和替换视频面部旋转角度消除替换素材面部视频的头部运动，将没有头部运动的替换素材口型肌群视频利用待替换视频口型变化无关联点和替换视频口型变化无关联点的重合实现位置的确定，并通过待替换视频面部位移移动替换素材口型肌群视频，将待替换视频的位移运动赋予替换素材口型肌群视频，通过待替换视频面部旋转角度将待替换视频的角度运动赋予替换素材口型肌群视频，保证替换素材口型肌群视频与待替换面部视频合成后运动的一致性，大大提高了合成视频的效果，不仅降低了对合成视频中视频对象一致性的要求，而且提高了合成后所获得视频的匹配度和真实性。

请参考图6，图6是本发明实施例中另一种视频替换合成系统的结构示意图。

经前述描述可以看出，本发明实施例所提供的视频替换合成系统，除了需要获取待替换视频口型变化无关联点，待替换视频面部位移距离、还要获取待替换视频面部旋转角度，如图6所示，在另一具体实施例中，本发明所提供的视频替换合成系统包括视频获取单元21、关键点、位移和角度获取单元22、口型肌群视频获取单元23和视频合成单元24，其中视频获取单元21、型肌群视频获取单元23和视频合成单元24均分别与视频获取单元11、型肌群视频获取单元13和视频合成单元14相同，在此不再赘述，关键点、位移和角度获取单元22包括：

辅助待替换视频口型变化无关联点获取单元221和待替换视频面部旋转角度获取单元222，其中，辅助待替换视频口型变化无关联点获取单元221适于获取辅助待替换视频口型变化无关联点；待替换视频面部旋转角度获取单元222，适于计算待替换视频口型变化无关联点和辅助待替换视频口型变化无关联点在待替换面部视频中的待替换视频两点距离变化量，根据待替换视频两点距离变化量计算待替换旋转角度，获得待替换视频面部旋转角度。

当然关键点、位移和角度获取单元22还包括获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离、替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度的单元，其中待替换视频口型变化无关联点和替换视频口型变化无关联点为视频对象的同一点。

关键点、位移和角度获取单元22在获取待替换面部视频的待替换视频口型变化无关联点的同时，还获取辅助待替换视频口型变化无关联点，辅助待替换视频口型变化无关联点为视频对象的面部关键点中的另一个点。

通过两个与口型变化无关联的点之间的距离变化量，计算拍摄对象的转换角度，进而就可以获得待替换视频面部旋转角度。

在其他实施例中，也可通过其他方式获取待替换视频面部旋转角度，比如：通过计算机语言函数计算获取的方式。

利用待替换视频口型变化无关联点和辅助待替换视频口型变化无关联点之间的距离变化量，计算待替换视频面部旋转角度，可以很容易地获取到待替换面部旋转角度。

在另一具体实施例中，辅助待替换视频口型变化无关联点可以为脸颊顶点。脸颊顶点仅在人们说话口型发生变化，但头部位置和角度不变时，位置改变的的可能性较小，从而可以用于计算由于头部角度变化时，在图片上所显示的与待替换视频口型变化无关联点之间的距离改变，进而计算待替换视频面部旋转角度。

请参考图7，图7是本发明实施例中另一种视频替换合成系统的结构示意图。

除了要获取待替换视频面部旋转角度，还要获取替换视频面部旋转角度，在另一具体实施例中，本发明所提供的视频替换合成系统包括：视频获取单元31、关键点、位移和角度获取单元32、口型肌群视频获取单元33和视频合成单元34，其中视频获取单元31、型肌群视频获取单元33和视频合成单元34均分别与视频获取单元11、型肌群视频获取单元13和视频合成单元14相同，在此不再赘述，关键点、位移和角度获取单元32包括：

辅助替换视频口型变化无关联点获取单元321，适于获取辅助替换视频口型变化无关联点；替换视频面部旋转角度获取单元322，适于计算所述替换视频口型变化无关联点和所述辅助替换视频口型变化无关联点在替换面部视频中的替换视频两点距离变化量，适于根据所述替换视频两点距离变化量计算替换旋转角度，获得所述替换视频面部旋转角度。

当然关键点、位移和角度获取单元32包括获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取替换素材面部视频的替换视频口型变化无关联点和替换视频面部位移距离的具体组成单元，其中待替换视频口型变化无关联点和替换视频口型变化无关联点为视频对象的同一点。

关键点、位移和角度获取单元32在获替换素材面部视频的替换视频口型变化无关联点的同时，还获取辅助替换视频口型变化无关联点，辅助替换视频口型变化无关联点为视频对象的面部关键点中的另一个点。

通过两个与口型变化无关联的点之间的距离变化量，计算拍摄对象的转换角度，进而就可以获得替换视频面部旋转角度。

在其他实施例中，也可通过其他方式获取替换视频面部旋转角度，比如：通过计算机语言函数计算获取的方式。

利用替换视频口型变化无关联点和辅助替换视频口型变化无关联点之间的距离变化量，计算替换视频面部旋转角度，可以很容易地获取到替换面部旋转角度。

在另一具体实施例中，辅助替换视频口型变化无关联点可以为脸颊顶点。脸颊顶点仅在人们说话口型发生变化，但头部位置和角度不变时，位置改变的可能性较小，从而可以用于计算由于头部角度变化时，在图片上所显示的与替换视频口型变化无关联点之间的距离变化量，进而计算替换视频面部旋转角度。

请参考图8，图8是本发明实施例中又一种视频替换合成系统的结构示意图。

如图中所示，在另一具体实施例中，本发明所提供的视频替换合成系统包括视频获取单元41、关键点、位移和角度获取单元42、口型肌群视频获取单元43和视频合成单元44和视频淡入淡出处理单元45，其中，视频获取单元41、关键点、位移和角度获取单元42、口型肌群视频获取单元43和视频合成单元44与前述相同，在此不再赘述，视频淡入淡出处理单元45，适于执行对替换素材口型肌群视频的开始点进行视频淡入处理和对替换素材口型肌群视频的结束点进行视频淡出处理二者中的至少一者。

除了对视频图像的处理，视频中还会涵盖音频信息，为了进一步提高合成后视频过渡的自然度以及合成视频的真实性，在另一种具体实施例中，本发明实施例所提供的视频替换合成系统还包括待替换面部视频中音频淡入淡出处理单元，适于执行对待替换面部视频的开始点进行音频淡出处理和对待替换面部视频的结束点进行音频淡入处理二者中的至少一者。

音频的处理不仅仅涉及待替换面部视频，还会涉及替换素材面部视频，本发明实施例所提供的视频替换合成方法还包括替换素材面部视频中音频淡入淡出处理单元，适于执行对替换素材面部视频的开始点进行音频淡入处理和对替换素材面部视频的结束点进行音频淡出处理二者中的至少一者。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如前述的视频替换合成方法。这样，一方面，因为仅仅是对口型肌群位置的视频进行了替换，无需进行整个视频的全部内容进行替换合成，这就仅需要保证多个视频中口型肌群位置的一致性，而且口型肌群部位不会因为发型、服装的改变而改变，如有妆容，也只需要保证口红颜色基本一致，大大降低了视频替换合成时对于视频对象一致性的要求；另一方面，人类说话时，不仅仅会发生嘴部的变化，嘴部周围的肌肉群体也会发生变化，并且头部也会发生整体运动，就容易造成待替换视频与替换视频合成后产生错位等问题，因此，为保证视频替换合成后具有较好的效果，不仅仅进行嘴部的替换合成，而是对整个口型肌群部位进行替换合成，同时为解决由于头部整体运动所造成的视频替换合成的问题，本发明所提供的视频替换合成系统还获取待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，以及替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，通过替换视频面部位移距离和替换视频面部旋转角度消除替换素材面部视频的头部运动，将没有头部运动的替换素材口型肌群视频利用待替换视频口型变化无关联点和替换视频口型变化无关联点的重合实现位置的确定，并通过待替换视频面部位移距离将待替换视频的位移赋予替换素材口型肌群，通过待替换视频面部旋转角度将待替换视频的角度运动赋予替换素材口型肌群视频，保证替换素材口型肌群视频与待替换面部视频合成后运动的一致性，大大提高了合成视频的效果，不仅降低了对合成视频中视频对象一致性的要求，而且提高了合成后所获得视频的匹配度和真实性。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频替换合成方法，其特征在于，包括：

获取视频对象的待替换面部视频和替换素材面部视频；

2.如权利要求1所述的视频替换合成方法，其特征在于，

3.如权利要求1所述的视频替换合成方法，其特征在于，

4.如权利要求1所述的视频替换合成方法，其特征在于，所述获取所述待替换视频面部旋转角度，包括：

获取辅助待替换视频口型变化无关联点；

5.如权利要求4所述的视频替换合成方法，其特征在于，所述辅助待替换视频口型变化无关联点为脸颊顶点。

6.如权利要求1所述的视频替换合成方法，其特征在于，所述获取所述替换视频面部旋转角度，包括：

获取辅助替换视频口型变化无关联点；

7.如权利要求6所述的视频替换合成方法，其特征在于，所述辅助替换视频口型变化无关联点为脸颊顶点。

8.如权利要求1-7任一项所述的视频替换合成方法，其特征在于，在获得合成视频之后，还包括：

9.如权利要求1-7任一项所述的视频替换合成方法，其特征在于，还包括执行对所述待替换面部视频的开始点进行音频淡出处理和对所述待替换面部视频的结束点进行音频淡入处理二者中的至少一者。

10.如权利要求1-7任一项所述的视频替换合成方法，其特征在于，还包括执行对所述替换素材面部视频的开始点进行音频淡入处理和对所述替换素材面部视频的结束点进行音频淡出处理二者中的至少一者。

11.一种视频替换合成系统，其特征在于，包括：

关键点、位移和角度获取单元，适于获取所述待替换面部视频的待替换视频口型变化无关联点、待替换视频面部位移距离和待替换视频面部旋转角度，并获取所述替换素材面部视频的替换视频口型变化无关联点、替换视频面部位移距离和替换视频面部旋转角度，所述待替换视频口型变化无关联点和所述替换视频口型变化无关联点为所述视频对象的同一点；

视频合成单元，适于将所述替换视频口型变化无关联点覆盖所述待替换视频口型变化无关联点，使所述替换素材口型肌群视频覆盖所述待替换面部视频中的口型肌群，根据所述待替换视频面部位移距离移动所述替换素材口型肌群视频，根据所述待替换视频面部旋转角度旋转所述替换素材口型肌群视频，获得合成视频。

12.如权利要求11所述的视频替换合成系统，其特征在于，

13.如权利要求11所述的视频替换合成系统，其特征在于，

14.如权利要求11所述的视频替换合成系统，其特征在于，所述关键点、位移和角度获取单元包括：

待替换视频面部位移和角度获取单元，适于计算所述待替换视频口型变化无关联点和所述辅助待替换视频口型变化无关联点在待替换面部视频中的待替换视频两点距离变化量，根据所述待替换视频两点距离变化量计算待替换旋转角度，获得所述待替换视频面部旋转角度。

15.如权利要求14所述的视频替换合成系统，其特征在于，所述辅助待替换视频口型变化无关联点为脸颊顶点。

16.如权利要求11所述的视频替换合成系统，其特征在于，所述关键点、位移和角度获取单元，包括：

17.如权利要求16所述的视频替换合成系统，其特征在于，所述辅助替换视频口型变化无关联点为脸颊顶点。

18.如权利要求11-17任一项所述的视频替换合成系统，其特征在于，还包括：

19.如权利要求11-17任一项所述的视频替换合成系统，其特征在于，还包括：

20.如权利要求11-17任一项所述的视频替换合成系统，其特征在于，还包括：

21.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，其特征在于，当该指令被处理器执行时可以实现如上权利要求1-10任一项所述的视频替换合成方法。