CN111444743A

CN111444743A - 一种视频人像替换方法及装置

Info

Publication number: CN111444743A
Application number: CN201811614191.5A
Authority: CN
Inventors: 孙金波
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-07-24

Abstract

本发明提供了一种视频人像替换方法及装置，该方法包括：经由摄像头采集包含了第一人脸图像的用户视频文件；获取包含了第二人脸图像的素材视频文件和预先处理得到的离线第二人脸数据；对用户视频文件解码获得用户视频纹理数据，并解析用户视频纹理数据获得3D的第一人脸关键点数据；解析离线第二人脸数据获得3D的第二人脸关键点数据；结合第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据；将换脸纹理数据与素材视频文件结合生成换脸视频。基于本发明提供的方案，根据预先获取的离线第二人脸数据获取第二人脸关键点数据，可以减少读取第二人脸关键点占据的存储空间，保证系统的正常运行。

Description

一种视频人像替换方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种视频人像替换方法及装置。

背景技术

随着大众娱乐社交性质的手机APP的不断增多，具有美颜类功能的APP 收到广大用户的青睐，例如美图秀秀、抖音等APP，这些APP以图像或视频为载体，通过图像视频处理算法改变人的容貌(例如大眼，瘦脸)，添加有趣的元素或特效等，以达到唯美、复古等多种用户所需的效果，视频换脸也属于这一类的应用。

当前，将视频中的人脸换成用户的人脸的做法一般都是直接采集视频中的图像的人脸关键点数据，通过摄像头采集用户的人脸关键点数据，进而将采集到的二者的关键点数据结合以生成换脸视频。这种方案的缺点在于，视频文件的体积一般都比较大，直接采集视频中的人脸关键点数据对于某些机型会有性能方面的影响，导致手机运行速度慢，卡顿。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频人像替换方法及装置，可以适应各种机型。

根据本发明的一个方面，提供了一种视频人像替换方法，包括：

经由摄像头采集包含了第一人脸图像的用户视频文件；

获取包含了第二人脸图像的素材视频文件和预先处理得到的离线第二人脸数据；

对所述用户视频文件解码获得用户视频纹理数据，并解析所述用户视频纹理数据获得3D的第一人脸关键点数据；

解析所述离线第二人脸数据获得3D的第二人脸关键点数据；

结合所述第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据；

将所述换脸纹理数据与所述素材视频文件结合生成换脸视频。

可选地，所述获取预先处理得到的离线第二人脸数据，包括：

解码所述素材视频文件获取视频纹理以及与视频纹理对应的时间戳；

将所述视频纹理通过OpenGL接口转化为RGBA数据；

通过所述时间戳获取对应的RGBA数据并将该RGBA数据转化为离线第二人脸数据。

可选地，所述将所述换脸纹理数据与所述素材视频文件结合生成换脸视频，包括：

利用所述换脸纹理数据替换所述素材视频文件中所述时间戳对应的视频纹理，通过编码器编码进而生成视频流；

将所述视频流与预设的音频流结合生成换脸视频。

可选地，所述预设的音频流包括：由麦克风预先采集PCM音频数据，将所述PCM音频数据转码为ACC音频流。

可选地，所述预设的音频流还包括：将预存的原声PCM音频数据转码为 ACC音频流。

可选地，所述方法还包括：将所述换脸纹理数据输出到屏幕进而显示。

根据本发明的另一个方面，还提供了一种视频人像替换装置，包括：

采集模块，配置为经由摄像头采集包含了第一人脸图像的用户视频文件；

获取模块，配置为获取包含了第二人脸图像的素材视频文件和预先处理得到的离线第二人脸数据；

第一解析模块，配置为对所述用户视频文件解码获得用户视频纹理数据，并解析所述用户视频纹理数据获得3D的第一人脸关键点数据；

第二解析模块，配置为解析所述离线第二人脸数据获得3D的第二人脸关键点数据；

替换模块，配置为结合所述第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据；

生成模块，配置为将所述换脸纹理数据与所述素材视频文件结合生成换脸视频。

可选地，所述获取模块还配置为：

将所述视频纹理通过OpenGL接口转化为RGBA数据；

可选地，所述生成模块还配置为：

将所述视频流与预设的音频流结合生成换脸视频。

可选地，所述生成模块还配置为：由麦克风预先采集PCM音频数据，将所述PCM音频数据转码为ACC音频流。

可选地，所述生成模块还配置为：将预存的原声PCM音频数据转码为ACC 音频流。

可选地，所述装置还包括：

显示模块，配置为将所述换脸纹理数据输出到屏幕进而显示。

根据本发明的再一个方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行上述任一项所述的视频人像替换方法。

根据本发明的又一个方面，还提供了一种计算设备，包括：

处理器；

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行上述任一项所述的视频人像替换方法。

本发明提供了一种视频人像替换方法及装置，该方法包括：根据预先处理得到离线第二人脸数据获取3D的第二人脸关键点数据，并经由摄像头采集包含了第一人脸图像的用户视频文件获取3D的第一人脸关键点数据，进而根据第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据，最后将换脸纹理数据和素材视频文件结合生成换脸视频。基于本发明提供的方案，根据预先获取的离线第二人脸数据获取3D的第二人脸关键点数据，可以减少读取视频中人脸关键点这一过程占据的存储空间，保证系统的正常运行。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明实施例的视频人像替换方法的流程示意图；

图2是根据本发明实施例的视频人像替换装置的结构框图；

图3是根据本发明一优选实施例的视频人像替换装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，在不冲突的前提下本发明实施例及可选实施例中的技术特征可以相互结合。

为了解决上述问题，本发明实施例提出了一种视频人像替换方法，图1是根据本发明实施例的视频人像替换方法的流程示意图，如图1所示，该方法包括：

步骤S102：经由摄像头采集包含了第一人脸图像的用户视频文件；

步骤S104：获取包含了第二人脸图像的素材视频文件和预先处理得到的离线第二人脸数据；

步骤S106：对用户视频文件解码获得用户视频纹理数据，并解析用户视频纹理数据获得3D的第一人脸关键点数据；

步骤S108：解析离线第二人脸数据获得3D的第二人脸关键点数据；

步骤S110：结合第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据；

步骤S112：将换脸纹理数据与素材视频文件结合生成换脸视频。

本发明实施例提供了一种视频人像替换方法，该方法包括：根据预先处理得到离线第二人脸数据获取3D的第二人脸关键点数据，并经由摄像头采集包含了第一人脸图像的用户视频文件获取3D的第一人脸关键点数据，进而根据第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据，最后将换脸纹理数据和素材视频文件结合生成换脸视频。基于本发明提供的方案，根据预先获取离线第二人脸数据获取3D的第二人脸关键点数据，可以减少读取第二人脸关键点数据这一过程占据的系统存储空间，保证系统的正常运行。

其中，在获取3D的第一人脸关键点数据后，通常是根据获取的第一人脸关键点数据在用户的脸上划分三角形，同样地，根据获取的3D的第二人脸关键点数据在离线第二人脸数据中的人脸上划分三角形，进而通过用户人脸的关键点数据根据三角形的对应关系找到离线第二人脸数据中的人脸关键点数据以进行替换以得到换脸纹理，在换脸纹理中，透明度高的地方采用离线数据的像素值作为输出结果，透明度低的地方采用用户的人脸的输出像素值作为输出结果。

其中，为了防止将视频中人脸变为另一个人的脸时，如果肤色相差太大会导致变脸效果不自然，本实施例采用基于直方图的颜色变换，将用户的视频文件中的肤色全部映射为素材视频文件中的肤色，再进行贴脸操作。具体包括：

根据离线第二人脸数据计算第一颜色直方图，进而计算出第一颜色累计曲线，与此同时提取用户视频图像中的脸部区域，计算相应的第二颜色直方图，进而计算出第二颜色累计曲线，之后计算颜色映射，具体是将第二颜色曲线变化为第一颜色曲线，之后根据颜色映射变换用户的视频图像的颜色，进而进行贴脸变换(如上述操作)以输出换脸纹理。

以及，为了防止现实应用中，将视频中人脸变为另一个人的脸时，如果脸型相差太大会导致变脸效果不自然。本实施例采用基于关键点的脸型进行变换，先将用户的视频文件中的图像变换为素材视频文件中的图像的脸型再进行贴脸。具体包括：

首先将第一人脸关键点数据和第二人脸关键点数据进行转正和缩放，以在水平竖直两方向上，将第一人脸关键点数据拉伸的与第二关键点数据一致，再将第一人脸关键点数据进行转正和缩放逆变换，依照变换后的关键点数据变换用户视频文件中的用户的脸型，最后进行贴脸变换(如上述操作)以输出换脸纹理。

上述步骤S104中获取包含预先处理得到的第二人脸数据，在一个优选实施例中包括解码素材视频文件获取视频纹理以及与视频纹理对应的时间戳，将视频纹理通过OpenGL接口转化为RGBA数据，通过时间戳获取对应的RGBA 数据并将该RGBA数据转化为离线第二人脸数据。

其中，可以通过解码器预先将素材视频文件转码为多帧视频纹理并获取每一帧视频纹理的时间戳，时间戳标识相应视频纹理在素材视频文件中的位置，之后将多帧视频纹理传递给OpenGL图形程序接口以RGBA的方式将多帧视频纹理分别转化为多个对应的RGBA数据，之后可以根据时间戳在多帧视频纹理中选取任意一帧或多帧视频纹理对应的RGBA数据转化为一个或多个离线第二人脸文件。当素材视频文件中只有一个人脸时，可以转化为一个与用户的脸部最贴合的离线第二人脸数据；若素材视频文件中包含两个人脸，则可以转化一个离线第二人脸数据，其中包含素材视频文件中的一张人脸，也可以选择保存两个离线第二人脸数据，两个离线第二人脸数据中可以分别包含素材视频文件中的一张人脸，这样也给用户在拍摄换脸视频时多提供了换脸对象的选择。

上述提到将RGBA数据转化为离线第二人脸数据的优点主要在于离线第二人脸数据是一个非常小的文件，只有100k左右，方便了当用户想要拍摄换脸视频时，可以直接对离线第二人脸数据解析获取3D的第二人脸关键点数据，而不用再从素材视频文件中实时读取第二人脸关键点数据，大大减小了读取第二人脸关键点这一过程占据的系统存储空间，保证系统的正常运行。

另外，在将视频纹理转化为RGBA数据时，本实施例采用将原始视频降低分辨率的方式进行处理，比如原始的视频纹理的分辨率为1024*860，先将视频纹理的分辨率转化为640*480，或者是其他更小的分辨率，这样OpenGL图形程序接口在读取视频纹理的时候，只需要用一般的性能就可以，大大提升了读取效率。

步骤S106具体还包括将摄像头采集到的包含第一人脸图像的用户视频文件解码获取相应的用户视频纹理，将用户视频纹理传递给OpenGL图形程序接口以RGBA的方式进行渲染转化为相应的RGBA数据，进而将RGBA数据转化为3D的第一人脸关键点数据进而保存。

本发明实施例中获取的分别是3D的第一人脸关键点数据和3D的第二人脸关键点数据，相比于2D的人脸关键点数据，3D的人脸关键点数据可以使得用户的人脸与离线视频中的人脸贴合程度更加高。

同样地，这里也是采用将原始用户视频纹理降低分辨率的方式进行处理，需要说明地是，从降低了分辨率的RGBA数据中读取3D的第一人脸关键点数据对读取结果是几乎没有影响的，也就是说将用户的视频纹理的分辨率从 1024*860转化为640*480对后续从用户的RGBA数据中读取3D的第一人脸关键点数据时是几乎没有影响的，其在性能上有一个很大的提升。

之后，将换脸纹理数据与素材视频文件结合生成换脸视频还包括：利用换脸纹理数据替换材视频文件中的时间戳对应的视频纹理，通过编码器编码进而生成视频流，将视频流与预设的音频流结合生成换脸视频。

其中，将换脸纹理可以按照离线第二人脸数据对应的时间戳替换到素材视频中的相应位置，进而在时间戳后面的视频纹理也相应换成了用户的人脸，通过编码器可以将该时间戳及之后的换脸纹理生成视频流，之后结合预设的音频流生成换脸视频。

其中，若用户喜欢用自己的声音，在一优选实施例中，可以由麦克风预先采集用户的PCM音频数据，由于麦克风采集的音频数据都是PCM格式的，所以需要通过转码器将采集到的PCM音频数据转码为ACC音频流，进而将 ACC音频流与视频流通过合成器合成为MP4文件。

另外，若用户感觉自己的声音不好听，不想用自己的声音，在一优选实施例中，还可以将预存的原声PCM音频数据转码为ACC音频流，进而与上述视频流通过合成器结合生成MP4视频文件。

在一优选实施例中，上述换脸纹理数据还可以直接输出到屏幕中进而显示。

基于同一发明构思，本发明实施例还提供了一种视频人像替换装置，图2 是根据本发明实施例的视频人像替换装置的结构框图，如图2所示，该视频人像替换装置200包括：

采集模块210，配置为经由摄像头采集包含了第一人脸图像的用户视频文件；

获取模块220，配置为获取包含了第二人脸图像的素材视频文件和预先处理得到的离线第二人脸数据；

第一解析模块230，与采集模块210耦合，配置为对用户视频文件解码获得用户视频纹理数据，并解析用户视频纹理数据获得3D的第一人脸关键点数据；

第二解析模块240，与获取模块220耦合，配置为解析离线第二人脸数据获得3D的第二人脸关键点数据；

替换模块250，与第一解析模块230和第二解析模块240耦合，配置为结合第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据；

生成模块260，与替换模块250耦合，配置为将换脸纹理数据与素材视频文件结合生成换脸视频。

在一优选实施例中，上述获取模块220还配置为：

解码素材视频文件获取视频纹理以及与视频纹理对应的时间戳；

将视频纹理通过OpenGL接口转化为RGBA数据；

通过时间戳获取对应的RGBA数据并将该RGBA数据转化为离线第二人脸数据。

在一优选实施例中，上述生成模块260还配置为：

利用换脸纹理数据替换素材视频文件中时间戳对应的视频纹理，通过编码器编码进而生成视频流；

将视频流与预设的音频流结合生成换脸视频。

在一优选实施例中，上述生成模块260还配置为：由麦克风预先采集PCM 音频数据，将采集到的PCM音频数据转码为ACC音频流。

在一优选实施例中，上述生成模块260还配置为：将预存的原声PCM音频数据转码为ACC音频流。

图3是根据本发明一优选实施例的视频人像替换装置的结构框图，在一优选实施例中，上述装置200还包括：

显示模块270，配置为将换脸纹理数据输出到屏幕进而显示。

依据本发明的再一方面，还提供了一种计算机存储介质，计算机存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上述任意实施例中的视频人像替换方法。

依据本发明的又一方面，还提供了一种计算设备，包括：

处理器；

存储有计算机程序代码的存储器；

当计算机程序代码被处理器运行时，导致计算设备执行上述任意实施例中的视频人像替换方法。

本发明提供了一种视频人像替换方法及装置，首先根据预先处理得到离线第二人脸数据获取3D的第二人脸关键点数据，并经由摄像头采集包含了第一人脸图像的用户视频文件获取3D的第一人脸关键点数据，进而根据第一人脸关键点数据和第二人脸关键点数据，通过换脸算法生成将第二人脸图像替换为第一人脸图像的换脸纹理数据，最后将换脸纹理数据和素材视频文件结合生成换脸视频。基于本发明提供的方案，根据预先获取离线第二人脸数据获取3D 的第二人脸关键点数据，可以减少读取第二人脸关键点数据这一过程占据的系统存储空间，另外降低离线视频的视频纹理和用户视频纹理的分辨率，也可以节省系统存储空间，以保证系统的正常运行。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不做赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

根据本发明实施例的一个方面，提供了A1.一种视频人像替换方法，包括：

经由摄像头采集包含了第一人脸图像的用户视频文件；

解析所述离线第二人脸数据获得3D的第二人脸关键点数据；

A2.根据A1所述的方法，其中，所述获取预先处理得到的离线第二人脸数据，包括：

将所述视频纹理通过OpenGL接口转化为RGBA数据；

A3.根据A2所述的方法，其中，所述将所述换脸纹理数据与所述素材视频文件结合生成换脸视频，包括：

将所述视频流与预设的音频流结合生成换脸视频。

A4.根据A3所述的方法，其中，所述预设的音频流包括：由麦克风预先采集PCM音频数据，将所述PCM音频数据转码为ACC音频流。

A5.根据A3所述的方法，其中，所述预设的音频流还包括：将预存的原声PCM音频数据转码为ACC音频流。

A6.根据A1-A5任一项所述的方法，其中，所述方法还包括：将所述换脸纹理数据输出到屏幕进而显示。

根据本发明实施例的另一个方面，还提供了B7.一种视频人像替换装置，包括：

B8.根据B7所述的装置，其中，所述获取模块还配置为：

将所述视频纹理通过OpenGL接口转化为RGBA数据；

B9.根据B8所述的装置，其中，所述生成模块还配置为：

将所述视频流与预设的音频流结合生成换脸视频。

B10.根据B9所述的装置，其中，所述生成模块还配置为：由麦克风预先采集PCM音频数据，将所述PCM音频数据转码为ACC音频流。

B11.根据B9所述的装置，其中，所述生成模块还配置为：将预存的原声 PCM音频数据转码为ACC音频流。

B12.根据B7-B11任一项所述的装置，其中，所述装置还包括：

根据本发明实施例的再一个方面，还提供了C13.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行A1-A6任一项所述的视频人像替换方法。

根据本发明实施例的又一个方面，还提供了D14一种计算设备，包括：

处理器；

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行权利 A1-A6任一项所述的视频人像替换方法。

Claims

1.一种视频人像替换方法，包括：

经由摄像头采集包含了第一人脸图像的用户视频文件；

解析所述离线第二人脸数据获得3D的第二人脸关键点数据；

2.根据权利要求1所述的方法，其中，所述获取预先处理得到的离线第二人脸数据，包括：

将所述视频纹理通过OpenGL接口转化为RGBA数据；

3.根据权利要求2所述的方法，其中，所述将所述换脸纹理数据与所述素材视频文件结合生成换脸视频，包括：

将所述视频流与预设的音频流结合生成换脸视频。

4.根据权利要求3所述的方法，其中，所述预设的音频流包括：由麦克风预先采集PCM音频数据，将所述PCM音频数据转码为ACC音频流。

5.根据权利要求3所述的方法，其中，所述预设的音频流还包括：将预存的原声PCM音频数据转码为ACC音频流。

6.根据权利要求1-5任一项所述的方法，其中，所述方法还包括：将所述换脸纹理数据输出到屏幕进而显示。

7.一种视频人像替换装置，包括：

8.根据权利要求7所述的装置，其中，所述获取模块还配置为：

将所述视频纹理通过OpenGL接口转化为RGBA数据；

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行权利要求1-6任一项所述的视频人像替换方法。

10.一种计算设备，包括：

处理器；

存储有计算机程序代码的存储器；

当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行权利要求1-6任一项所述的视频人像替换方法。