CN111753784A

CN111753784A - 视频的特效处理方法、装置、终端及存储介质

Info

Publication number: CN111753784A
Application number: CN202010614999.4A
Authority: CN
Inventors: 刘春宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-09
Anticipated expiration: 2040-06-30
Also published as: CN111753784B

Abstract

本申请公开了一种视频的特效处理方法、装置、终端及存储介质，属于视频处理技术领域。该方法包括：获取视频的第一图像的多个第一人脸关键点，确定多个第一人脸关键点的图像特征，确定多帧第二图像中与图像特征匹配的多个第二人脸关键点，基于多个人脸关键点，对多帧图像进行特效处理，基于特效处理后的多帧图像，生成目标视频。本申请实施例中，通过人为标定第一图像的多个第一人脸关键点，将多帧第二图像分别与第一人脸关键点的图像特征进行匹配，可以实现对多帧第二图像人脸关键点的自动识别，进而基于每帧图像的人脸关键点对该图像进行特效处理，实现了视频的特效处理，无需使用第三方人脸识别平台，避免了耗时过长会降低帧率的问题。

Description

视频的特效处理方法、装置、终端及存储介质

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频的特效处理方法、装置、终端及存储介质。

背景技术

随着视频处理技术的快速发展，对视频中的人脸进行特效处理已经得到了广泛的应用。为了增加视频的趣味性，用户可以对视频中的人脸进行特效处理，如添加道具贴纸、表情特效等，从而在播放视频时能够达到特效效果。

目前，视频的特效处理方法通常为：在录制视频时，调用第三方人脸识别平台进行人脸识别，识别出该视频中的人脸关键点，并对该人脸关键点进行实时检测与跟踪，再对检测与跟踪到的人脸进行特效处理，从而在播放视频时达到特效效果。

然而，通过第三方人脸识别平台进行人脸识别，需要经过与第三方人脸识别平台进行大量的数据交互，例如发送视频、接收识别结果等，并且，第三方人脸识别平台还需要对视频进行识别来获取上述识别结果，其耗费时间较长，在视频录制中可能会产生特效延迟、视频卡顿的问题，降低了视频的视频帧率。

发明内容

本申请实施例提供了一种视频的特效处理方法、装置、终端及存储介质，能够实现视频的特效处理，无需使用第三方人脸识别平台，避免了耗时过长会降低帧率的问题。该技术方案如下：

一方面，提供了一种视频的特效处理方法，该方法包括：

获取视频的第一图像的多个第一人脸关键点，该多个第一人脸关键点为人为标定；

分别确定该多个第一人脸关键点的图像特征，该图像特征为第一人脸关键点在该第一图像中对应图像块的图像特征；

对于该视频中第一图像以后的多帧第二图像，分别确定该多帧第二图像中与该多个第一人脸关键点的图像特征匹配的多个第二人脸关键点；

基于该视频中多帧图像的多个人脸关键点，对该多帧图像进行特效处理，得到特效处理后的多帧图像；

基于该特效处理后的多帧图像，生成目标视频。

在一种可能的实现方式中，该分别确定该多个第一人脸关键点的图像特征包括：

对于该多个第一人脸关键点中每个第一人脸关键点，在该第一帧图像中，确定以该第一人脸关键点为中心、目标数值为边长的目标图像块；

基于该目标图像块内图像的像素点，计算该第一人脸关键点的图像特征。

在一种可能的实现方式中，该获取视频的第一图像的多个第一人脸关键点之前，该方法还包括：

获取该视频，对该视频进行解码处理，得到该视频的多帧图像；

在该视频的多帧图像中，确定该视频的第一帧图像，作为该第一图像，展示该第一图像。

在一种可能的实现方式中，该对于该视频中第一图像以后的多帧第二图像，分别确定该多帧第二图像中与该多个第一人脸关键点的图像特征匹配的多个第二人脸关键点包括：

基于该多帧第二图像中多个图像块，确定该多个图像块分别与该多个第一人脸关键点的图像特征的相似度；

确定与该多个第一人脸关键点的图像特征相似度达到目标阈值的多个图像块；

确定该多个图像块的中心，作为该多个第二人脸关键点。

在一种可能的实现方式中，该基于该视频中多帧图像的多个人脸关键点，对该多帧图像进行特效处理，得到特效处理后的多帧图像包括：

对于该多帧图像中每一帧图像，基于该图像的多个人脸关键点，在该图像中构建直角坐标系；

基于该直角坐标系、目标人脸特效以及该目标人脸特效对应的人脸特效参数，对该图像进行视频的特效处理，得到特效处理后的多帧图像。

在一种可能的实现方式中，该基于该直角坐标系、目标人脸特效以及该目标人脸特效对应的人脸特效参数，对该图像进行视频的特效处理，得到特效处理后的多帧图像包括：

在该直角坐标系中，基于该目标人脸特效对应的人脸特效参数，确定该目标人脸特效在该直角坐标系中的位置信息；

在该位置信息对应位置，渲染该目标人脸特效，得到特效处理后的多帧图像。

在一种可能的实现方式中，该基于该视频中多帧图像的多个人脸关键点，对该多帧图像进行特效处理，得到特效处理后的多帧图像之前，该方法还包括：

响应于对该目标人脸特效的确定操作，向服务器发送人脸特效获取请求，该人脸特效获取请求用于指示获取该目标人脸特效对应的人脸特效参数；

接收该服务器返回的该目标人脸特效对应的人脸特效参数。

一方面，提供了一种视频的特效处理装置，该装置包括：

获取模块，用于获取视频的第一图像的多个第一人脸关键点，该多个第一人脸关键点为人为标定；

图像特征确定模块，用于分别确定该多个第一人脸关键点的图像特征，该图像特征为第一人脸关键点在该第一图像中对应图像块的图像特征；

关键点确定模块，用于对于该视频中第一图像以后的多帧第二图像，分别确定该多帧第二图像中与该多个第一人脸关键点的图像特征匹配的多个第二人脸关键点；

处理模块，用于基于该视频中多帧图像的多个人脸关键点，对该多帧图像进行特效处理，得到特效处理后的多帧图像；

生成模块，用于基于该特效处理后的多帧图像，生成目标视频。

在一种可能的实现方式中，该图像特征确定模块，用于：

在一种可能的实现方式中，该装置还包括第一图像展示模块：

在一种可能的实现方式中，该关键点确定模块，用于：

确定该多个图像块的中心，作为该多个第二人脸关键点。

在一种可能的实现方式中，该处理模块，包括：

构建子模块，用于对于该多帧图像中每一帧图像，基于该图像的多个人脸关键点，在该图像中构建直角坐标系；

处理子模块，用于基于该直角坐标系、目标人脸特效以及该目标人脸特效对应的人脸特效参数，对该图像进行视频的特效处理，得到特效处理后的多帧图像。

在一种可能的实现方式中，该处理子模块，用于：

在一种可能的实现方式中，该装置还包括：

发送模块，用于响应于对该目标人脸特效的确定操作，向服务器发送人脸特效获取请求，该人脸特效获取请求用于指示获取该目标人脸特效对应的人脸特效参数；

接收模块，用于接收该服务器返回的该目标人脸特效对应的人脸特效参数。

一方面，提供了一种终端，该终端包括处理器和存储器，该存储器中存储有至少一条指令，该至少一条指令由该处理器加载并执行以实现上述的视频的特效处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，该至少一条指令由处理器加载并执行以实现上述的视频的特效处理方法所执行的操作。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频的特效处理方法所执行的操作。

本申请实施例提供的技术方案，通过人为标定第一图像的多个第一人脸关键点，将视频中其余多帧第二图像分别与第一人脸关键点的图像特征进行匹配，可以实现对多帧第二图像人脸关键点的自动识别，得到匹配成功的多个第二人脸关键点，进而基于每帧图像的人脸关键点对该图像进行特效处理操作，实现了视频的特效处理，无需使用第三方人脸识别平台，避免了耗时过长会降低帧率的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频的特效处理方法的实施环境的示意图；

图2是本申请实施例提供的一种视频的特效处理方法的流程图；

图3是本申请实施例提供的一种视频的特效处理方法的流程图；

图4是本申请实施例提供的一种特效处理的示意图；

图5是本申请实施例提供的一种视频的特效处理装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种视频的特效处理方法的实施环境的示意图。参见图1，该实施环境包括：终端101或服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，终端101可以运行有人脸表情编辑工具，人脸表情编辑工具可以具备为视频添加特效、视频预览以及视频播放的功能。终端101具有通信功能，可以接入互联网，终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102可以运行有特效信息数据库，该特效信息数据库用于存储多个人脸特效对应的人脸特效参数。服务器102与终端101可以通过有线或无线通信方式进行直接或间接的连接，本申请实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

在实现本申请实施例的过程中，视频的特效处理方法可以由终端101来执行，当用户想要想要对本地已存储的某一视频中的人脸添加特效时，可以在终端101上进行操作，启动人脸表情编辑工具，在该人脸表情编辑工具中选择载入该视频，并在人脸表情编辑工具的人脸特效窗口中点击想要添加的人脸特效，则终端101可以获取到该视频以及该人脸特效对应的人脸特效参数，利用本申请实施例提供的视频的特效处理方法，完成对视频中人脸的特效处理。可选地，一种可能的实现方式中，终端101获取人脸特效对应的人脸特效参数的过程可以由终端101与服务器102共同执行，也即是终端101向服务器102发送人脸特效获取请求，则服务器102接收到该人脸特效获取请求后，查询特效信息数据库得到该人脸特效获取请求对应的人脸特效参数，并将该人脸特效参数发送至终端101，则终端101可以获取到该人脸特效对应人脸特效参数。又一种可能的实现方式中，终端101获取人脸特效对应的人脸特效参数的过程可以仅由终端101来执行，终端101本地可以存储有已下载的人脸特效以及其对应人脸特效参数，则终端101在本地查询可以得到该人脸特效对应的人脸特效参数。本申请实施例后续以终端101和服务器102共同执行为例进行说明。

图2是本申请实施例提供的一种视频的特效处理方法的流程图。该实施例以终端为执行主体进行说明，参见图2，该实施例包括：

201、终端获取视频的第一图像的多个第一人脸关键点，该多个第一人脸关键点为人为标定。

202、终端分别确定该多个第一人脸关键点的图像特征，该图像特征为第一人脸关键点在该第一图像中对应图像块的图像特征。

203、终端对于该视频中第一图像以后的多帧第二图像，分别确定该多帧第二图像中与该多个第一人脸关键点的图像特征匹配的多个第二人脸关键点。

204、终端基于该视频中多帧图像的多个人脸关键点，对该多帧图像进行特效处理，得到特效处理后的多帧图像。

205、终端基于该特效处理后的多帧图像，生成目标视频。

图3是本申请实施例提供的一种视频的特效处理方法的流程图。该实施例以终端为执行主体进行说明，参见图3，该实施例包括：

301、终端获取视频，对该视频进行解码处理，得到该视频的多帧图像。

其中，视频用于表示待进行特效处理的视频，该视频为包含人脸的视频。视频可以为提前录制好存储至本地的视频，也可以为从服务器端下载存储至本地的视频。为保证特效处理的准确性，视频为未进行任何其他特效处理过的视频。可选地，该视频可以为每一帧均包含人脸的视频，如仅包含人脸表情内容的视频，或者，该视频也可以为个别帧包含人脸的视频，如在风景视频中出现人脸片段的视频。本申请实施例中后续以每一帧均包含人脸的视频为例进行说明。解码处理是指对已编码的视频进行还原解码操作的过程，具体是将数据编码文件转换为模拟视音频信号的过程。

在一种可能的实现方式中，当用户想要对本地已存储的某一视频中的人脸添加特效时，可以在终端上进行操作，启动人脸表情编辑工具，在该人脸表情编辑工具中选择载入该视频，则终端可以获取到该视频，同时人脸表情编辑工具也可以获取到该视频。人脸表情编辑工具获取到该视频后，通过视频解码器对视频解码处理，可以得到该视频的多帧图像。其中，人脸表情编辑工具中可以包含视频解码器，或者，终端的系统中可以安装有视频解码器。

302、终端在该视频的多帧图像中，确定该视频的第一帧图像，作为该第一图像，展示该第一图像。

其中，第一图像用于表示待进行人为标定的图像，第一图像为包含人脸的图像。

在一种可能的实现方式中，终端在获取到该视频的多帧图像后，基于该多帧图像以及该多帧图像对应时间戳，可以确定出起始时间戳对应的第一帧图像，作为该第一图像，进而展示该第一图像。在该过程中，终端可以直接确定起始帧(也即是第一帧)图像进而展示即可，处理过程十分简单，能够快速的确定出第一帧图像。

需要说明的是，步骤302中以第一图像为该视频的第一帧图像为例进行说明，应理解地，该过程应用于上述每一帧均包含人脸的视频。在另一种可能的实现方式中，第一图像也可以为该视频的任一帧包含人脸的图像，相应过程可以为：终端在获取到该视频的多帧图像后，可以在人脸表情编辑工具中以一帧一帧图像的形式展示该多帧图像，用户可以在终端界面上点击包含人脸的一帧图像，则终端可以确定该帧图像为第一图像，进而展示该第一图像。在该过程中，通过人为选择来确定包含人脸的一帧图像，能够在个别帧包含人脸的视频中选择出包含人脸的一帧图像，并基于该帧图像进行后续的确定特征、特征匹配、特效处理等操作，从而实现对视频的特效处理。应理解地，该过程可以应用于上述每一帧均包含人脸的视频，也可以应用于上述个别帧包含人脸的视频。

303、终端获取视频的第一图像的多个第一人脸关键点，该多个第一人脸关键点为人为标定。

其中，第一人脸关键点用于表示第一图像中的人脸关键点，第一人脸关键点可以包括人脸五官关键点与人脸轮廓关键点，人脸五官关键点可以为左眼、右眼、鼻子、嘴巴等，人脸轮廓关键点可以为人脸边界对应的多个关键点。后续以第一人脸关键点包括左眼、右眼、鼻子三个关键点为例进行说明。

在一种可能的实现方式中，终端展示该第一图像后，用户可以手动标定该第一图像中多个第一人脸关键点，点击确认提交选项后，终端可以获取到视频的第一图像的多个第一人脸关键点，进而基于该多个第一人脸关键点进行后续确定特征的过程。

例如，若第一人脸关键点包括左眼、右眼、鼻子三个关键点，则用户可以在该第一图像的人脸中，点击左眼、右眼、鼻子三个关键点，再点击确认提交选项。

304、终端分别确定该多个第一人脸关键点的图像特征，该图像特征为第一人脸关键点在该第一图像中对应图像块的图像特征。

其中，图像特征是指图像中能够区别于其他像素点的特征，也即是能够代表图像块内图像信息的特征，同时图像特征也是一幅图像与另一幅图像能够进行相似度度量的特征。图像特征具体可以是特征向量。本申请实施例中，采用纹理特征作为图像特征。需要说明的是，纹理特征需要在包含有多个像素点的区域内进行统计计算得到。像素点(pixel)是指图像的基本元素(或最小单位)，可以理解为一个颜色单一且不能再分割成更小元素(或单位)的小方格，每个小方格可以称为一个像素点。

在一种可能的实现方式中，终端获取到视频的第一图像的多个第一人脸关键点后，将该多个第一人脸关键点作为特征提取算法的输入，对于该多个第一人脸关键点中每个第一人脸关键点，通过特征提取算法在该第一图像中，确定以该第一人脸关键点为中心、目标数值为边长的目标图像块，基于该目标图像块内图像的像素点，计算该第一人脸关键点的图像特征。其中，目标数值为预先设定的固定数值，如10。目标图像块用于表示第一人脸关键点的邻域对应的图像块，该目标图像块可以为以第一人脸关键点为中心的图像块，该目标图像块可以为正方形块，如目标数值为10时，该目标图像块为10*10的正方形块。

可选地，特征提取算法可以为SIFT(Scale-Invariant Feature Transform，尺度不变特征转换)算法。以目标数值为10为例，终端基于SIFT算法确定图像特征的具体过程可以包括：对于该多个第一人脸关键点中每个第一人脸关键点，选取该第一人脸关键点为中心、10为边长的目标图像块，在该目标图像块内，基于该目标图像块内图像的像素点，计算每个像素点的梯度方向值，该梯度方向值包括梯度方向和梯度幅值，每个像素点均对应有梯度方向和梯度幅值。把目标图像块均匀划分为多个小图像块，利用高斯系数对多个小图像块的梯度方向值进行加权运算，计算得到各个梯度方向的累加值，作为每个小图像块的梯度信息。基于该小图像块的梯度信息，在每个小图像块上绘制8个梯度方向的梯度直方图，梯度直方图是一种利用图像梯度方向特征所绘制的直方图，该梯度直方图用于表示图像特征。应理解地，一个小图像块周围的小图像块最多有8个，因此一个小图像块可以对应有上、下、左、右、左上、右上、左下及右下8个梯度方向。根据该多个小图像块的梯度直方图，可以确定出该多个小图像块的特征向量，也即是确定出目标图像块的特征向量，作为第一人脸关键点的图像特征。例如，终端可以将该10*10的目标图像块划分为2*2的小图像块，得到5个小图像块，在每个小图像块上绘制8个梯度方向的梯度直方图，即可得到5个小图像块对应图像特征，每个第一人脸关键点的图像特征由5个小图像块对应图像特征组成，每个小图像块对应图像特征有8个梯度方向的向量信息，因此，可以得到一个维数为5*8＝40维的特征向量，作为第一人脸关键点的图像特征。

本申请实施例中，基于第一人脸关键点的目标图像块来计算图像特征，将第一人脸关键点与其邻域的相关信息结合，能够确定出具有唯一性的图像特征，且目标图像块内包含了足够多的特征，提高了确定图像特征的准确性和可靠性，进而在后续特征匹配时提高了特征匹配的准确性。

305、终端对于该视频中第一图像以后的多帧第二图像，分别确定该多帧第二图像中与该多个第一人脸关键点的图像特征匹配的多个第二人脸关键点。

其中，第二图像用于表示待进行特征匹配的图像，第二图像可以为包含人脸的图像，也可以为不包含人脸的图像。第二人脸关键点用于表示第二图像中的人脸关键点。

在一种可能的实现方式中，终端确定出该多个第一人脸关键点的图像特征后，对于该视频中第一图像以后的多帧第二图像，基于该多帧第二图像中多个图像块，确定该多个图像块分别与该多个第一人脸关键点的图像特征的相似度，确定与该多个第一人脸关键点的图像特征相似度达到目标阈值的多个图像块，确定该多个图像块的中心，作为该多个第二人脸关键点。其中，相似度用于表示各图像块的图像特征与第一人脸关键点的图像特征之间的相似程度，目标阈值可以为预先设定的固定阈值。相似度可以采用图像特征之间的距离来表示，相似度达到目标阈值也可以采用距离小于某一阈值来表示。可选地，距离可以为欧氏距离、曼哈顿距离、卡方距离或切比雪夫距离等，本申请实施例对选用何种距离不作限定。应理解地，距离越小，相似度越高，距离越大，相似度越低。

可选地，终端进行特征匹配的具体过程可以为：在该多帧第二图像中确定与目标图像块相同大小的多个图像块，分别计算该多个图像块的图像特征，根据该多个图像块的图像特征以及该多个第一人脸关键点的图像特征，计算该多个图像块的图像特征与该多个第一人脸关键点的图像特征之间的相似度，若存在图像块与该第一人脸关键点的图像特征之间的相似度达到目标阈值，则确定该图像块匹配成功，得到匹配成功的多个图像块，并确定该多个图像块的中心，作为匹配成功的多个第二人脸关键点。

需要说明的是，步骤305中以多帧第二图像分别与第一图像中第一人脸关键点的图像特征进行特征匹配为例。在另一种可能的实现方式中，终端可以基于该多帧第二图像的时间戳，依次将第二图像和与其相邻的第二图像进行特征匹配，得到第二图像的多个第二人脸关键点。以第一图像为第一帧图像为例，多帧第二图像为第一帧图像以后的图像，终端确定第二帧图像的多个第二人脸关键点时，可以将第二帧图像与第一帧图像进行特征匹配，得到匹配成功的多个第二人脸关键点。终端确定第三帧图像的多个第二人脸关键点时，可以将第三帧图像与第二帧图像进行特征匹配，得到匹配成功的多个第二人脸关键点。进而依次确定出多帧第二图像的多个第二人脸关键点。在该过程中，由于相邻图像之间的相似度较高，通过将第二图像和与其相邻的第二图像进行特征匹配，可以更加准确地确定出第二人脸关键点，避免了因前后图像相隔较远无法精确匹配而产生确定出关键点的问题。

306、终端响应于对目标人脸特效的确定操作，向服务器发送人脸特效获取请求，该人脸特效获取请求用于指示获取该目标人脸特效对应的人脸特效参数。

其中，目标人脸特效用于表示用户选择待添加的人脸特效，人脸特效为提前设计好的特效，如道具贴纸、表情特效等。不同的目标人脸特效对应不同的人脸特效参数，采用不同的人脸特效参数对人脸特效处理，可以显示不同的特效效果。需要说明的是，对目标人脸特效的确定操作可以在用户标定第一人脸关键点之后执行，也即是用户手动标定该第一图像中多个第一人脸关键点后，点击提交，终端界面上显示多个人脸特效选项，则用户可以在终端界面上点击目标人脸特效，或者，对目标人脸特效的确定操作也可以在用户载入视频之后、标定第一人脸关键点之前执行，也即是用户在人脸表情编辑工具中载入该视频后，终端界面上显示多个人脸特效选项，用户可以在终端界面上点击目标人脸特效，则终端响应于对目标人脸特效的确定操作，执行后续确定第一图像、展示第一图像、获取用户标定的第一人脸关键点的过程。

在一种可能的实现方式中，当终端检测到用户对目标人脸特效的确定操作时，触发终端向服务器发送该对目标人脸特效的人脸特效获取请求，则服务器接收到该对目标人脸特效的人脸特效获取请求后，获取该人脸特效获取请求携带的目标人脸特效的标识，根据该目标人脸特效的标识在特效信息数据库中查询，得到该标识对应的人脸特效参数，作为目标人脸特效对应的人脸特效参数，将该目标人脸特效对应的人脸特效参数发送至终端，则终端可以获取到该目标人脸特效对应的人脸特效参数，再进行后续特效处理。其中，特效信息数据库用于存储多个人脸特效对应的人脸特效参数。

307、终端接收该服务器返回的该目标人脸特效对应的人脸特效参数。

步骤306至步骤307以通过服务器侧获取目标人脸特效对应的人脸特效参数为例进行说明。在另一种可能的实现方式中，终端本地可以存储有已下载的人脸特效以及其对应人脸特效参数，当终端检测到用户对目标人脸特效的确定操作时，触发对目标人脸特效的人脸特效获取指令，则终端在本地查询该人脸特效获取指令对应的人脸特效参数，作为目标人脸特效对应的人脸特效参数。

上述步骤303至步骤307中以终端在确定图像特征、特征匹配进而确定出多个第二人脸关键点后获取人脸特效参数为例。在另一种可能的实现方式中，终端也可以在确定图像特征、特征匹配、确定多个第二人脸关键点之前获取人脸特效参数。本申请实施例对何时获取人脸特效参数不作限定。

308、终端基于该视频中多帧图像的多个人脸关键点以及该目标人脸特效对应的人脸特效参数，对该多帧图像进行特效处理，得到特效处理后的多帧图像。

在一种可能的实现方式中，对于该多帧图像中每一帧图像，基于该图像的多个人脸关键点，在该图像中构建直角坐标系，基于该直角坐标系、目标人脸特效以及该目标人脸特效对应的人脸特效参数，对该图像进行视频的特效处理，得到特效处理后的多帧图像。

可选地，直角坐标系的坐标原点可以为多个人脸关键点中的任一项。以多个人脸关键点为左眼、右眼和鼻子为例，直角坐标系的坐标原点可以为图像中人脸的左眼关键点、右眼关键点、鼻子关键点中任一项。在另一种可能的实现方式中，将左眼关键点与右眼关键点相连得到眼睛连线，基于鼻子关键点作鼻子关键点到该眼睛连线的垂线，该眼睛连线与该垂线的交点也可以作为直角坐标系的坐标原点，如图4所示，图4是本申请实施例提供的一种特效处理的示意图，以眼睛连线所在直线作为直角坐标系的横轴，垂线所在直线作为直角坐标系的纵轴，以该眼睛连线与该垂线的交点为坐标原点构建直角坐标系。

可选地，终端基于直角坐标系进行特效处理的过程可以包括：在该直角坐标系中，基于该目标人脸特效对应的人脸特效参数，确定该目标人脸特效在该直角坐标系中的位置信息，在该位置信息对应位置，渲染该目标人脸特效，得到特效处理后的多帧图像。其中，位置信息可以为坐标信息，该坐标信息包括横坐标和纵坐标。如图4所示，图4中示出了一种特效处理的示意图，目标人脸特效可以为星型贴纸，在确定出该星型贴纸在该直角坐标系中的位置信息后，将该星型贴纸渲染在图像中位置信息对应的位置，得到如图4所示的特效效果。

上述步骤301至步骤308中，以终端先确定出多帧图像的多个人脸关键点再对多帧图像进行特效处理为例进行说明。在另一种可能的实现方式中，终端在每确定出一帧图像的多个人脸关键点后，可以对该帧图像进行特效处理，得到特效处理后的图像。相应过程可以为：终端获取第一图像的多个第一人脸关键点后，基于多个第一人脸关键点对该第一图像进行特效处理，得到特效处理后的第一图像。对于多帧第二图像中每帧图像，确定出与第一图像中多个第一人脸关键点匹配的多个第二人脸关键点后，对该第二图像进行特效处理，得到特效处理后的第二图像，从而得到特效处理后的多帧图像。

309、终端基于该特效处理后的多帧图像，生成目标视频。

其中，编码处理是指将视频进行压缩的过程。目标视频用于表示经特效处理得到的视频。

在一种可能的实现方式中，终端获取到特效处理后的多帧图像后，基于该视频的视频编码帧率，对该特效处理后的多帧图像进行编码处理，生成目标视频。

可选地，终端生成目标视频后，可以响应于用户的视频预览操作或视频播放操作，对目标视频进行视频预览或视频播放，在视频预览或视频播放的过程中，可以达到人脸特效的效果。

图5是本申请实施例提供的一种视频的特效处理装置的结构示意图，参见图5，该装置包括：

获取模块501，用于获取视频的第一图像的多个第一人脸关键点，该多个第一人脸关键点为人为标定；

图像特征确定模块502，用于分别确定该多个第一人脸关键点的图像特征，该图像特征为第一人脸关键点在该第一图像中对应图像块的图像特征；

关键点确定模块503，用于对于该视频中第一图像以后的多帧第二图像，分别确定该多帧第二图像中与该多个第一人脸关键点的图像特征匹配的多个第二人脸关键点；

处理模块504，用于基于该视频中多帧图像的多个人脸关键点，对该多帧图像进行特效处理，得到特效处理后的多帧图像；

生成模块505，用于基于该特效处理后的多帧图像，生成目标视频。

在一种可能的实现方式中，该图像特征确定模块502，用于：

在一种可能的实现方式中，该关键点确定模块503，用于：

确定该多个图像块的中心，作为该多个第二人脸关键点。

在一种可能的实现方式中，该处理模块504，包括：

在一种可能的实现方式中，该处理子模块，用于：

在一种可能的实现方式中，该装置还包括：

需要说明的是：上述实施例提供的视频的特效处理装置在处理视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频的特效处理装置与视频的特效处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的视频的特效处理方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端或服务器中的处理器执行以完成上述实施例中视频的特效处理方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频的特效处理方法，其特征在于，所述方法包括：

获取视频的第一图像的多个第一人脸关键点，所述多个第一人脸关键点为人为标定；

分别确定所述多个第一人脸关键点的图像特征，所述图像特征为第一人脸关键点在所述第一图像中对应图像块的图像特征；

对于所述视频中第一图像以后的多帧第二图像，分别确定所述多帧第二图像中与所述多个第一人脸关键点的图像特征匹配的多个第二人脸关键点；

基于所述视频中多帧图像的多个人脸关键点，对所述多帧图像进行特效处理，得到特效处理后的多帧图像；

基于所述特效处理后的多帧图像，生成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述分别确定所述多个第一人脸关键点的图像特征包括：

对于所述多个第一人脸关键点中每个第一人脸关键点，在所述第一帧图像中，确定以所述第一人脸关键点为中心、目标数值为边长的目标图像块；

基于所述目标图像块内图像的像素点，计算所述第一人脸关键点的图像特征。

3.根据权利要求1所述的方法，其特征在于，所述获取视频的第一图像的多个第一人脸关键点之前，所述方法还包括：

获取所述视频，对所述视频进行解码处理，得到所述视频的多帧图像；

在所述视频的多帧图像中，确定所述视频的第一帧图像，作为所述第一图像，展示所述第一图像。

4.根据权利要求1所述的方法，其特征在于，所述对于所述视频中第一图像以后的多帧第二图像，分别确定所述多帧第二图像中与所述多个第一人脸关键点的图像特征匹配的多个第二人脸关键点包括：

基于所述多帧第二图像中多个图像块，确定所述多个图像块分别与所述多个第一人脸关键点的图像特征的相似度；

确定与所述多个第一人脸关键点的图像特征相似度达到目标阈值的多个图像块；

确定所述多个图像块的中心，作为所述多个第二人脸关键点。

5.根据权利要求1所述的方法，其特征在于，所述基于所述视频中多帧图像的多个人脸关键点，对所述多帧图像进行特效处理，得到特效处理后的多帧图像包括：

对于所述多帧图像中每一帧图像，基于所述图像的多个人脸关键点，在所述图像中构建直角坐标系；

基于所述直角坐标系、目标人脸特效以及所述目标人脸特效对应的人脸特效参数，对所述图像进行视频的特效处理，得到特效处理后的多帧图像。

6.根据权利要求5所述的方法，其特征在于，所述基于所述直角坐标系、目标人脸特效以及所述目标人脸特效对应的人脸特效参数，对所述图像进行视频的特效处理，得到特效处理后的多帧图像包括：

在所述直角坐标系中，基于所述目标人脸特效对应的人脸特效参数，确定所述目标人脸特效在所述直角坐标系中的位置信息；

在所述位置信息对应位置，渲染所述目标人脸特效，得到特效处理后的多帧图像。

7.根据权利要求5所述的方法，其特征在于，所述基于所述视频中多帧图像的多个人脸关键点，对所述多帧图像进行特效处理，得到特效处理后的多帧图像之前，所述方法还包括：

响应于对所述目标人脸特效的确定操作，向服务器发送人脸特效获取请求，所述人脸特效获取请求用于指示获取所述目标人脸特效对应的人脸特效参数；

接收所述服务器返回的所述目标人脸特效对应的人脸特效参数。

8.一种视频的特效处理装置，其特征在于，所述装置包括：

获取模块，用于获取视频的第一图像的多个第一人脸关键点，所述多个第一人脸关键点为人为标定；

图像特征确定模块，用于分别确定所述多个第一人脸关键点的图像特征，所述图像特征为第一人脸关键点在所述第一图像中对应图像块的图像特征；

关键点确定模块，用于对于所述视频中第一图像以后的多帧第二图像，分别确定所述多帧第二图像中与所述多个第一人脸关键点的图像特征匹配的多个第二人脸关键点；

处理模块，用于基于所述视频中多帧图像的多个人脸关键点，对所述多帧图像进行特效处理，得到特效处理后的多帧图像；

生成模块，用于基于所述特效处理后的多帧图像，生成目标视频。

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的视频的特效处理方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的视频的特效处理方法所执行的操作。