CN110544200A

CN110544200A - 一种实现视频中人与猫互换嘴部的方法

Info

Publication number: CN110544200A
Application number: CN201910814773.6A
Authority: CN
Inventors: 白双; 王聪聪; 席楠; 秦琦; 南金建
Original assignee: Beijing Pet Technology Co Ltd
Current assignee: Beijing Shenzhou Digital Cloud Information Technology Co ltd; Shenzhou Kuntai Xiamen Information Technology Co ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-06
Anticipated expiration: 2039-08-30
Also published as: CN110544200B

Abstract

本发明提供了一种实现视频中人与猫互换嘴部的方法，通过预制的猫脸图像数据集，构建相应算法，获取目标猫脸关键点、目标人脸关键点，进一步转换成换嘴单帧图像，并进行分帧合成处理，获得换嘴视频图像；本发明提供的方法，换嘴融合度高，不受严重侧脸、面部动作异常等情况的干扰，视觉效果好；还具有改善了现有换嘴视频中抖动的现象，视觉效果好；以及建立了品种多样的猫脸数据集，增加换嘴趣味性的优点。

Description

一种实现视频中人与猫互换嘴部的方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种实现视频中人与猫互换嘴部的方法。

背景技术

随着深度学习技术的不断发展，目前深度学习已经广泛应用于各个领域，其中的人脸交换便是其中一个重要的应用。作为该技术的延伸，现有技术中提出了一些将嘴部区域提取和人嘴换猫嘴技术，其可以对包含人脸和猫脸的图像进行检测，识别并提取出嘴部区域，再将人嘴变换到猫脸图像上，为人们的娱乐休闲生活带来不少乐趣。

但是现有技术中，只能针对正常的猫脸和人脸嘴部区域进行检测、识别和特征提取，并实现交换，对于图像中严重侧脸、面部动作异常等数据，会出现换嘴效果差的现象。

发明内容

本发明的实施例提供了一种实现视频中人与猫互换嘴部的方法，用以解决现有技术存在的影像合成不连贯不稳定的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种实现视频中人与猫互换嘴部的方法，包括如下步骤：

基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，通过该目标猫脸参数检测提取模型获取目标猫脸关键点；

检测目标人脸，获取目标人脸关键点；

基于目标猫脸关键点、目标人脸关键点建立换嘴算法，获得换嘴单帧图像；

基于换嘴单帧图像，通过分帧合成处理，获得换嘴视频图像。

优选的，包括建立猫脸图像数据集的如下步骤：

获取多个品种的猫脸图像；

基于猫脸图像，设置猫脸参照框，在猫脸参照框的区域内标注猫脸参照关键点；

基于猫脸参照框和猫脸参照关键点建立猫脸图像数据集。

优选的，的基于猫脸图像，设置猫脸参照框，在猫脸参照框的区域内标注猫脸参照关键点包括：

在猫脸参照框的区域内，选取猫脸的多个部位，标注猫脸参照关键点；

猫脸的多个部位包括，脸部轮廓、耳朵、眼睛、鼻子、嘴巴、下颌。

优选的，的基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，通过该目标猫脸参数检测提取模型获取目标猫脸关键点包括如下子步骤：

建立并训练目标猫脸检测模型，获取目标猫脸检测框；

基于目标猫脸检测框，建立并训练猫脸关键点提取模型。

优选的，的基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，通过该目标猫脸参数检测提取模型获取目标猫脸关键点还包括如下子步骤：

建立猫脸样本数据集，包括正样本数据和负样本数据；

基于猫脸样本数据集，建立并训练异常猫脸样本分类模型。

优选的，的检测目标人脸，获取目标人脸关键点包括如下子步骤：

获取目标人脸图像；

基于目标人脸图像，获取目标人脸数；

基于目标人脸图像中的目标人脸，获取目标人脸关键点。

优选的，的获取目标人脸图像还包括将目标人脸图像转换为灰度图。

优选的，的基于目标猫脸关键点、目标人脸关键点建立换嘴算法，获得换嘴单帧图像包括如下子步骤：

分别从目标猫脸关键点、目标人脸关键点中选取猫脸嘴部关键点、人脸嘴部关键点，分别连接猫脸嘴部关键点、人脸嘴部关键点，获得猫嘴部图形、人嘴部图形；

基于猫嘴部图形、人嘴部图形建立形状匹配算法、色度融合算法和边缘衔接算法。

优选的，的基于猫嘴部图形、人嘴部图形建立形状匹配算法、色度融合算法和边缘衔接算法包括：

获取猫脸嘴部关键点、人脸嘴部关键点的坐标参数，基于该坐标参数建立矩阵式求解该矩阵式,使该矩阵式取得最小值时，完成猫嘴部图形、人嘴部图形相互形状匹配，其中，R是个2x2正交矩阵，s是标量，T是二维向量，pⁱ和qⁱ是上述标记矩阵的行；

基于猫嘴部图形、人嘴部图形建立高斯核函数

并求解，使猫嘴部图形、人嘴部图形相互色度融合，其中，σ为标准差；

获取猫脸嘴部关键点、人脸嘴部关键点的坐标参数，获得猫脸嘴部遮罩层与人脸嘴部遮罩层，基于该猫脸嘴部遮罩层与人脸嘴部遮罩层并通过求解矩阵式使该矩阵式取得最小值时，完成猫嘴部图形、人嘴部图形相互边缘衔接。

优选的，还包括对换嘴视频图像进行防抖处理的步骤：

基于换嘴视频图像，获取相互邻接的多个换嘴单帧图像，从该多个换嘴单帧图像中分别提取目标猫脸检测框，对所提取的目标猫脸检测框进行均值运算；

基于该运算结果，获得换嘴优化图像并进行分帧合成处理。

优选的，还包括对换嘴视频图像进行防抖处理的步骤：

基于换嘴视频图像，获取相互邻接的多个换嘴单帧图像，从该多个换嘴单帧图像中分别提取目标猫脸关键点，对所提取的目标猫脸关键点进行均值运算；

基于该运算结果，获得换嘴优化图像并进行分帧合成处理。

由上述本发明的实施例提供的技术方案可以看出，本发明提供的实现视频中人与猫互换嘴部的方法，通过预制的猫脸图像数据集，构建相应算法，获取目标猫脸关键点、目标人脸关键点，进一步转换成换嘴单帧图像，并进行分帧合成处理，获得换嘴视频图像；本发明提供的方法，换嘴融合度高，不受严重侧脸、面部动作异常等情况的干扰，视觉效果好。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种实现视频中人与猫互换嘴部的方法的流程图；

图2为本发明提供的一种实现视频中人与猫互换嘴部的方法的逻辑框图；

图3为本发明提供的一种实现视频中人与猫互换嘴部的方法的猫脸检测示意图；

图4为本发明提供的一种实现视频中人与猫互换嘴部的方法的人脸检测示意图。

图中：

M1至M35 目标猫脸关键点；

R1至R68 目标人脸关键点。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

参见图1和2，本发明提供的一种实现视频中人与猫互换嘴部的方法，包括如下步骤：

检测目标人脸，获取目标人脸关键点；

本发明提供的实现视频中人与猫互换嘴部的方法，通过预制的猫脸图像数据集，构建相应算法，获取目标猫脸关键点、目标人脸关键点，进一步转换成换嘴单帧图像，并进行分帧合成处理，获得换嘴视频图像；本发明提供的方法，换嘴融合度高，不受严重侧脸、面部动作异常等情况的干扰，视觉效果好。

本发明提供的方法，大致可以分为猫脸人脸数据检测采集与图像建立部分与视频合成部分。

申请人发现，不同品种的猫脸型差别较大，而现有的方法只针对正常的、常见的猫脸进行检测与合成，故融合度不理想；有鉴于此，在一些优选的实施例中，还包括构建预制的猫脸图像数据集的子步骤：

获取多个品种的猫脸图像；

基于猫脸图像，设置由封闭的多边形构成的猫脸参照框，在猫脸参照框的区域内标注猫脸参照关键点；

基于猫脸参照框和猫脸参照关键点建立猫脸图像数据集；

在第一个子步骤中，优选基于目前主要宠物猫品种进行图像收集，例如包括了波斯猫、布偶猫、东方猫、俄罗斯蓝猫、加菲猫、金吉拉猫、橘猫、狸花猫、美国短尾猫、美国短毛猫、美国卷毛猫、孟加拉猫、缅因猫、斯芬克斯猫、暹罗猫、英国短毛猫，当然也可以是野生小型猫科的亚种，例如兔狲；针对同种猫类存在的脸型、毛色等局部差别，以及幼猫与成年猫的面部差异，获取的图像数越多种类越全面，数据集准确度越好，例如在本实施例中，获取了5万张图像用于构建猫脸图像数据集；

在第二个子步骤中，设置猫脸参照框的作用是以猫嘴为核心确定所要处理的猫脸部参照区域，在本实施例中，该参照区域即猫脸参照框的围合区域；

在猫脸参照框的区域内标注猫脸参照关键点并提取其参数用于后续的算法建立与求解，应当理解的是，应当使猫脸参照关键点全部被猫脸参照框框住，以保证猫脸参照框的紧凑，实际设置时可以是根据已标注完成后的猫脸参照关键点的分布对猫脸参照框进行调整。

更进一步的，猫脸参照关键点的标注优选在猫脸参照框的区域内，选取猫脸的多个部位，标注猫脸参照关键点；这些脸部的部位可以是包括脸部轮廓、耳朵、眼睛、鼻子、嘴巴、下颌；例如图3所示的那样，针对一个部位的边廓选取多个关键点，在图3所示的本实施例设置方式一共标注了从M1至M35的35个猫脸参照关键点，其中，M1、M2、M6、M7分别为猫脸参照关键点中的耳根轮廓，M4为猫脸参照关键点中的耳中心轮廓。

进一步的，在另一些优选的实施例中，基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，获取目标猫脸关键点包括如下子步骤：

建立并训练目标猫脸检测模型，获取目标猫脸检测框；

基于目标猫脸检测框，建立并训练猫脸关键点提取模型。

第一个子步骤，用于实现对猫脸检测，其可以采用现有技术中目标检测的方法，例如采用faster-rcnn网络，ResNet101预训练模型，对上述建立的猫脸图像数据集进行混合，修改相关参数，进行猫脸检测的模型训练，获取目标猫脸检测框，其为交互界面中的图形工具，以实现图像中的猫脸提取，范围优选与猫脸参照框的范围重合，当然也可以大于猫脸参照框；

第二个子步骤，具体可以为，基于图3所示的上述实施例，采用faster-rcnn网络，ResNet101预训练模型搭建标注35个猫脸关键点的猫脸关键点提取模型，并对上述训练得到猫脸框进行扩大，扩大比例为1.1。之后对数据集统一裁剪成128*128的尺寸，继而对裁剪之后的猫脸数据和标注数据进行猫脸关键点的检测训练，以实现对目标图像中的猫脸关键点的定位。

进一步的，在另一些优选的实施例中，基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，获取目标猫脸关键点还包括建立并训练异常猫脸样本分类模型的步骤，包括：

建立猫脸样本数据集，包括正样本数据和负样本数据，该负样本即不符合换嘴要求的样本，如图像不清晰，脸部有伤痕等，具体可以是基于猫脸图像数据集进行分类，并补充获取图像作补充到负样本数据中；

基于猫脸样本数据集，建立并训练实现对异常猫脸图像进行分类的异常猫脸样本分类模型，具体可以基于基于inception模型构建；构建完成的异常猫脸样本分类模型用于在目标图像中进行筛选，用于后续的视频帧制作。

进一步的，在另一些优选实施例中，检测目标人脸，获取目标人脸关键点的步骤通过基于dlib人脸检测模型进行人脸检测和人脸关键点检测，以提取人脸框和定位多个人脸关键点为例，具体为：

获取目标人脸图像，进一步还需要将目标人脸图像转换为灰度图；

基于目标人脸图像，获取目标人脸数，以支持同一视频中多猫同时换嘴；

基于目标人脸图像中的目标人脸，获取目标人脸关键点；目标人脸关键点的选择与分布如图4所示，在本实施例中，优选提取R1-R68总共68个关键点。

本领域技术人员应能理解上述获取目标人脸关键点的应用类型仅为举例，其他现有的或今后可能出现的获取目标人脸关键点的应用类型如可适用于本发明实施例，也应包含在本发明保护范围以内，并在此以引用方式包含于此；

例如，也可以采用OpenCV自带的Haar特征分类器等，Haar检测人脸的优点在于简单、快速，但检测效果一般，正面且光线较好的人脸，该方法可以检测出来，而无法检测侧面、歪斜、光线不好的人脸；而dlib检测人脸的优点在于，只需调用dlib自带的人脸检测器即可，并且dlib速度更快，且人脸检测效果要优于Haar特征分类器。dlib检测人脸关键点，需要调用官方提供的特征提取器，准确度比较高。

进一步的，在另一些优选实施例中，基于目标猫脸关键点、目标人脸关键点建立换嘴算法，获得换嘴单帧图像包括如下子步骤：

基于猫嘴部图形、人嘴部图形建立形状匹配算法、色度融合算法和边缘衔接算法；

在第一个子步骤中，如图3和4所示，由于人嘴是倒三角形形状，而猫嘴是正三角形形状，于是需要选取适当的关键点以使得两者的形状匹配。在前面的步骤中得到检测到的目标猫脸关键点和目标人脸关键点，9个猫嘴部关键点

(M27,M28,M29,M30,M31,M32,M33,M34,M35)恰巧组成一个倒三角形状(猫嘴部8个关键点，以及下巴1个关键点，共计为9个猫嘴部关键点)，人嘴部17个关键点选取9个(R49,R50,R51,R52,R53,R54,R55,R67,R58)组成倒三角形，将上述关键点用线条依次连接，即获得猫嘴部图形、人嘴部图形；

第二个子步骤可以包括如下三个部分：

建立形状匹配算法，获取猫脸嘴部关键点、人脸嘴部关键点的坐标参数，使用普式分析法调整猫嘴部图形、人嘴部图形；普氏分析法是一种用来分析形状分布的方法。数学上来讲，就是经过一系列迭代，寻找标准形状，并利用最小二乘法寻找每个样本形状到这个标准形状的仿射变化方式；具体为，基于该坐标参数建立矩阵式求解该矩阵式，寻找R，s，T使得该矩阵式取得最小值时，完成猫嘴部图形、人嘴部图形相互形状匹配，其中，R是个2x2正交矩阵，s是标量，T是二维向量，pⁱ和qⁱ是上面标记矩阵的行；求解分析时，首先，将输入的标记矩阵转化为浮点数；每一个点集减去它的矩心，进行迭代，以便为该点集找到一个最佳的缩放和旋转方法；接着，每一个点集除以它的标准偏差，以消除组件缩放偏差问题；进而，使用奇异值计算旋转部分；最后利用仿射矩阵返回完整的转化。这样便实现了人嘴到猫嘴的形状和角度对应；

申请人发现，完成人嘴到猫嘴的形状和角度对应之后，由于换嘴在实际过程中出现猫嘴偏下的现象，于是设计将猫嘴部上移，在进一步改进的实施例中，将猫嘴部上移如附图2所示猫脸关键点M26和M30之间的距离的一半；

建立色度融合算法，具体为，选取一个合适的高斯核函数并求解，来对猫嘴和人嘴进行高斯模糊，计算时标准差σ设为0，表示由OpenCV根据高斯核大小自动计算。其中，高斯核边长设为:

并对之取整，其中高斯核大小必须为奇数，如果通过该计算方式得到的ksize为偶数，则将该值加1。其中(x_m,y_m)和(x_r,y_r)分别表示猫嘴和人嘴关键点坐标的平均值。再将图像与该高斯核进行二维卷积(高斯核公式中的x,y即为图像的横纵坐标值)，利用上述高斯核函数公式求解函数大小即为图像该点的模糊权值。由此，获得猫嘴和人嘴的高斯模糊，分被记为；m_blur和r_blur，通过函数：完成颜色修正，由此实现猫嘴和人嘴的颜色匹配。

用人嘴区域除以人嘴区域的高斯模糊，然后乘以猫嘴区域的高斯模糊，用这种方法两目标区域之间色度差异可以在某种程度上被修正；

建立边缘衔接算法，具体为，获取猫脸嘴部关键点、人脸嘴部关键点的坐标参数，获得猫脸嘴部遮罩层与人脸嘴部遮罩层，之后取11个像素向遮罩的边缘外部羽化扩展，以帮助隐藏不连续的区域；其中这两个遮罩层分别为两张图像生成，再使用与之前相同的普氏分析法，将人嘴遮罩层转换成猫嘴遮罩层的坐标空间，通过求解矩阵式进而达到模糊以衔接边缘的效果；

之后逐元素比较取最大值，将猫脸嘴部遮罩层与人脸嘴部遮罩层合并，以确保猫嘴部区域被掩盖，而显现出人嘴的特性，完成单帧猫嘴部图形、人嘴部图形互换；

通过上述形状适配、色度融合、边缘线接获得换嘴单帧图像，进一步进行逐帧制作，即可得到连续的换嘴视频。

应当理解的是，上述实施例以在猫脸中替换人嘴为例进行说明，上述实施方式可以通过直接转换的方式实现在人脸中替换猫嘴的效果，并进一步实现同一视频画面中，人与猫同时换嘴(互换或单独更换)的效果。

本发明提供的方法第二部分视频合成部分，即基于换嘴单帧图像，通过分帧合成处理，获得换嘴视频图像的步骤。

在一些优选实施例中，基于换嘴单帧图像，通过分帧合成处理具体为，采用Python的模块FFmpeg，通过选取合适的参数，以保证视频分帧和合成的质量，进而实现视频自动分帧与合成，利用上述获得的换嘴单帧图像，进行自动分帧与合成，最终得到换嘴视频图像。

本领域技术人员应能理解上述视频分帧与合成的应用类型仅为举例，其他现有的或今后可能出现的视频分帧与合成类型如可适用于本发明实施例，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

申请人还发现，现有的实现嘴部替换后而合成的视频都会存在一定程度的抖动现象，导致视觉效果差，分析视频合成抖动的原因：猫脸框抖动或者猫脸关键点抖动。若是猫脸框抖动，则是猫脸检测效果不佳；若是关键点抖动，则是关键点检测效果不佳；

有鉴于此，在一些改进的实施例中，还包括对换嘴视频图像进行防抖处理的步骤：

以及，

上述两个子步骤可以分别执行也可以同时执行，基于该运算结果，获得换嘴优化图像并返回上述分帧合成处理的步骤，可以获得动作更稳定的换嘴视频图像。

综上所述，本发明提供的实现视频中人与猫互换嘴部的方法具有如下优点：

(1)建立了品种多样的猫脸数据集，增加换嘴趣味性；

(2)实现了多角度侧脸、面部异常动作的平稳换嘴；

(3)建立了猫脸样本数据集，可识别出不适合换嘴的猫脸图像；

(4)改善了现有换嘴视频中抖动的现象，视觉效果好；

(5)功能丰富，支持同一视频画面中多人和/或多猫换嘴。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种实现视频中人与猫互换嘴部的方法，其特征在于，包括如下步骤：

检测目标人脸，获取目标人脸关键点；

2.根据权利要求1所述的方法，其特征在于，包括建立猫脸图像数据集的如下步骤：

获取多个品种的猫脸图像；

基于猫脸参照框和猫脸参照关键点建立猫脸图像数据集。

3.根据权利要求2所述的方法，其特征在于，所述的基于猫脸图像，设置猫脸参照框，在猫脸参照框的区域内标注猫脸参照关键点包括：

所述猫脸的多个部位包括，脸部轮廓、耳朵、眼睛、鼻子、嘴巴、下颌。

4.根据权利要求1至3任一所述的方法，其特征在于，所述的基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，通过该目标猫脸参数检测提取模型获取目标猫脸关键点包括如下子步骤：

建立并训练目标猫脸检测模型，获取目标猫脸检测框；

基于目标猫脸检测框，建立并训练猫脸关键点提取模型。

5.根据权利要求4所述的方法，其特征在于，所述的基于预制的猫脸图像数据集，建立并训练目标猫脸参数检测提取模型，通过该目标猫脸参数检测提取模型获取目标猫脸关键点还包括如下子步骤：

建立猫脸样本数据集，包括正样本数据和负样本数据；

基于猫脸样本数据集，建立并训练异常猫脸样本分类模型。

6.根据权利要求1至3任一所述的方法，其特征在于，所述的检测目标人脸，获取目标人脸关键点包括如下子步骤：

获取目标人脸图像；

基于目标人脸图像，获取目标人脸数；

基于目标人脸图像中的目标人脸，获取目标人脸关键点。

7.根据权利要求6所述的方法，其特征在于，所述的获取目标人脸图像还包括将目标人脸图像转换为灰度图。

8.根据权利要求1至3任一所述的方法，其特征在于，所述的基于目标猫脸关键点、目标人脸关键点建立换嘴算法，获得换嘴单帧图像包括如下子步骤：

9.根据权利要求8所述的方法，其特征在于，所述的基于猫嘴部图形、人嘴部图形建立形状匹配算法、色度融合算法和边缘衔接算法包括：

基于猫嘴部图形、人嘴部图形建立高斯核函数

10.根据权利要求4所述的方法，其特征在于，还包括对换嘴视频图像进行防抖处理的步骤：

基于该运算结果，获得换嘴优化图像并进行分帧合成处理。

11.根据权利要求6所述的方法，其特征在于，还包括对换嘴视频图像进行防抖处理的步骤：

基于该运算结果，获得换嘴优化图像并进行分帧合成处理。