CN113253890A

CN113253890A - 视频人像抠图方法、系统和介质

Info

Publication number: CN113253890A
Application number: CN202110361085.6A
Authority: CN
Inventors: 张昊; 刘增辉
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-08-13
Anticipated expiration: 2041-04-02
Also published as: CN113253890B

Abstract

本发明公开了视频人像抠图方法、系统和介质，其中视频人像抠图方法包括：获取预训练模型，获取第一视频；对第一视频的每帧图片进行裁剪，对每帧图片的像素在空域进行下采样，以生成第二视频；对第二视频在时域进行跳跃采帧获得采样帧；将采样帧输入预训练模型以生成alpha遮罩，将alpha遮罩作为采样帧的相邻帧的alpha遮罩；根据alpha遮罩和alpha遮罩对第二视频的所有图片帧进行对齐裁剪，以获得去除背景后的第一视频。能够大幅提升视频抠图的速度和效率，而且还能有效保持人像的边缘细节，具有突出的特点，能够满足视频直播等场景的实时抠图需求，提升视频传输的速度，能够给用户带来较好的观看体验。

Description

视频人像抠图方法、系统和介质

技术领域

本发明涉及计算机视觉及图像处理技术领域，特别涉及一种视频人像抠图方法、系统和介质。

背景技术

人像抠图是从给定的图像或视频中提取人物，有着各种各样的应用，如短视频背景替换、直播背景更换、电影场景背景后期设计，针对视频的抠图方法通常有基于绿色荧幕来实时获得高质量的人像提取，但是绿幕抠图的场景单一，对背景要求较高，抠图处理的速度慢，且图像处理的成本较高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种视频人像抠图方法，能够实现人像高质量扣取并且拥有较快的人像提取处理速度，降低图像处理的成本，能够实时处理人像提取输出。

本发明还提出一种具有上述视频人像抠图方法的视频人像抠图系统。

本发明还提出一种计算机可读存储介质。

一方面，本实施例提供了一种视频人像抠图方法，包括：

获取预训练模型，获取第一视频；

对所述第一视频的每帧图片进行裁剪，对每帧所述图片的像素在空域进行下采样，以生成第二视频；

对所述第二视频在时域进行跳跃采帧获得采样帧；

将所述采样帧输入所述预训练模型以生成alpha遮罩，将所述alpha遮罩作为所述采样帧的相邻帧的alpha遮罩；

根据所述采样帧的alpha遮罩和所述相邻帧的alpha遮罩对所述第二视频的所有图片帧进行对齐裁剪，以获得去除背景后的所述第一视频。

根据本发明实施例的视频人像抠图方法，至少具有如下有益效果：首先，获取预训练模型和第一视频，第一视频为包含人像数据的待处理视频，将第一视频的每一帧图片进行处理，包括对每一帧图片进行裁剪处理，可以是粗略地获取第一视频内的人像数据，再对每一帧图片在空间域进行像素下采样，以生成第二视频；对第二视频的图片帧在时域上进行跳跃采帧，可以是只采样奇数帧输入预训练模型以得到奇数帧的alpha遮罩，再将alpha遮罩作为奇数帧的相邻帧的alpha遮罩，奇数帧的相邻帧即为偶数帧，结合采样帧的alpha遮罩和相邻帧的alpha遮罩即可得到第二视频的所有帧的alpha遮罩，基于时域对第二视频进行采样还可以生成丢失的帧的alpha遮罩，根据采样帧的alpha遮罩和相邻帧的alpha遮罩对第二视频的所有图片帧进行对齐裁剪，以获得去除背景后的第一视频。本实施例的视频人像抠图方法能够实现人像高质量扣取并且拥有较快的人像提取处理速度，降低图像处理的成本，能够实时处理人像提取输出，满足基本的实时直播应用场景。

根据本发明的一些实施例，所述获取预训练模型，包括步骤：

获取包括人像数据的第一图像和与所述第一图像对应的图像遮罩；

对所述第一图像进行下采样，根据所述下采样的结果和所述人像数据获取人像遮罩；

获取所述人像数据的边缘细节，将所述边缘细节与所述人像遮罩合成以得到第二图像；

根据所述第二图像和所述图像遮罩进行学习以获得预训练模型。

先获取第一图像和图像遮罩，再对第一图像进行下采样处理，降低第一图像的像素值，采用语义分割获取粗略的人像遮罩，语义分割是是计算机视觉中的基础任务，可以帮助我们绘制某些确定实体的边框，如视频中的人像，以获得粗略的人像遮罩，再获取第一图像的边缘细节，边缘细节可以包括有人体的毛发细节和服饰细节，将人像遮罩和边缘细节合成以得到第二图像，以图像遮罩作为限制进行监督学习，生成预训练模型，预训练模型用于处理第二视频获得alpha遮罩。由于直播过程通常只是人像会有一定的动作，背景变化却不大，使用本实施例的视频人像抠图方法能够有效提升数据传输效率，节省带宽，给用户带来更好的观看体验。

根据本发明的一些实施例，所述对每帧所述图片的像素在空域进行下采样，包括步骤：对所述图片帧在空域进行一比四下采样。对第一视频的图片帧进行一比四的下采样能够有效提升采样得到的信号的信噪比，提升信号质量。

根据本发明的一些实施例，所述对所述第二视频在时域进行跳跃采帧获得采样帧，包括步骤：对所述第二视频的奇数帧进行采样，获得采样帧。在时域对第二视频的奇数帧进行采样，获得采样帧，预测跳跃采帧操作中缺失的帧；跳跃采样也可以只对第二视频的偶数帧进行采样，预测跳跃采帧操作中缺失的帧，能够有效减小数据计算量，提升数据处理效率。

根据本发明的一些实施例，所述对所述第一图像进行下采样，根据所述下采样的结果和所述人像数据获取人像遮罩，包括步骤：对所述第一图像进行下采样，降低所述第一图像的像素值，采用语义分割方式以获得所述人像遮罩。语义分割是机器自动分割并识别出图像中的内容，比如给出一个人骑摩托车的照片，机器判断后应当能够生成右侧图，红色标注为人，绿色是车。降低像素值，使用语义分割的方式智能处理带有人像数据的第一图像，以获得粗略的人像遮罩。

根据本发明的一些实施例，所述边缘细节包括所述人像数据的毛发数据和服饰数据。粗略的人像遮罩并不足以达到视频抠图质量的需求，再获取人像数据的边缘细节，包括但是不限于是人像数据的边缘毛发、服装和首饰，结合粗略的人像遮罩和边缘细节，能够获得较好的第二图像，实现较为准确的人像抠图。

根据本发明的一些实施例，在所述将所述alpha遮罩作为所述采样帧的相邻帧的alpha遮罩之后，包括步骤：结合所述采样帧的alpha遮罩和所述相邻帧的alpha遮罩获得所述第二视频的alpha遮罩合集。

采样帧的alpha遮罩和相邻帧的alpha遮罩包括了第二视频的所有帧的alpha遮罩，结合采样帧的alpha遮罩和相邻帧的alpha遮罩生成alpha遮罩合集，alpha遮罩合集即包括了第二视频的所有帧的alpha遮罩，根据alpha遮罩合集处理第二视频，能够实现对第二视频所有图片帧的人像抠图处理。

第二方面，本实施例提供了一种视频人像抠图系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如第一方面所述的视频人像抠图方法。

根据本发明实施例的视频人像抠图系统，至少具有如下有益效果：本实施例的视频人像抠图系统应用了如第一方面所述的视频人像抠图方法，在不损失抠图质量，保留人像毛发等细节，有效提升视频处理速度，能够实时处理人像提取输出。

第三方面，本实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的视频人像抠图方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中摘要附图要与说明书附图的其中一幅完全一致：

图1是本发明一个实施例提供的视频人像抠图方法的流程图；

图2是本发明另一个实施例提供的视频人像抠图方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种视频人像抠图方法，相较于常规的通过绿幕抠图的方式，本方法受到的限制更少，能够实现高质量视频人像抠取，同时还能拥有较快的人像提取处理速度，能够满足视频抠取需求，也能应用到基本的实时直播场景。

下面结合附图，对本发明实施例作进一步阐述。

参照图1，图1是本发明一个实施例提供的视频人像抠图方法的流程图，视频人像抠图方法包括但不仅限于步骤S110至步骤S150。

步骤S110，获取预训练模型，获取第一视频；

步骤S120，对第一视频的每帧图片进行裁剪，对每帧图片的像素在空域进行下采样，以生成第二视频；

步骤S130，对第二视频在时域进行跳跃采帧获得采样帧；

步骤S140，将采样帧输入预训练模型以生成alpha遮罩，将alpha遮罩作为采样帧的相邻帧的alpha遮罩；

步骤S150，根据采样帧的alpha遮罩和相邻帧的alpha遮罩对第二视频的所有图片帧进行对齐裁剪，以获得去除背景后的第一视频。

在一实施例中，获取第一视频和预训练模型，第一视频是需要进行人像抠图处理的视频，第一视频包含人像数据，预训练模型是用于根据输入的采样帧生成alpha遮罩的，视频的每一秒都是由多个图片帧构成的，对第一视频的图片帧进行裁剪处理，再对每一帧图片的像素在空域进行1:4的下采样处理，以提升采样得到的信号的信噪比，提升信号质量，生成新的图片帧，合成得到第二视频。

在时域对第二视频进行跳跃采帧处理得到采样帧，跳跃采帧可以是只对第二视频的奇数帧进行采样，将采样帧输入到预训练模型中以生成alpha遮罩，可以是将alpha遮罩直接运用到采样帧的相邻帧，以得到相邻帧的alpha遮罩，再根据采样帧的alpha遮罩和相邻帧的alpha遮罩对第二视频的所有帧进行对齐裁剪处理，生成去除背景后的前景人像视频。相较于常规的抠图方法，本实施例的视频人像抠图方法能够大幅提升视频抠图的速度和效率，而且还能有效保持人像的边缘细节，具有突出的特点，能够满足视频直播等场景的实时抠图需求，还可以有效降低视频流在宽带占用的带宽，提升视频传输的速度，能够给用户带来较好的观看体验。

相较于常规的使用绿幕的方式进行抠图，本实施例需要人工参与的步骤更少，且不会对视频拍摄设置过多的限制条件，减小拍摄的人力成本和物力成本，有效提升视频人像实时抠图的效率，视频人像抠取的速度也有大幅度地提升，具有非常好的推广使用价值。

参照图2，图2是本发明另一个实施例提供的视频人像抠图方法的流程图，视频人像抠图方法包括但不仅限于步骤S210至步骤S240。

步骤S210，获取包括人像数据的第一图像和与第一图像对应的图像遮罩；

步骤S220，对第一图像进行下采样，根据下采样的结果和人像数据获取人像遮罩；

步骤S230，获取人像数据的边缘细节，将边缘细节与人像遮罩合成以得到第二图像；

步骤S240，根据第二图像和图像遮罩进行学习以获得预训练模型。

在一实施例中，获取包含人像数据的第一图像和与第一图像对应的人工分割好的图像遮罩，对第一图像进行像素下采样，降低像素值，使用语义分割方式处理获得粗略的人像遮罩，再获取人像数据的边缘细节，结合人像遮罩和边缘细节合成新的图像，即第二图像，使用人工分割好的图像遮罩作为限制进行监督学习以生成预训练模型。将采样帧输入到预训练模型中，得到采样帧的alpha遮罩，将采样帧的alpha遮罩作为相邻帧的alpha遮罩，再根据采样帧的alpha遮罩和相邻帧的alpha遮罩对第二视频的所有帧进行对齐裁剪处理，生成去除背景后的前景人像视频。

本实施例利用图像语义分割方式能够智能获取第一图像中的人像数据的轮廓，再结合人物的边缘细节，能够生成较好的第二图像，相较于常规的使用绿幕抠取视频人像的方法，本实施例的视频人像抠图方法更加智能可靠，能够保留更多的人物细节，抠取的人像也更加清晰自然，而且本实施例的视频人像抠图方法抠图速度更快，处理相同的视频需要的时间更少，具有非常好的实用价值，能够很好地满足视频直播需求。

在一实施例中，对第一视频的图片帧进行裁剪处理，对每一帧图片的像素在空域进行1:4的下采样处理，能够获得信噪比更高的信号，便于后期的视频人像抠图处理，人像处理的效果较好。

需要说明的是，本实施例并不限制对每一帧图片的像素在空域进行1:4的下采样处理，也可以是1:2或者1:8的下采样处理，能够提升视频人像抠图处理的质量即可。

在一实施例中，对第二视频的奇数帧进行采样，获得采样帧。在时域对第二视频的奇数帧进行采样，获得采样帧，预测跳跃采帧操作中缺失的帧；跳跃采样也可以只对第二视频的偶数帧进行采样，预测跳跃采帧操作中缺失的帧，能够有效减小数据计算量，提升数据处理效率。

需要说明的是，对第二视频跳跃采帧获得采样帧不仅限于对第二视频的奇数帧进行采样，也可以是对第二视频的偶数帧进行采样，再将偶数帧输入预训练模型获得的alpha遮罩作为采样帧的相邻帧的alpha遮罩，还可以预测跳跃采帧操作中缺失的帧，当然也可以是间隔两个图片帧进行采样，如第1、3、5、7、9帧的采样方式，本实施例对其不构成限制。

在一实施例中，获取包括人像数据的第一图像和与所述第一图像对应的图像遮罩；对第一图像进行下采样，降低第一图像的像素值，采用语义分割方式以获得人像遮罩；获取所述人像数据的边缘细节，将所述边缘细节与所述人像遮罩合成以得到第二图像；根据所述第二图像和所述图像遮罩获得预训练模型。

对第一图像进行下采样，降低第一图像的像素值，降低像素值有助于提升数据处理的速度，语义分割方法是对每个像素做分类，比如将这幅图像分为人和汽车，使用语义分割方式就能清晰地标注出来人的像素点和汽车的像素点，应用到视频抠图技术领域，就可以是通过语义分割方式将人像数据的像素点和背景板的像素点分别标注出来，从而获得粗略的人像遮罩，在结合边缘细节就可以实现较为清晰的高质量抠图，边缘细节可以是包括人体的毛发细节和服装细节，如视频内的人像穿着毛绒外套，就可以通过毛绒外套的细节结合粗略的人像遮罩，从而得到可以进行高质量抠图的第二图像，再进行限制监督学习以得到较为可靠的预训练模型，能够有效提升视频实时人像抠图处理的效率，缩短数据处理的时间，具有突出的特点，能够满足多场景需求，可以满足实时直播应用需求，且能节省直播视频传输需要的网络流量，具有非常好的实用价值。

需要说明的是，本实施例提到的语义分割方式来获得粗略的人像遮罩并不是唯一的方案，也可以是使用实例分割的方式，实例分割不仅可以区分人体和汽车，还可以区分同一个视频图像中的不同人体，如有甲乙丙三人，实例分割方式可以对甲乙丙三人的像素点做不同的区分。实例分割方式一般分为自顶向下和自底向上两种：自顶向下是先画出一个个矩形框，然后再在矩形框内做语义分割，找出具体的遮罩；自底向上是先做语义分割，之后再在语义分割好的图像上进行进一步区分不同的遮罩。还可以是使用全景分割、图像分割、场景分割的方式，本实施例对其不构成限制。

在一实施例中，边缘细节包括人像数据的毛发数据和服饰数据。粗略的人像遮罩并不足以达到视频抠图质量的需求，再获取人像数据的边缘细节，包括但是不限于是人像数据的边缘毛发、服装和首饰，结合粗略的人像遮罩和边缘细节，能够获得较好的第二图像，实现较为准确的人像抠图。粗略的人像遮罩，在结合边缘细节就可以实现较为清晰的高质量抠图，边缘细节可以是包括人体的毛发细节和服装细节，如视频内的人像穿着毛绒外套，就可以通过毛绒外套的细节结合粗略的人像遮罩，从而得到可以进行高质量抠图的第二图像，再进行限制监督学习以得到较为可靠的预训练模型，本实施例能够在高质量视频人像抠图的情况下，提升视频人像抠图的效率，缩短数据处理的时间，对视频背景的要求较少，具有较好的实用价值。

在一实施例中，在将alpha遮罩作为采样帧的相邻帧的alpha遮罩之后，包括步骤：结合采样帧的alpha遮罩和相邻帧的alpha遮罩获得第二视频的alpha遮罩合集。采样帧的alpha遮罩和相邻帧的alpha遮罩包括了第二视频的所有帧的alpha遮罩，结合采样帧的alpha遮罩和相邻帧的alpha遮罩生产alpha遮罩合集，alpha遮罩合集即包括了第二视频的所有帧的alpha遮罩，根据alpha遮罩合集处理第二视频，能够实现对第二视频所有图片帧的人像抠图处理。本实施例提供的视频人像抠图方法能够有效提升视频人像实时抠图的效率，视频人像抠取的速度也有大幅度地提升，具有非常好的推广使用价值。

本发明还提供了一种视频人像抠图系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的视频人像抠图方法。本实施例的视频人像抠图系统应用了如第一方面所述的视频人像抠图方法，在不损失抠图质量，保留人像毛发等细节，有效提升视频处理速度，能够实时处理人像提取输出。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，控制处理器能够执行图1中的方法步骤S110至步骤S150、图2中的方法步骤S210至步骤S240。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种视频人像抠图方法，其特征在于，包括：

获取预训练模型，获取第一视频；

对所述第二视频在时域进行跳跃采帧获得采样帧；

2.根据权利要求1所述的一种视频人像抠图方法，其特征在于，所述获取预训练模型，包括步骤：

3.根据权利要求1所述的一种视频人像抠图方法，其特征在于，所述对每帧所述图片的像素在空域进行下采样，包括步骤：

对所述图片帧在空域进行一比四下采样。

4.根据权利要求1所述的一种视频人像抠图方法，其特征在于，所述对所述第二视频在时域进行跳跃采帧获得采样帧，包括步骤：

对所述第二视频的奇数帧进行采样，获得采样帧。

5.根据权利要求2所述的一种视频人像抠图方法，其特征在于，所述对所述第一图像进行下采样，根据所述下采样的结果和所述人像数据获取人像遮罩，包括步骤：

对所述第一图像进行下采样，降低所述第一图像的像素值，采用语义分割方式以获得所述人像遮罩。

6.根据权利要求2所述的一种视频人像抠图方法，其特征在于，所述边缘细节包括所述人像数据的毛发数据和服饰数据。

7.根据权利要求1所述的一种视频人像抠图方法，其特征在于，在所述将所述alpha遮罩作为所述采样帧的相邻帧的alpha遮罩之后，包括步骤：

结合所述采样帧的alpha遮罩和所述相邻帧的alpha遮罩获得所述第二视频的alpha遮罩合集。

8.一种视频人像抠图系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的视频人像抠图方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任意一项所述的视频人像抠图方法。