CN110599515A

CN110599515A - 一种前景对象自动分层处理方法、装置、系统及存储介质

Info

Publication number: CN110599515A
Application number: CN201910750833.2A
Authority: CN
Inventors: 吉长江
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Shanghai Yingpu Technology Co ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-12-20

Abstract

本发明实施例公开了一种前景对象自动分层处理方法、装置、系统及存储介质，该方法包括：对视频图像进行镜头分割，获取至少两帧待分层图像；将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap；根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对所述第i帧待分层图像的前景对象和背景进行分层。通过该种方式，在提高获取TriMap的工作效率的同时，间接保证对图像进行精细分层的同时，还能够提升图像分层的效率，降低了人力和物力的占用。

Description

一种前景对象自动分层处理方法、装置、系统及存储介质

技术领域

本发明实施例涉及图像处理技术领域，具体涉及一种前景对象自动分层处理方法、装置、系统及存储介质。

背景技术

图像抠图技术(Image Matting)在各类视觉效果中有重要应用。这里所谓的“抠图”，其英文Matting其实是“融合”的意思。但实现各类融合效果的前提，往往是需要将目标从原图像中分离或“扣取”出来。从“抠取”的角度看，Image Matting更类似于一种图像分割方法，区别在于，首先它是一种超精细的图像分割技术；其次，它要分割的内容通常是将前景(如前景人物)从背景中分割，而广义的图像分割则还包括同等地位目标之间的分离。

图像抠图的核心问题就是求解Matting方程，即：

C_i＝αF_i-(1-α)B_i

其中，C_i是一个已知的待处理的图像中的第i个像素点，F_i是前景图像中第i个像素点，例如图中的人物。B_i是背景图像中第i个像素点，例如图中的树丛为背景图像。融合系数α是一个介于0到1之间的分数，它给出了前景和背景在待处理图像中所占的比例。因为F、B和α都是未知的，求解这个病态的方程需要增加一些附加的约束，通常，这种约束以TriMap的形式给出。

而Trimap的获得，一般依赖于人机交互，由用户参与手动描画。然而这种方式更加适合数量较少的图像抠图。对于大量的图像抠图，例如视频帧中的图像抠图，则不是很适用。其浪费的人力和物力较大，而且抠图效率非常低。

那么，当存在大量图像需要进行抠图时，如何才能在节省人力和物力的成本前提下，提高Trimap的获取效率，进而提高图像分层的效率成为本申请所要解决的技术问题。

发明内容

为此，本发明实施例提供一种前景对象自动分层处理方法、装置、系统及存储介质，以解决现有技术中对于大量的图像需要抠图时，获取Trimap需要大量人力和物力，而且效率非常低，进而导致图像分层的效率低的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提供了一种前景对象自动分层处理方法，该方法包括：

对视频图像进行镜头分割，获取至少两帧待分层图像；

将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap；

根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对所述第i帧待分层图像的前景对象和背景进行分层。

进一步地，根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对第i帧待分层图像的前景对象和背景进行分层，具体包括：

将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，获取与第i帧待分层图像的前景对象对应的遮罩，以便实现对第i帧待分层图像的前景对象和背景进行分层，其中，i为大于或者等于1，且小于或者等于图像总帧数的正整数。

进一步地，构建语义分割网络模型，具体包括：

将前景对象样本和背景图像样本共同输入至初始构建的语义分割网络模型中，对初始构建的语义分割网络模型进行训练，获取最优的语义分割网络模型，作为的预构建的语义分割网络模型。

进一步地，将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap，具体包括：

在预构建的语义分割网络模型中设定置信度上阈值和下阈值γ，则得出两个分割结果G_i ¹和G_i ²，TriMap取值遵循如下原则：

其中，G_i为第i帧待分层图像，G_i ¹为第i帧待分层图像输入至预构建的语义分割网络模型后，得到的第一个分割结果，G_i ²为第i帧待分层图像输入至预构建的语义分割网络模型后，得到的第二个分割结果。

进一步地，构建Encoder-Decoder模型，具体包括：

将样本图像和样本图像对应的TriMap共同输入至初始构建的Encoder-Decoder模型中，对Encoder-Decoder模型进行训练，并将预测出的遮罩和样本图像对应的实际遮罩之间的MSE作为损失函数对Encoder-Decoder模型进行反向训练，直至确定预测出的遮罩和样本图像对应的实际遮罩之间的MSE小于预设阈值时，所对应的Encoder-Decoder模型为预构建的Encoder-Decoder模型。

进一步地，当实现前景对象和背景分层后，方法还包括：

根据用户操作指令，将前景图像层和/或背景图像层，与预获取的信息增强图层进行图像处理，构成新的图像，其中图像处理至少包括图像融合和图像渲染。

根据本发明实施例的第二方面，提供了一种前景对象自动分层处理装置，该装置包括：

视频分割单元，用于对视频图像进行镜头分割，获取至少两帧待分层图像；

处理单元，用于将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap；

根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对第i帧待分层图像的前景对象和背景进行分层。

进一步的，处理单元具体用于，将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，获取与第i帧待分层图像的前景对象对应的遮罩，以便实现对第i帧待分层图像的前景对象和背景进行分层，其中，i为大于或者等于1，且小于或者等于图像总帧数的正整数。

进一步地，处理单元具体用于，将前景对象样本和背景图像样本共同输入至初始构建的语义分割网络模型中，对初始构建的语义分割网络模型进行训练，获取最优的语义分割网络模型，作为的预构建的语义分割网络模型。

进一步地，处理单元具体用于，在预构建的语义分割网络模型中设定置信度上阈值和下阈值γ，则得出两个分割结果G_i ¹和G_i ²，TriMap取值遵循如下原则：

根据本发明实施例的第三方面，提供了一种前景对象自动分层处理系统，该系统包括：处理器和存储器；

存储器用于存储一个或多个程序指令；

处理器，用于运行一个或多个程序指令，用以执行如上一种前景对象自动分层处理方法中的任一方法步骤。

根据本发明实施例的第四方面，提供了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种前景对象自动分层处理系统执行如上一种前景对象自动分层处理方法中的任一方法步骤。

本发明实施例具有如下优点：对视频图像进行镜头分割，获取至少两帧待分层图像。通过预构建的语义分割网络模型可以实现自动获取每一帧待分层图像对应的TriMap，减少人力和物力的占用，提升获取TriMap的工作效率。然后，将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，通过Encoder-Decoder模型实现对第i帧待分层图像进行精细分层。通过该种方式，在提高获取TriMap的工作效率的同时，间接保证对图像进行精细分层的同时，还能够提升图像分层的效率，降低了人力和物力的占用。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例1提供的一种前景对象自动分层处理方法流程示意图；

图2为本发明提供的待分层的原始图像；

图3为本发明提供的与图2原始图像对应的TriMap示意图；

图4为本发明提供的另一张原始图像；

图5为经过本发明实施例提供的方法获取的图2中前景图像层和图4中的原始图像进行合成后显示的图像；

图6为本发明实施例2提供的一种前景对象自动分层处理装置结构示意图；

图7为本发明实施例3提供的一种前景对象自动分层处理系统结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1提供了一种前景对象自动分层处理方法，具体如图1所示，该方法步骤如下：

步骤110，对视频图像进行镜头分割，获取至少两帧待分层图像。

具体的，可以基于全局特征和局部特征，对视频进行镜头分割。得到一系列的独立镜头，典型的，每一个镜头中包含有一个前景人物和背景。具体的基于全局特征和局部特征，实现对视频进行镜头分割为现有技术，这里不做过多说明。

步骤120，将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap。

可选的，在执行该步骤之前，还需要事先构建一个语义分割网络模型。在构建时，主要是将前景对象样本和背景图像样本共同输入至初始构建的语义分割网络模型。对其进行训练，并不断调整模型参数等。直至获取最优的语义分割网络模型，作为预构建的语义分割网络模型。可选的，前景对象样本可以是在样本图像中标记前景对象轮廓的样本，也可是一张完整的图像样本，然后将该图像样本中前景对象的轮廓数据共同输入至语义分割网络模型中，包含的图像样本和前景对象的轮廓数据共同作为前景对象样本，背景图像样本则是不包括前景对象的图像样本，例如包括树木、白云等的背景图像样本。

对于获取的TriMap结果，由于受制于前景对象的轮廓信息的限制，不管是人为手动标记的前景对象的轮廓还是输入的轮廓数据，都可能不是很精确。那么，所获取的TriMap自然也不是很精细。也即是，不能达到前景对象的精细分离，更不用说毛发级别的分离。

不过，对于生成Trimap已经足够了。其中，将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap，时，具体包括：

具体参见图2和图3所示了，图2示出了待分层的原始图像，图3示出了与图2对应的TriMap。

图中黑色部分为背景图像，T_p的值为0，白色部分为前景对象(人物)，T_p的值为1，中间的黑白边界区域处则为是要做进一步精细划分的前景与背景交接地带，T_p的值为0.5。

再此之后，还可以根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对第i帧待分层图像的前景对象和背景进行分层，也即是执行步骤130。

步骤130，根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对第i帧待分层图像的前景对象和背景进行分层。

具体的，可以将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，获取与第i帧待分层图像的前景对象对应的遮罩，以便实现对第i帧待分层图像的前景对象和背景进行分层，其中，i为大于或者等于1，且小于或者等于图像总帧数的正整数。

在步骤120中对待分层图像进行粗略的分割基础上，进一步借助步骤130的技术可以对前景对象和背景图像的分割会更精细。

通步骤120类似的道理，在执行步骤120之前，首先同样需要构建一个Encoder-Decoder模型。

具体可以包括：将样本图像和样本图像对应的TriMap共同输入至初始构建的Encoder-Decoder模型中，对Encoder-Decoder模型进行训练，并将预测出的遮罩和样本图像对应的实际遮罩之间的均方误差(Mean Squared Error，简称MSE)作为损失函数对Encoder-Decoder模型进行反向训练，直至确定预测出的遮罩和样本图像对应的实际遮罩之间的MSE小于预设阈值时，所对应的Encoder-Decoder模型为预构建的Encoder-Decoder模型。

通过上述步骤之后，已经完成了每一帧图像中的前景对象和背景图像的分层。在此之后，该方法还可以包括：

例如，在前景图像层和背景图像层之间添加用户期望添加的图像。并且，进行时间轴上的对齐处理。最后把合成后的图像序列进行整体渲染，输出得到最终的效果。

当然，也可以仅仅是将前景图像层和其他的图像合成到一张图像上，参见图4至图5所示，图4为额外提供的一张原始图，图5为经过上述方法获取的前景图像层和图4中的图像进行合成后所显示的图像。

本发明实施例提供的一种前景对象自动分层处理方法，对视频图像进行镜头分割，获取至少两帧待分层图像。通过预构建的语义分割网络模型可以实现自动获取每一帧待分层图像对应的TriMap，减少人力和物力的占用，提升获取TriMap的工作效率。然后，将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，通过Encoder-Decoder模型实现对第i帧待分层图像进行精细分层。通过该种方式，在提高获取TriMap的工作效率的同时，间接保证对图像进行精细分层的同时，还能够提升图像分层的效率，降低了人力和物力的占用。

与上述实施例1对应的，本发明实施例2还提供了一种前景对象自动分层处理装置，具体如图6所示，该装置包括：视频分割单元601和处理单元602。

视频分割单元601，用于对视频图像进行镜头分割，获取至少两帧待分层图像；

处理单元602，用于将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap；

将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，获取与第i帧待分层图像的前景对象对应的遮罩，以便实现前景对象和背景分层，其中，i为大于或者等于1，且小于或者等于图像总帧数的正整数。

可选的，处理单元602具体用于，处理单元602具体用于，将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，获取与第i帧待分层图像的前景对象对应的遮罩，以便实现对第i帧待分层图像的前景对象和背景进行分层，其中，i为大于或者等于1，且小于或者等于图像总帧数的正整数。

可选的，处理单元602具体用于，将前景对象样本和背景图像样本共同输入至初始构建的语义分割网络模型中，对初始构建的语义分割网络模型进行训练，获取最优的语义分割网络模型，作为的预构建的语义分割网络模型。

可选的，处理单元602具体用于，在预构建的语义分割网络模型中设定置信度上阈值和下阈值γ，则得出两个分割结果G_i ¹和G_i ²，TriMap取值遵循如下原则：

可选的，处理单元602具体用于，将样本图像和样本图像对应的TriMap共同输入至初始构建的Encoder-Decoder模型中，对Encoder-Decoder模型进行训练，并将预测出的遮罩和样本图像对应的实际遮罩之间的MSE作为损失函数对Encoder-Decoder模型进行反向训练，直至确定预测出的遮罩和样本图像对应的实际遮罩之间的MSE小于预设阈值时，所对应的Encoder-Decoder模型为预构建的Encoder-Decoder模型。

可选的，当实现前景对象和背景分层后，方法还包括：

本发明实施例提供的一种前景对象自动分层处理装置中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

本发明实施例提供的一种前景对象自动分层处理装置，对视频图像进行镜头分割，获取至少两帧待分层图像。通过预构建的语义分割网络模型可以实现自动获取每一帧待分层图像对应的TriMap，减少人力和物力的占用，提升获取TriMap的工作效率。然后，将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，通过Encoder-Decoder模型实现对第i帧待分层图像进行精细分层。通过该种方式，在提高获取TriMap的工作效率的同时，间接保证对图像进行精细分层的同时，还能够提升图像分层的效率，降低了人力和物力的占用。

与上述实施例相对应的，本发明实施例3还提供了一种前景对象自动分层处理系统，具体如图7所示，该系统包括：处理器701和存储器702；

存储器702用于存储一个或多个程序指令；

处理器701，用于运行一个或多个程序指令，用以执行如上实施例所介绍的一种前景对象自动分层处理方法中的任一方法步骤。

本发明实施例提供的一种前景对象自动分层处理系统，对视频图像进行镜头分割，获取至少两帧待分层图像。通过预构建的语义分割网络模型可以实现自动获取每一帧待分层图像对应的TriMap，减少人力和物力的占用，提升获取TriMap的工作效率。然后，将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，通过Encoder-Decoder模型实现对第i帧待分层图像进行精细分层。通过该种方式，在提高获取TriMap的工作效率的同时，间接保证对图像进行精细分层的同时，还能够提升图像分层的效率，降低了人力和物力的占用。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令。其中，一个或多个程序指令用于被一种前景对象自动分层处理系统执行如上所介绍的一种前景对象自动分层处理方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific工ntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种前景对象自动分层处理方法，其特征在于，所述方法包括：

对视频图像进行镜头分割，获取至少两帧待分层图像；

2.根据权利要求1所述的方法，其特征在于，所述根据第i帧待分层图像和与第i帧待分层图像对应的TriMap，对所述第i帧待分层图像的前景对象和背景进行分层，具体包括：

将第i帧待分层图像和与第i帧待分层图像对应的TriMap共同输入至预构建的Encoder-Decoder模型中，获取与所述第i帧待分层图像的前景对象对应的遮罩，以便实现对所述第i帧待分层图像的前景对象和背景进行分层，其中，i为大于或者等于1，且小于或者等于图像总帧数的正整数。

3.根据权利要求1所述的方法，其特征在于，构建语义分割网络模型，具体包括：

将前景对象样本和背景图像样本共同输入至初始构建的语义分割网络模型中，对所述初始构建的语义分割网络模型进行训练，获取最优的语义分割网络模型，作为所述的预构建的语义分割网络模型。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将每一帧待分层图像分别输入到预构建的语义分割网络模型中，获取与每一帧待分层图像对应的TriMap，具体包括：

在所述预构建的语义分割网络模型中设定置信度上阈值和下阈值γ，则得出两个分割结果G_i ¹和G_i ²，TriMap取值遵循如下原则：

其中，G_i为第i帧待分层图像，G_i ¹为第i帧待分层图像输入至所述预构建的语义分割网络模型后，得到的第一个分割结果，G_i ²为第i帧待分层图像输入至所述预构建的语义分割网络模型后，得到的第二个分割结果。

5.根据权利要求2所述的方法，其特征在于，构建Encoder-Decoder模型，具体包括：

将样本图像和样本图像对应的TriMap共同输入至初始构建的Encoder-Decoder模型中，对所述Encoder-Decoder模型进行训练，并将预测出的遮罩和所述样本图像对应的实际遮罩之间的MSE作为损失函数对所述Encoder-Decoder模型进行反向训练，直至确定预测出的遮罩和所述样本图像对应的实际遮罩之间的MSE小于预设阈值时，所对应的Encoder-Decoder模型为所述预构建的Encoder-Decoder模型。

6.根据权利要求1-3或5任一项所述的方法，其特征在于，当实现对所述第i帧待分层图像的前景对象和背景进行分层后，所述方法还包括：

根据用户操作指令，将所述前景图像层和/或所述背景图像层，与预获取的信息增强图层进行图像处理，构成新的图像，其中所述图像处理至少包括图像融合和图像渲染。

7.一种前景对象自动分层处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述处理单元具体用于，将前景对象样本和背景图像样本共同输入至初始构建的语义分割网络模型中，对所述初始构建的语义分割网络模型进行训练，获取最优的语义分割网络模型，作为所述的预构建的语义分割网络模型。

9.一种前景对象自动分层处理系统，其特征在于，所述系统包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-6任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种前景对象自动分层处理系统执行如权利要求1-6任一项所述的方法。