CN113936028A

CN113936028A - 结合自动产生三元图与深层空洞卷积网络之数字抠像技术

Info

Publication number: CN113936028A
Application number: CN202111212954.5A
Authority: CN
Inventors: 王绪溢; 陈世旺; 王俊明
Original assignee: Shenzhen Jinshi Electronic Technology Co ltd
Current assignee: Shenzhen Jinshi Electronic Technology Co ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-14
Anticipated expiration: 2041-10-19
Also published as: CN113936028B

Abstract

本发明涉及数字抠像技术领域的自动产生三元图与深层空洞卷积网络之数字抠像技术，此技术与数字抠像有关，数字抠像之目的在于撷取影像中之前景物，之后可将其置放于各种不同的背景中，产生不同特效的合成影像。本发明包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成。

Description

结合自动产生三元图与深层空洞卷积网络之数字抠像技术

技术领域

本发明涉及数字抠像技术领域，具体涉及自动产生三元图与深层空洞卷积网络之数字抠像技术。

背景技术

数字抠像问题可以数学式子表示为I＝αF+(1-α)B，其中I为输入影像，F和B分别代表前景与背景影像，每个像素的α值介于0和1之间，描述该像素被前景物覆盖的程度，α值所形成的影像称为α影像。上式中只有I是已知，其余F、B和α均为未知，因此数字抠像问题是一种所谓条件不足的问题。要解决这类的问题需要引进额外的信息或条件，数字抠像技术因此被分成了两大类：以草涂和以三元图为基础的技术类。

很明显地，三元图所能提供的信息要比草涂来得多。一张三元图是由三个区域所构成：白色、黑色以及灰色区域，分别对应影像中的前景物、背景区域、和不确定地区。通常以三元图为基础的技术其抠像结果，会比以草涂为主的结果好。本发明即以三元图作为主要的额外信息来源。但是现有以三元图为主的抠像技术存在有以下的缺点：1)三元图的取得不容易，2)三元图虽可由手工制作，但质量不稳定，3)又在数量庞大时非常费时。本发明针对以上缺点提出可自动产生影像三元图的技术。

近年来深度学习及其应用，在各种不同领域中被广泛探讨。这种基于深度学习发展的技术，较传统技术最大的好处是，前者有自我学习的能力，无论是在程序设计时或未来在使用程序时，都不必有太多人力的介入，相当方便；此外在改善输出质量时，可藉由加强训练来达成，不必重新改写程序。目前以深度学习为基础的抠像技术也在陆续发表中，由于仍处在初期发展阶段，在效益上还无法达到传统技术的水平，仍存在着许多可以改进的空间。本发明所提之技术即建立在深度学习的概念上，集结了两个现有著名的深层神经网络以及一自创的空洞卷积神经网络。空洞卷积网络引进目的，在于它可以提升侦测不同解析度特征的能力。

即现有的三元里抠像技术存在的缺陷有：1)取三元图的抠像结果比取草涂的抠像结果要不容易。2)三元图手工制作时，质量不稳定，且在数量庞大时非常费时。

发明内容

本发明的目的是解决以上缺陷，提供自动产生三元图与深层空洞卷积网络之数字抠像技术。

本发明的目的是通过以下方式实现的：结合自动产生三元图与深层空洞卷积网络之数字抠像技术，包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成，

所述自动产生影像的三元图T包括输入影像I、前景物、两个深层神经网络和三元图T：首先利用输入影像设备输入输入影像I，再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测定位前景物，两个深层神经网络的输出结果分别为图像F₁和F₂，最后运用计算式有T＝(F₂-F₁)/2+F₁算出三元图T；

所述深层空洞卷积网络提升抠像解析度，包括卷积层、滤波器和解析度，卷积层包括空洞卷积层与一般卷积层，卷积层的主要工作为输入影像I与滤波器进行卷积运算，滤波器包括空洞滤波器和核心滤波器，空洞滤波器具有不同大小的空洞率，核心滤波器具有不同大小的接收场，空洞率大的滤波器覆盖的空间范围大，侦测前景物的高解析度特征，接收场大的滤波器，侦测前景物的大尺度特征，

所述多阶段数字抠像一次完成，包括抠像的有三个阶段：第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取，

所述第一阶段制作输入影像I的三元图T为两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物，之后结合侦测结果自动产生出三元图T；

所述第二阶段进行数字影像的抠像为深层空洞卷积网络与神经模块结合形成抠像神经网络，抠像神经网络输出的结果为α影像，

所述第三阶段前景物的撷取，α影像联合输入影像I根据式子有I＝αF+(1-α)B，推导出前景影像F和背景影像B，第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取不用分段执行，一次完成，亦即只要输入影像I，即可迅速输出α、F和B。

上述说明中，作为优选的方案，所述神经模块包括编码-解码网络和精炼网络，深层空洞卷积网络先和编码-解码网络并联后，再与精炼网络串联，形成抠像神经网络。

上述说明中，作为优选的方案，所述深层空洞卷积网络包含有三个空洞卷积层和二个一般卷积层，三个空洞卷积层分别使用有六空洞率滤波器、十二空洞率滤波器和十八空洞率滤波器。

上述说明中，作为优选的方案，所述是空洞卷积层或是一般的卷积层，每个卷积层均使用有十六个滤波器，空洞卷积层与一般卷积层之间的连接方式为一个一般卷积层的输出结合三个空洞卷积层的输出，再一起输入另一个一般卷积层。

本发明所产生的有益效果如下：结合自动产生三元图与深层空洞卷积网络之数字抠像技术，其特征在于，包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成，

所述自动产生影像的三元图T包括输入影像I、前景物、两个深层神经网络和三元图T：首先利用输入影像设备输入输入影像I，再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物，两个深层神经网络的输出结果分别为图像F₁和F₂，最后运用计算式有T＝(F₂-F₁)/2+F₁算出三元图T，之后再根据上述T＝(F₂-F₁)/2+F₁，即可结合出三元图T，整个过程不需要外力介入，可以完全自动达成。

所述深层空洞卷积网络提升抠像解析度，包括卷积层、滤波器和解析度，卷积层包括空洞卷积层与一般卷积层，卷积层的主要工作为输入影像I与滤波器进行卷积运算，滤波器包括空洞滤波器和核心滤波器，空洞滤波器具有不同大小的空洞率，核心滤波器具有不同大小的接收场，空洞率大的滤波器覆盖的空间范围大，侦测高解析度的特征，接收场大的滤波器，侦测大尺度的特征，

所述第一阶段制作输入影像I的三元图T为两个深层神经网络分别对前景物进行不同精度的侦测，之后结合侦测结果自动产生出三元图T；

附图说明

图1为本发明中数字抠像例子的示意图，其中第一幅图为输入影像I、第二幅图为抠出之前景物和第三幅图为置入于不同背景的示意图；

图2为本发明中数字抠像系统之流程图；

图3为本发明中额外的信息的示意图其中第一幅图为输入影像I，第二幅图为草涂，第三幅图为三元图；

图4本发明中三元图的产生过程的示意图；

图5本发明中抠像神经网络流程图的示意图；

图6本发明中不同接收场三乘三、五乘五和七乘七的滤波器的示意图；

图7本发明中空洞率为一、二和三的三乘三滤波器的示意图；

图8本发明中空洞卷积网络架构的示意图；

图9本发明中抠像神经网络架构的示意图；

图10本发明中三元图产生实例的示意图，其中第一幅图为输入影像I、第二幅图为F₁、第三幅图为F₂和第四幅图为三元图T；

图11本发明中施作例子的示意图，其中第一幅图为输入影像I、第二幅图为α影像、第三幅图为前景影像F和第四幅图为背景影像B。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。以下结合附图对本发明进行详细的描述。

请参阅图1-11，其具体实施的所述自动产生影像的三元图T包括输入影像I中的前景物、两个深层神经网络和三元图T：首先利用输入影像设备输入输入影像I，再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物，深层神经网络训练时所需之训练数据，有以下几种来源：(1)学术机构，例如PASCAL VOC数据库；(2)研究网站，例如alphamatting.com网页；(3)企业单位，例如Adobe研究中心；(4)自行制作，利用图像处理工具和作图工具。训练数据是以输入数据和输出结果成对的方式呈现给神经网络作训练。两个深层神经网络的输出结果分别为图像F₁和F₂，最后运用计算式有T＝(F₂-F₁)/2+F₁算出三元图T；

所述深层空洞卷积网络提升抠像解析度，包括卷积层、滤波器和解析度，卷积层包括空洞卷积层与一般卷积层，卷积层的主要工作为输入影像I与滤波器进行卷积运算，滤波器包括空洞滤波器和核心滤波器，空洞滤波器具有不同大小的空洞率，核心滤波器具有不同大小的接收场，空洞率大的滤波器覆盖的空间范围大，侦测高解析度的特征，接收场大的滤波器，侦测大尺度的特征。深层空洞卷积网络包含有三个空洞卷积层和二个一般卷积层，三个空洞卷积层分别使用有六空洞率滤波器、十二空洞率滤波器和十八空洞率滤波器，空洞卷积层或是一般的卷积层，每个卷积层均使用有十六个滤波器，空洞卷积层与一般卷积层之间的连接方式为一个一般卷积层的输出结合三个空洞卷积层的输出，再一起输入另一个一般卷积层。

所述第二阶段进行数字影像的抠像为深层空洞卷积网络与神经模块结合形成抠像神经网络，抠像神经网络输出的结果为α影像，神经模块包括编码-解码网络和精炼网络，深层空洞卷积网络先和编码-解码网络并联后，再与精炼网络串联，形成抠像神经网络。神经模块是作者事先就训练好了的网络，而空洞卷积网络本身没有参数需要藉由训练来学习，所以抠像神经网络在此不必作训练。

以上内容是结合具体的优选实施例对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应视为本发明的保护范围。

Claims

1.结合自动产生三元图与深层空洞卷积网络之数字抠像技术，其特征在于，包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成，

2.根据权利要求1所述结合自动产生三元图与深层空洞卷积网络之数字抠像技术，其特征在于，所述神经模块包括编码-解码网络和精炼网络，深层空洞卷积网络先和编码-解码网络并联后，再与精炼网络串联，形成抠像神经网络。

3.根据权利要求1所述结合自动产生三元图与深层空洞卷积网络之数字抠像技术，其特征在于，所述深层空洞卷积网络包含有三个空洞卷积层和二个一般卷积层，三个空洞卷积层分别使用有六空洞率滤波器、十二空洞率滤波器和十八空洞率滤波器。

4.根据权利要求1所述结合自动产生三元图与深层空洞卷积网络之数字抠像技术，其特征在于，所述是空洞卷积层或是一般的卷积层，每个卷积层均使用有十六个滤波器，空洞卷积层与一般卷积层之间的连接方式为一个一般卷积层的输出结合三个空洞卷积层的输出，再一起输入另一个一般卷积层。