CN110322468A - 一种图像自动编辑方法 - Google Patents
一种图像自动编辑方法 Download PDFInfo
- Publication number
- CN110322468A CN110322468A CN201910480782.6A CN201910480782A CN110322468A CN 110322468 A CN110322468 A CN 110322468A CN 201910480782 A CN201910480782 A CN 201910480782A CN 110322468 A CN110322468 A CN 110322468A
- Authority
- CN
- China
- Prior art keywords
- image
- value
- loss function
- original image
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 29
- 230000009466 transformation Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 10
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 6
- 210000005036 nerve Anatomy 0.000 claims description 2
- 230000006870 function Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000006748 scratching Methods 0.000 description 4
- 230000002393 scratching effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像自动编辑方法,包括:基于编码器‑解码器构建第一全卷积神经网络模型,用于标注照片对应的前景、背景和不确定区域的三分图;获取第一原始图片进行图像处理变换,生成相对应的模板图作为第一训练数据;第一全卷积神经网络模型将第一训练数据先对原图进行随机旋转、比例缩放和伽马变换处理,按原始图片和对齐模板图以通道方向合并成图像,输出真实三分图;基于编码器‑解码器构建第二全卷积神经网络模型,用于实现图像抠图;获取第二原始图片进行图像处理合成,生成RGB图作为第二训练数据;第二全卷积神经网络模型将RGB图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和真实三分图以通道方向合并成图像,输出抠图图像。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像自动编辑方法。
背景技术
随着现代生活中科技应用的广泛覆盖,各种可穿戴设备和智能识别设备应用,在我们的生活中随处可见。照片、视频等图像信息在人们生活中扮演者越来越重要的角色,人们开始习惯用相机记录生活,微博、朋友圈也充满了大家拍摄的照片。海量图像信息的出现,也意味着也对于图像信息处理有了更高的需求。每天数以千记的视频和图像在互联网传递,视频跟踪、图像检测、图像分析这些技术词语已经不再局限于高深的科学领域,也随着技术的成熟和推广渗透到了人们的日常生活。监控安防,互联网支付,各种娱乐软件APP等,都是需要通过摄像头捕捉图像或者记录视频作为输入数据,再通过算法进行处理后输出需要的结果。这些需求引出了各种基于视觉的处理方式,图像风格化、图像分割、物体检测、虚拟现实和增强现实等等。
对所有图片采用一样的图像编辑技术时,在遇到某些特殊的场景会导致图像处理的效果很差,本发明在对人像抠图的基础上进行图像处理来完成编辑,可以非常显著的提升其编辑效果,例如:图像素描化、图像背景模糊和图像风格化等等。人像抠图是一种识别图像中的人像区域,包括头部、半身和全身位置,并准确预测出人像与背景交界处之间的不透明度,配以不同背景图片、效果进行融合。其主要的性能指标是最小均分误差和梯度误差。大多数人像抠图工具依赖于用户交互来绘制三分图或笔画图的方式来提供颜色样本信息去完成抠图,该过程是繁琐且耗时的,对于一些没有抠图处理知识的专业人士来说,完成一幅满意的抠图需要多次绘制三分图或笔画图,并且这些人像抠图工具无法处理前景与背景对比度小的图像。而无需用户交互的人像分割是对人像的粗略硬分割,这种硬分割造成人像与背景之间没有平滑的过渡以及对复杂结构的前景(头发)分割非常不精准。
发明内容
本发明提供了一种图像自动编辑方法,以解决现有的抠图处理技术效果差的技术问题,从而通过构建两个编码器-解码器结构的全卷积神经网络模型来完成精准抠图,进而实现抠图技术的优化,提高处理效果。
为了解决上述技术问题,本发明实施例提供了一种图像自动编辑方法,包括:
基于编码器-解码器结构,构建第一全卷积神经网络模型,用于标注照片对应的前景、背景和不确定区域的三分图;
获取第一原始图片集并对所述第一原始图片进行图像处理变换,生成相对应的模板图作为第一训练数据;
所述第一全卷积神经网络模型将所述第一训练数据先对原图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和对齐模板图以通道方向合并成图像,输出真实三分图;
基于编码器-解码器结构,构建第二全卷积神经网络模型,用于实现图像抠图;
获取第二原始图片集并对所述第二原始图片进行图像处理合成,生成RGB 图作为第二训练数据;
所述第二全卷积神经网络模型将所述第二训练数据中的RGB图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和所述真实三分图以通道方向合并成图像,输出抠图图像。
作为优选方案,所述获取第一原始图片集并对所述第一原始图片进行图像处理变换,生成相对应的模板图作为第一训练数据,包括:
通过画板对获取的第一原始图片进行标注第一预测三分图,再通过数字抠图软件生成表示其图像前景为不透明度的第一抠图图像,形成第一抠图图像集;
将所述第一抠图图像集中的第一抠图图像取平均得到平均模板图;
通过任意人脸关键点算法检测所有第一原始图片中人脸的关键点坐标值并取算数平均得到平均关键点坐标;
通过任意人脸关键点算法对所述第一原始图片检测得到人脸的对应关键点坐标,通过所述平均关键点坐标和所述对应关键点坐标,计算得到仿射变换的单应性矩阵,通过矩阵变换算法将所述单应性矩阵和所述平均模板图进行仿射变换得到对应的模板图。
作为优选方案,所述计算得到仿射变换的单应性矩阵的公式为:
其中:H是一个3×3的单应性矩阵,Fmx和Fmy分别是平均关键点的x和y坐标点,Fcx和Fcy分别是当前图像人脸关键点的x和y坐标点;
所述矩阵变换算法的公式为:
其中:H是通过单应性矩阵公式计算得到的单应性矩阵,m是平均模板图,c 是当前原始图片的模板图。
作为优选方案,在所述输出真实三分图之后,还包括:
计算所述第一预测三分图与所述真实三分图的交叉熵损失函数值,并对所述交叉熵损失函数值进行反向求导,然后通过优化器更新第一神经网络参数;
重复更新神经网络参数直至达到预设的次数阈值或所述交叉熵损失函数值小于预设阈值时停止;
保存神经网络参数文件,以实现对所述第一全卷积神经网络模型进行优化。
作为优选方案,所述交叉熵损失函数值的计算公式为:
其中,Lt为交叉熵损失函数值;为第一预测三分图;为真实三分图。
作为优选方案,所述获取第二原始图片集并对所述第二原始图片进行图像处理合成,生成RGB图作为第二训练数据,包括:
通过画板对获取的第二原始图片进行标注第二预测三分图,再通过数字抠图软件生成表示其图像前景为不透明度的第二抠图图像,形成第二抠图图像集;
将所述第二原始图片集中的图片及所述第二抠图图像集中的图像与不重复的多张公开数据集MSCOCO,作为背景图通过图像线性公式进行合成生成多张RGB 图作为第二训练数据;
所述图像线性公式为:Ii=αiFi+(1-αi)Bi,αi∈[0,1];
其中:图像Ii的像素点,Fi和Bi分别是图像的前景和背景,i是图像的索引;αi定义为图像Ii在像素点i的前景不透明度,当αi=0时表示完全透明,αi=1时表示完全不透明。
作为优选方案,在所述输出抠图图像之后,还包括:
通过a值回归损失函数公式计算所述真实三分图对应三分图标记的不确定区域的前景不透明度a值的回归损失函数值;
通过图像回归损失函数公式计算所述抠图图像的图像回归损失函数值;
结合所述a值回归损失函数值和所述图像回归损失函数值计算得到损失函数值,并对所述损失函数值进行反向求导,然后通过优化器更新第二神经网络参数;
重复更新第二神经网络参数直至达到预设的次数阈值或所述a值回归损失函数值小于预设阈值时停止;
保存神经网络参数文件,以实现对所述第二全卷积神经网络模型进行优化。
作为优选方案,所述a值回归损失函数公式为:
其中:Lα为a值回归损失函数值;是通过预测得到的a值,是图像真实的a值在图像第i行j列;ε是常数;
所述图像回归损失函数公式为:
其中:Lc为图像回归损失函数值;是网络输入的前景和背景通过所述图像线性公式计算得到,是合成的真实RGB图片的像素值在图像的第i行j 列;
所述损失函数值的计算公式为:LO=(βLα+(1-β)Lc)δi;
其中:LO为损失函数值;β是个常数;如果像素点i在三分图的未知区域内则δi=1,否则δi=0。
作为优选方案,所述a值回归损失函数公式中的ε值取:ε∈[6,10];所述损失函数值计算公式中的β值取0.5。
作为优选方案,所述第一全卷积神经网络模型将所述第一训练数据对原图进行随机旋转[-30,30]度、[0.8,1.2]比例的缩放和[0.5,0.8,1.2,1.5]伽马变换处理;所述第二全卷积神经网络模型将所述第二训练数据中的RGB图进行随机旋转 [-30,30]度、[0.8,1.2]比例的缩放和[0.5,0.8,1.2,1.5]伽马变换处理。
相比于现有技术,本发明实施例具有如下有益效果:
1、本发明通过构建两个编码器-解码器结构的全卷积神经网络模型来完成精准抠图,解决现有的抠图处理技术效果差的技术问题,实现抠图技术的优化,提高处理效果。
2、本实现的抠图方法基于深度学习来完成,无需任何人工交互即可完成,间接地提高了整体图像编辑时间。
附图说明
图1:为本发明实施例中的基于两个神经网络模型的人像抠图算法流程图;
图2:为本发明实施例中基于全卷神经网络的三分图标注方法网络结构图;
图3:为本发明实施例中的基于全卷神经网络的图像抠图方法网络结构图;
图4:为本发明实施例中的进行背景替换图像编辑的流程示意图;
图5:为本发明实施例中的图像风格模仿示例的输入图和模仿对象图对比示意图;
图6:为本发明实施例中的图像风格模仿示例的有无alpha图限制图像风格模仿对比示意图;
图7:为本发明实施例中的自动背景虚化示例的图像示意图;
图8:为本发明实施例中的背景替换示例的图像示意图;
图9:为本发明实施例中的抠图算法对比的图像示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1-图3,本发明优选实施例提供了一种图像自动编辑方法,包括:
S1,基于编码器-解码器结构,构建第一全卷积神经网络模型,用于标注照片对应的前景、背景和不确定区域的三分图;
S2,获取第一原始图片集并对所述第一原始图片进行图像处理变换,生成相对应的模板图作为第一训练数据;
S3,所述第一全卷积神经网络模型将所述第一训练数据先对原图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和对齐模板图以通道方向合并成图像,输出真实三分图;
S4,基于编码器-解码器结构,构建第二全卷积神经网络模型,用于实现图像抠图;
S5,获取第二原始图片集并对所述第二原始图片进行图像处理合成,生成 RGB图作为第二训练数据;
S6,所述第二全卷积神经网络模型将所述第二训练数据中的RGB图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和所述真实三分图以通道方向合并成图像,输出抠图图像。
对于图像/,人像抠图旨在找到前景F和背景B的最佳线性组合。对于任何像素点i,需满足以下公式:
Ii=αiFi+(1-αi)Bi,αi∈[0,1]公式1
其中:图像Ii的像素点,Fi和Bi是分别图像的前景和背景,i是图像的索引;αi定义为图像Ii在像素点i的前景不透明度,0表示完全透明,1表示完全不透明。
本发明的自动人像抠图技术通过构建两个编码器-解码器结构的全卷积神经网络来完成抠图的方法,整个过程如图1所示。使用第一个全卷积神经网络 (基于全卷神经网络的三分图标注方法)标注照片对应的前景、背景和不确定区域的三分图作为第二网络的输入,第二个全卷神经网络(基于全卷神经网络的图像抠图方法)用于实现图像抠图的功能,下面将两个全卷积神经网络进行分开说下。
基于全卷神经网络的三分图标注(第一个网络模型)方法步骤如下:
a)对背景较简单且与前景(人)对比度较大的原始图片首先使用画板手动标注三分图(T),再利用matlab版的informationFlowMatting生成表示其前景不透明度的Alpha(α)图(保存图片为Int类型,像素值值域是[0,255])。
b)对所有n张原始图片做a)的相同操作最后生成{Ii,Ti,Ai},(其中I表示原始图片,T表示原始图片对应的三分图,A表示Alpha(a)图,i=[0,n])对数据集。
c)将b)中的全部Alpha图取平均得到平均模板图Mm。
d)使用任意人脸关键点算法检测a)中的所以原始图片中人脸的关键点坐标值并取算数平均得到平均关键点坐标Fm。
e)使用任意人脸关键点算法(如dlib函数库,其运行过程为先对图片的人脸进行定位,将定位区域裁剪成人脸图像进行人脸关键点检测)对a)中原始图片检测得到人脸的对应关键点坐标Fc。通过平均关键点坐标Fm和原始图片的对应人脸关键点坐标Fc计算得到仿射变换的单应性矩阵H(如公式2),通过公式3 将已知的单应性矩阵H与平均模板图Mm代入进行仿射变换得到对应的模板图Mc如图2输入所示。
其中:H是一个3×3的单应性矩阵,Fmx和Fmy分别是平均关键点的x和y坐标点,Fcx和Fcy分别是当前图像人脸关键点的x和y坐标点
其中:H是通过公式2计算得到的单应性矩阵,m是平均模板图Mm,c是当前原始图片Ii的模板图Mic
f)对a)中的每张原始图片Ii进行e)操作,生成相对应的模板图Mic。
g)本阶段的神经网络是编码器-解码器结构组成,其中编码器如图2所示,解码器是通过双线性插值做上采样将特征图逐层恢复至网络图像输入大小,整体网络结构如图1所示。
h)本阶段是标注三分图的神经网络。将上述操作准备好的训练数据先对原图进行随机旋转[-30,30]度、[0.8,1.2]比例的缩放和[0.5,0.8,1.2,1.5]伽马变换。然后按原始图片(Iij)和对齐模板图Mic以通道方向合并成大小为480×360×4 的图像,网络目标为输出图像的三分图,其值0是背景,1是不确定区域,2是前景。
i)计算g)预测的三分图与d)真实三分图的交叉熵损失函数值Lt,如公式4。
j)根据i)的计算进行反向求导,并使用Adam优化器更新神经网络参数。
k)重复g)~j)步骤N次或i)中公式4的函数值小于某个阈值时停止。
I)保存神经网络参数文件。
基于全卷神经网络的图像抠图方法(第二个网络模型)步骤如下:
a)对清晰度极高、背景简单且与前景(任意物体)对比度大的原始图片首先使用画板工具手动标注三分图(T),再利用matlab版的informationFlowMatting生成表示其前景不透明度的Alpha(α)图(保存图片为Int类型,像素值值域是[0,255]。
b)对所有n张原始图片做a)的相同操作最后生成{Ii,Ti,Ai},(其中I表示原始图片,Ti表示原始图片对应的三分图,A表示Alpha(a)图,i=[0,n])对数据集。
c)将b)中每一张原始图片Ii及其前景不透明度的Alpha(α)图Ai与不重复的100张公开数据集(MSCOCO)作为背景图通过公式1进行合成生成100张RGB 图(CIij)训练集(i表示原始图片Ii中的i,j表示合成的RGB图片序号j= [0,100])。
d)本阶段的神经网络是编码器-解码器结构组成,其中编码器如图3所示,解码器是通过可分离卷积做上采样将特征图逐层恢复至网络图像输入大小。
e)本阶段是图像抠图的神经网络。将上述操作准备好的训练数据先对合成图进行随机旋转[-30,30]度、[0.8,1.2]比例的缩放和[0.5,0.8,1.2,1.5]伽马变换。然后按原始图片(Iij)和三分图Tij以通道方向合并成大小为320×320×4的图像,网络输出是对输入的合成图对应三分图标记的不确定区域的前景不透明度 a值的标注,其中α∈[0,1]。
f)计算损失函数LO,其由a值回归损失函数Lα和图像回归损失函数Lc组成。
LO=(βLα+(1-β)Lc)δi公式5
其中:β是个常数,实验中设置为0.5;如果像素点i在三分图的未知区域内则δi=1,否则δi=0。
a值回归损失函数Lα:预测的a值的尺寸为1×H×W,其值范围在[0,1],0 表示图片完全透明,1表示图片完全不透明。采用预测的a值与真实的a值的均方根误差(RMSE):
其中:是通过网络预测得到的a值,是图像真实的a值在图像第i 行j列;ε是常数,实验中设置为10-6。
图像回归损失组成Lc:预测生成的RGB图片的尺寸为3×H×W,其值范围在 [0,1]。采用预测生成的RGB图片与合成的真实图片的均方根误差(RMSE):
其中:是网络输入的前景和背景通过公式1计算得到,是合成的真实RGB图片的像素值在图像的第i行j列。
g)根据f)的计算进行反向求导,并使用Adam优化器更新神经网络参数。
h)重复g)~j)步骤N次或f)中的函数值公式6小于某个阈值时停止。
i)保存网络模型。
基于上述实施例中的抠图方法,可以对图像进行编辑,实现图像更优的编辑效果,以下方法全是都是在完成抠图的基础上实现的,并生成了原图对应的 Alpha图。
(1)背景替换
在已知前景图Fi(既原图像)和背景图Bi(替换图像),Alpha图前景不透明度,利用公式1来完成图像融合。过程如图4所示。
(2)背景虚化
(a)利用已知原图前景不透明度的Alpha图,通过公式(1)计算出前景图F和背景图B
(b)对背景图B进行拉普拉斯方差计算得出虚化背景图
(c)在利用公式(1)进行图像融合生成背景虚化图
(3)图像风格模仿
(a)输入需处理的图像/及示例图像E。
(b)分解图像/及示例图像E到多尺度拉普拉斯堆栈,获得图像I和图像 E之间的对应关系。
(c)对图像I,E进行抠图,并通过公式(7)使抠图得到人像轮廓更为清晰完整:
(d)根据(b)过程建立的对应关系,将图像E风格转换到图像I,生成新图像。
本发明提出了一种无需多余人工交互的图像编辑技术,该发明在自动人像抠图的基础上运用图像编辑技术生成的图像质量明显高于不基于扣图的算法上。
示例1如下图5和图6所示,在图像风格模仿中,当人物头像和背景的颜色差异很大时(图5左),人物的部分头发和轮廓会消失在背景中,造成图像的部分失真(图6左)。在基于人像抠图上生成alpha图后,我们可以使alpha图 (图5左)通过限制拉普拉斯算子使轮廓保存得更好,更加清晰(见图6方框区域)。其中:图5左为输入图,图5右为模仿对象图;图6左为无alpha图限制图像风格模仿图,图6右为有alpha图限制图像风格模仿图。
示例2如下图7所示,无需人工交互既可实现背景虚化。
示例3如下图8所示,只需要输入原图和背景图,即可完成背景替换。
本发明的自动人像抠图基于深度学习来完成,无需任何人工交互即可完成,间接的提高了整体图像编辑时间,并且相对于传统抠图算法,基础学习的抠图算法不会出现抠图后的低频“拖尾”或高频“厚实”伪影。示例如下图9所示,其中,图9左为原图,图9中为传统抠图,图9右为本发明抠图。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像自动编辑方法,其特征在于,包括:
基于编码器-解码器结构,构建第一全卷积神经网络模型,用于标注照片对应的前景、背景和不确定区域的三分图;
获取第一原始图片集并对所述第一原始图片进行图像处理变换,生成相对应的模板图作为第一训练数据;
所述第一全卷积神经网络模型将所述第一训练数据先对原图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和对齐模板图以通道方向合并成图像,输出真实三分图;
基于编码器-解码器结构,构建第二全卷积神经网络模型,用于实现图像抠图;
获取第二原始图片集并对所述第二原始图片进行图像处理合成,生成RGB图作为第二训练数据;
所述第二全卷积神经网络模型将所述第二训练数据中的RGB图进行随机旋转、比例缩放和伽马变换处理,再按原始图片和所述真实三分图以通道方向合并成图像,输出抠图图像。
2.如权利要求1所述的图像自动编辑方法,其特征在于,所述获取第一原始图片集并对所述第一原始图片进行图像处理变换,生成相对应的模板图作为第一训练数据,包括:
通过画板对获取的第一原始图片进行标注第一预测三分图,再通过数字抠图软件生成表示其图像前景为不透明度的第一抠图图像,形成第一抠图图像集;
将所述第一抠图图像集中的第一抠图图像取平均得到平均模板图;
通过任意人脸关键点算法检测所有第一原始图片中人脸的关键点坐标值并取算数平均得到平均关键点坐标;
通过任意人脸关键点算法对所述第一原始图片检测得到人脸的对应关键点坐标,通过所述平均关键点坐标和所述对应关键点坐标,计算得到仿射变换的单应性矩阵,通过矩阵变换算法将所述单应性矩阵和所述平均模板图进行仿射变换得到对应的模板图。
3.如权利要求2所述的图像自动编辑方法,其特征在于,所述计算得到仿射变换的单应性矩阵的公式为:
其中:H是一个3×3的单应性矩阵,Fmx和Fmy分别是平均关键点的x和y坐标点,Fcx和Fcy分别是当前图像人脸关键点的x和y坐标点;
所述矩阵变换算法的公式为:
其中:H是通过单应性矩阵公式计算得到的单应性矩阵,m是平均模板图,c是当前原始图片的模板图。
4.如权利要求2所述的图像自动编辑方法,其特征在于,在所述输出真实三分图之后,还包括:
计算所述第一预测三分图与所述真实三分图的交叉熵损失函数值,并对所述交叉熵损失函数值进行反向求导,然后通过优化器更新第一神经网络参数;
重复更新神经网络参数直至达到预设的次数阈值或所述交叉熵损失函数值小于预设阈值时停止;
保存神经网络参数文件,以实现对所述第一全卷积神经网络模型进行优化。
5.如权利要求4所述的图像自动编辑方法,其特征在于,所述交叉熵损失函数值的计算公式为:
其中,Lt为交叉熵损失函数值;为第一预测三分图;为真实三分图。
6.如权利要求1所述的图像自动编辑方法,其特征在于,所述获取第二原始图片集并对所述第二原始图片进行图像处理合成,生成RGB图作为第二训练数据,包括:
通过画板对获取的第二原始图片进行标注第二预测三分图,再通过数字抠图软件生成表示其图像前景为不透明度的第二抠图图像,形成第二抠图图像集;
将所述第二原始图片集中的图片及所述第二抠图图像集中的图像与不重复的多张公开数据集MSCOCO,作为背景图通过图像线性公式进行合成生成多张RGB图作为第二训练数据;
所述图像线性公式为:Ii=αiFi+(1-αi)Bi,αi∈[0,1];
其中:图像Ii的像素点,Fi和Bi分别是图像的前景和背景,i是图像的索引;αi定义为图像Ii在像素点i的前景不透明度,当αi=0时表示完全透明,αi=1时表示完全不透明。
7.如权利要求6所述的图像自动编辑方法,其特征在于,在所述输出抠图图像之后,还包括:
通过α值回归损失函数公式计算所述真实三分图对应三分图标记的不确定区域的前景不透明度α值的回归损失函数值;
通过图像回归损失函数公式计算所述抠图图像的图像回归损失函数值;
结合所述α值回归损失函数值和所述图像回归损失函数值计算得到损失函数值,并对所述损失函数值进行反向求导,然后通过优化器更新第二神经网络参数;
重复更新第二神经网络参数直至达到预设的次数阈值或所述α值回归损失函数值小于预设阈值时停止;
保存神经网络参数文件,以实现对所述第二全卷积神经网络模型进行优化。
8.如权利要求7所述的图像自动编辑方法,其特征在于,所述α值回归损失函数公式为:
其中:Lα为α值回归损失函数值;是通过预测得到的α值,是图像真实的α值在图像第i行j列;ε是常数;
所述图像回归损失函数公式为:
其中:Lc为图像回归损失函数值;是网络输入的前景和背景通过所述图像线性公式计算得到,是合成的真实RGB图片的像素值在图像的第i行j列;
所述损失函数值的计算公式为:Lo=(βLα+(1-β)Lc)δi;
其中:Lo为损失函数值;β是个常数;如果像素点i在三分图的未知区域内则δi=1,否则δi=0。
9.如权利要求8所述的图像自动编辑方法,其特征在于,所述α值回归损失函数公式中的ε值取:ε∈[6,10];所述损失函数值计算公式中的β值取0.5。
10.如权利要求1所述的图像自动编辑方法,其特征在于,所述第一全卷积神经网络模型将所述第一训练数据对原图进行随机旋转[-30,30]度、[0.8,1.2]比例的缩放和[0.5,0.8,1.2,1.5]伽马变换处理;所述第二全卷积神经网络模型将所述第二训练数据中的RGB图进行随机旋转[-30,30]度、[0.8,1.2]比例的缩放和[0.5,0.8,1.2,1.5]伽马变换处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910480782.6A CN110322468A (zh) | 2019-06-04 | 2019-06-04 | 一种图像自动编辑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910480782.6A CN110322468A (zh) | 2019-06-04 | 2019-06-04 | 一种图像自动编辑方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110322468A true CN110322468A (zh) | 2019-10-11 |
Family
ID=68119586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910480782.6A Pending CN110322468A (zh) | 2019-06-04 | 2019-06-04 | 一种图像自动编辑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322468A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110749974A (zh) * | 2019-11-04 | 2020-02-04 | 中南大学 | 全载玻片成像扫描仪的自动聚焦方法及其图像获取方法 |
CN111080670A (zh) * | 2019-12-17 | 2020-04-28 | 广州视源电子科技股份有限公司 | 图像提取方法、装置、设备及存储介质 |
CN111145195A (zh) * | 2019-12-03 | 2020-05-12 | 上海海事大学 | 一种基于轻量级深度神经网络的视频中人像轮廓探测方法 |
CN111223106A (zh) * | 2019-10-28 | 2020-06-02 | 稿定(厦门)科技有限公司 | 全自动人像蒙版抠图方法及系统 |
CN111626971A (zh) * | 2020-05-26 | 2020-09-04 | 南阳师范学院 | 具有图像语义感知的智慧城市cim实时成像方法 |
CN111709873A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 图像转换模型生成器的训练方法和装置 |
CN111784564A (zh) * | 2020-06-30 | 2020-10-16 | 稿定(厦门)科技有限公司 | 自动抠图方法及系统 |
CN112019771A (zh) * | 2020-08-20 | 2020-12-01 | 新华智云科技有限公司 | 基于实时抠像的全息云会议系统 |
CN113012169A (zh) * | 2021-03-22 | 2021-06-22 | 深圳市人工智能与机器人研究院 | 一种基于非局部注意力机制的全自动抠图方法 |
CN113052755A (zh) * | 2019-12-27 | 2021-06-29 | 杭州深绘智能科技有限公司 | 一种基于深度学习的高分辨率图像智能化抠图方法 |
CN113327262A (zh) * | 2020-02-28 | 2021-08-31 | 武汉金山办公软件有限公司 | 一种图像处理的方法、装置、计算机存储介质及终端 |
CN113592074A (zh) * | 2021-07-28 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 一种训练方法、生成方法及装置、电子设备 |
CN113837998A (zh) * | 2021-08-19 | 2021-12-24 | 佛山科学技术学院 | 一种基于深度学习的图片自动调整对齐的方法及装置 |
CN113947529A (zh) * | 2021-10-14 | 2022-01-18 | 万翼科技有限公司 | 图像增强方法、模型训练方法、构件识别方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213112A1 (en) * | 2016-01-25 | 2017-07-27 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
CN108460770A (zh) * | 2016-12-13 | 2018-08-28 | 华为技术有限公司 | 抠图方法及装置 |
CN109145922A (zh) * | 2018-09-10 | 2019-01-04 | 成都品果科技有限公司 | 一种自动抠图系统 |
-
2019
- 2019-06-04 CN CN201910480782.6A patent/CN110322468A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213112A1 (en) * | 2016-01-25 | 2017-07-27 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
CN108460770A (zh) * | 2016-12-13 | 2018-08-28 | 华为技术有限公司 | 抠图方法及装置 |
CN109145922A (zh) * | 2018-09-10 | 2019-01-04 | 成都品果科技有限公司 | 一种自动抠图系统 |
Non-Patent Citations (1)
Title |
---|
JAGRUTI BODA等: "A Survey on Image Matting Techniques", 《INTERNATIONAL CONFERENCE ON COMMUNICATION AND SIGNAL PROCESSING》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223106A (zh) * | 2019-10-28 | 2020-06-02 | 稿定(厦门)科技有限公司 | 全自动人像蒙版抠图方法及系统 |
CN110749974A (zh) * | 2019-11-04 | 2020-02-04 | 中南大学 | 全载玻片成像扫描仪的自动聚焦方法及其图像获取方法 |
CN111145195A (zh) * | 2019-12-03 | 2020-05-12 | 上海海事大学 | 一种基于轻量级深度神经网络的视频中人像轮廓探测方法 |
CN111145195B (zh) * | 2019-12-03 | 2023-02-24 | 上海海事大学 | 一种基于轻量级深度神经网络的视频中人像轮廓探测方法 |
CN111080670A (zh) * | 2019-12-17 | 2020-04-28 | 广州视源电子科技股份有限公司 | 图像提取方法、装置、设备及存储介质 |
CN113052755A (zh) * | 2019-12-27 | 2021-06-29 | 杭州深绘智能科技有限公司 | 一种基于深度学习的高分辨率图像智能化抠图方法 |
CN113327262A (zh) * | 2020-02-28 | 2021-08-31 | 武汉金山办公软件有限公司 | 一种图像处理的方法、装置、计算机存储介质及终端 |
CN111626971A (zh) * | 2020-05-26 | 2020-09-04 | 南阳师范学院 | 具有图像语义感知的智慧城市cim实时成像方法 |
CN111626971B (zh) * | 2020-05-26 | 2021-09-07 | 南阳师范学院 | 具有图像语义感知的智慧城市cim实时成像方法 |
CN111709873A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 图像转换模型生成器的训练方法和装置 |
CN113706372A (zh) * | 2020-06-30 | 2021-11-26 | 稿定(厦门)科技有限公司 | 自动抠图模型建立方法及系统 |
CN111784564A (zh) * | 2020-06-30 | 2020-10-16 | 稿定(厦门)科技有限公司 | 自动抠图方法及系统 |
CN113706372B (zh) * | 2020-06-30 | 2024-07-05 | 稿定(厦门)科技有限公司 | 自动抠图模型建立方法及系统 |
CN112019771A (zh) * | 2020-08-20 | 2020-12-01 | 新华智云科技有限公司 | 基于实时抠像的全息云会议系统 |
CN113012169A (zh) * | 2021-03-22 | 2021-06-22 | 深圳市人工智能与机器人研究院 | 一种基于非局部注意力机制的全自动抠图方法 |
CN113592074A (zh) * | 2021-07-28 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 一种训练方法、生成方法及装置、电子设备 |
CN113592074B (zh) * | 2021-07-28 | 2023-12-12 | 北京世纪好未来教育科技有限公司 | 一种训练方法、生成方法及装置、电子设备 |
CN113837998A (zh) * | 2021-08-19 | 2021-12-24 | 佛山科学技术学院 | 一种基于深度学习的图片自动调整对齐的方法及装置 |
CN113837998B (zh) * | 2021-08-19 | 2024-07-02 | 佛山市灵觉科技有限公司 | 一种基于深度学习的图片自动调整对齐的方法及装置 |
CN113947529A (zh) * | 2021-10-14 | 2022-01-18 | 万翼科技有限公司 | 图像增强方法、模型训练方法、构件识别方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322468A (zh) | 一种图像自动编辑方法 | |
Liu et al. | Semantic-aware implicit neural audio-driven video portrait generation | |
Chen et al. | Tom-net: Learning transparent object matting from a single image | |
CN107679497B (zh) | 视频面部贴图特效处理方法及生成系统 | |
Rematas et al. | Novel views of objects from a single image | |
Fried et al. | Perspective-aware manipulation of portrait photos | |
CN109712223B (zh) | 一种基于纹理合成的三维模型自动上色方法 | |
CN104123749A (zh) | 一种图像处理方法及系统 | |
CN113470182A (zh) | 人脸几何特征编辑方法及深度人脸重塑编辑方法 | |
CN111382647B (zh) | 一种图片处理方法、装置、设备及存储介质 | |
Liu et al. | Spatial-aware texture transformer for high-fidelity garment transfer | |
Park et al. | Neural object learning for 6d pose estimation using a few cluttered images | |
Xiao et al. | Image hazing algorithm based on generative adversarial networks | |
CN109166172B (zh) | 服装模型的构建方法、装置、服务器和存储介质 | |
CN117011493B (zh) | 基于符号距离函数表示的三维人脸重建方法、装置及设备 | |
Lu et al. | Real-time video stylization using object flows | |
Jin et al. | Automatic and real-time green screen keying | |
US20210350547A1 (en) | Learning apparatus, foreground region estimation apparatus, learning method, foreground region estimation method, and program | |
Divya Udayan et al. | Animage-based approach to the reconstruction of ancient architectures by extracting and arranging 3D spatial components | |
Guo et al. | Single-Image Shadow Removal Using Deep Learning: A Comprehensive Survey | |
Chen et al. | Learning transparent object matting | |
CN114782600A (zh) | 一种基于辅助网格的视频特定区域渲染系统及渲染方法 | |
CN115018729A (zh) | 一种面向内容的白盒图像增强方法 | |
CN113033656B (zh) | 一种基于生成对抗网络的交互式孔探数据扩展方法 | |
Lokoč et al. | MultiMedia Modeling: 27th International Conference, MMM 2021, Prague, Czech Republic, June 22–24, 2021, Proceedings, Part II |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |