CN112258528A - 图像处理方法和装置、电子设备 - Google Patents
图像处理方法和装置、电子设备 Download PDFInfo
- Publication number
- CN112258528A CN112258528A CN202011204340.8A CN202011204340A CN112258528A CN 112258528 A CN112258528 A CN 112258528A CN 202011204340 A CN202011204340 A CN 202011204340A CN 112258528 A CN112258528 A CN 112258528A
- Authority
- CN
- China
- Prior art keywords
- training
- portrait
- depth
- image
- depth map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000012549 training Methods 0.000 claims abstract description 438
- 230000011218 segmentation Effects 0.000 claims abstract description 208
- 238000012937 correction Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000003321 amplification Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 14
- 238000003709 image segmentation Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 230000000903 blocking effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种图像处理、人像分割模型的训练方法和装置、电子设备以及计算机可读存储介质,包括:获取待处理RGB图像和对应的深度图;将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像掩膜图,提升了人像分割的精度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像处理、人像分割模型的训练方法和装置、电子设备以及计算机可读存储介质。
背景技术
目前人像掩膜图的生成方法,通常采用matting(抠图)的方法来抠图人像,并将抠图结果用于虚化、曝光、对焦等不同应用处理。而在人像虚化、留色等应用中,当图像中含有遮挡物或手持物时,易出现遮挡物分割空洞或手持物分割丢失的问题。
发明内容
本申请实施例提供一种图像处理、人像分割模型的训练方法和装置、电子设备以及计算机可读存储介质,融合深度信息训练人像分割模型,解决了人像含有手持物或者身前含有遮挡物时,易出现遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
一种图像处理方法,包括:
获取待处理RGB图像和对应的深度图;
将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;
根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像掩膜图。
一种图像处理装置,包括:
获取模块,用于获取待处理RGB图像和对应的深度图;
输入模块,用于将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;
输出模块,用于根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像分割掩膜图。
一种电子设备,包括存储器以及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取待处理RGB图像和对应的深度图;
将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;
根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像掩膜图。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待处理RGB图像和对应的深度图;
将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;
根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像掩膜图。
上述图像处理方法、装置、电子设备以及计算机可读存储介质,通过获取待处理RGB图像和对应的深度图;将待处理RGB图像和对应的深度图输入已训练的人像分割模型,人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,训练损失代价包括基于修正区域确定的局部损失代价,修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域;根据人像分割模型的输出得到待处理RGB图像对应的人像掩膜图,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
一种人像分割模型的训练方法,包括:
获取训练RGB图像和对应的训练深度图;
将所述训练RGB图像和对应的训练深度图输入人像分割模型,所述人像分割模型输出训练人像掩膜图;
基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到修正区域;
基于所述修正区域确定局部区域,根据所述局部区域计算所述训练人像掩膜图与已标注人像掩膜图之间的局部损失代价;
基于所述局部损失代价计算得到训练损失代价;
根据所述训练损失代价调整所述人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
一种人像分割模型的训练装置,包括:
获取模块,用于获取训练RGB图像和对应的训练深度图;
输入模块,用于将所述训练RGB图像和对应的训练深度图输入人像分割模型,所述人像分割模型输出训练人像掩膜图;
修正区域确定模块,用于基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到修正区域;
训练损失代价确定模块,用于基于所述修正区域确定局部区域,根据所述局部区域计算所述训练人像掩膜图与已标注人像掩膜图之间的局部损失代价,基于所述局部损失代价计算得到训练损失代价;
人像分割模型确定模块,用于根据所述训练损失代价调整所述人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
一种电子设备,包括存储器以及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取训练RGB图像和对应的训练深度图;
将所述训练RGB图像和对应的训练深度图输入人像分割模型,所述人像分割模型输出训练人像掩膜图;
基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到修正区域;
基于所述修正区域确定局部区域,根据所述局部区域计算所述训练人像掩膜图与已标注人像掩膜图之间的局部损失代价;
基于所述局部损失代价计算得到训练损失代价;
根据所述训练损失代价调整所述人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取训练RGB图像和对应的训练深度图;
将所述训练RGB图像和对应的训练深度图输入人像分割模型,所述人像分割模型输出训练人像掩膜图;
基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到修正区域;
基于所述修正区域确定局部区域,根据所述局部区域计算所述训练人像掩膜图与已标注人像掩膜图之间的局部损失代价;
基于所述局部损失代价计算得到训练损失代价;
根据所述训练损失代价调整所述人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
上述人像分割模型的训练方法、装置、电子设备以及计算机可读存储介质,通过获取训练RGB图像和对应的训练深度图,将训练RGB图像和对应的训练深度图输入人像分割模型,人像分割模型输出训练人像掩膜图,基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到修正区域,基于修正区域确定局部区域,根据局部区域计算训练人像掩膜图与已标注人像掩膜图之间的局部损失代价,基于局部损失代价计算得到训练损失代价,根据训练损失代价调整人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中图像处理方法、人像分割模型的训练方法的应用环境图;
图2为一个实施例中图像处理方法的流程示意图;
图3为一个实施例中融合双摄标定深度信息的网络结构示意图;
图4为一个实施例中融合单摄景深摄像头、TOF或结构光深度信息的网络结构示意图;
图5为一个实施例中融合单目深度估计网络深度信息的网络结构示意图;
图6为一个实施例中融合双目深度估计网络深度信息的网络结构示意图;
图7为一个实施例中待处理原始图像和对应的人像掩膜图的对比示意图;
图8为另一个实施例中待处理原始图像和对应的人像掩膜图的对比示意图;
图9为一个实施例中人像分割模型的训练方法的流程示意图;
图10为一个具体的实施例中人像分割模型的训练方法的流程示意图;
图11为一个实施例中深度图,优化前人像分割图和优化后人像分割图示意图;
图12为一个实施例中图像处理装置的结构框图;
图13为一个实施例中人像分割模型的训练装置的结构框图;
图14为一个实施例中电子设备的内部结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中图像处理、人像分割模型的训练方法的应用环境图。如图1所示,该应用环境包括终端110和服务器120,终端110获取待处理RGB图像和对应的深度图,将包括待处理RGB图像和对应的深度图的图像处理请求发送至服务器120,服务器120将待处理RGB图像和对应的深度图输入已训练的人像分割模型,人像分割模型是根据训练损失代价调整网络参数训练得到的,训练损失代价包括局部损失代价,局部损失代价是基于修正区域与训练背景区域确定的局部区域对应的损失代价,修正区域是根据训练人像区域确定的深度阈值从训练深度图中划分得到的区域;根据人像分割模型的输出得到待处理RGB图像对应的人像掩膜图,服务器120可以将待处理RGB图像对应的人像掩膜图返回至终端110。终端110可以利用人像掩膜图对待处理RGB图像进行背景虚化,人像提取等图像处理,得到目标图像。其中终端110可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、车载电脑、穿戴式设备等终端设备。其中服务器120可以为一个服务器或服务器集群。服务器120还可以获取训练RGB图像和对应的训练深度图,根据训练RGB图像和对应的训练深度图训练人像分割模型,根据修正区域与训练背景区域确定局部区域,根据局部区域计算训练人像掩膜图与标准人像掩膜图之间的局部损失代价,计算得到训练损失代价,根据训练损失代价调整人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
在一些实施例中,图像处理、人像分割模型的训练方法也可以应用于终端110,由终端110直接执行上述步骤得到待处理RGB图像对应的人像掩膜图和得到已训练的人像分割模型。
图2为一个实施例中图像处理方法的流程图。图2所示的图像处理方法可应用于上述终端110或服务器120中,包括:
步骤202,获取待处理RGB图像和对应的深度图。
其中,待处理图像可以是电子设备拍摄的图像,也可以是电子设备本地存储的图像,还可以是从网上下载的图像等不限于此。待处理图像可以是raw图(原始图像)、YUV图、RGB(Red Green Blue,红绿蓝)图等。待处理RGB图像是指RGB形式的待处理图像,可以将raw图、YUV图进行格式转换得到待处理RGB图像。深度图是指包含深度信息的图,其中待处理RGB图像对应的深度图表征了待处理RGB图像中的各个像素点对应的深度值。
待处理RGB图像和对应的深度图可以是经过归一化后的图像等。归一化后的图像可以是指图像中所有像素点的像素值在0~1的范围内,或者所有像素点的像素值在-1~1的范围内等不限于此。归一化的方式可以是将图像中每个像素点RGB三通道的值先减均值,后除以图像中像素值的方差的方式。
待处理RGB图像和对应的深度图可以是经过图像缩放后形成的预设尺寸的图像。其中预设尺寸可以自定义,也可以是与人像分割模型匹配的尺寸。
具体地,可以通过深度摄像头或双目摄像头拍摄同一场景得到对应的深度图。深度摄像头可为单摄景深摄像头、结构光摄像头或TOF摄像头。深度图可为结构光深度图、TOF深度图和双目深度图中的至少一种。深度图还可以是通过双目深度估计网络、单目深度估计网络输出的深度图。
步骤204,将待处理RGB图像和对应的深度图输入已训练的人像分割模型,人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,训练损失代价包括基于修正区域确定的局部损失代价,修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域。
其中,人像分割模型是预先采集大量的训练数据,将训练数据输入到包含有初始网络参数的人像分割模型,通过训练损失代价不断调整网络参数进行训练得到的。每组训练数据包括包含人像的训练RGB图像、对应的训练深度图和已标注人像掩膜图。其中,训练RGB图像和对应的训练深度图为训练的人像分割模型的输入,已标注人像掩膜图(mask)图作为训练的人像分割模型期望输出得到的真实值(ground truth)。人像掩膜图是用于识别图像中人像部分的图像滤镜模板,可以遮挡图像的其他部分,筛选出图像中的人像部分,当人像含有手持物或者身前含有遮挡物时,为了保证图像的完整性,将手持物和遮挡物作为人像部分分割出来是期望的人像掩膜图。人像分割模型可采用深度学习类算法得到,例如CNN(Convolutional Neural Networks,卷积神经网络)、U-Net算法、FCN(FullyConvolutional Neural Networks,全卷积神经网络)等。
在一个实施例中,人像分割模型包括Encoder编码模块和Decoder解码模块,Encoder编码模块采用不限于Mobilenet、Resnet、vgg等backbone实现编码,编码模块即特征提取模块,用于进行特征提取。解码模块用于对图像特征进行处理得到人像掩膜图。
具体地,训练损失代价包括基于修正区域确定的局部损失代价,局部损失代价是基于修正区域确定的局部区域对应的损失代价。修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域,可以基于训练人像掩膜图确定训练人像区域和训练背景区域,根据训练人像区域或训练背景区域从训练深度图中确定目标区域,然后根据目标区域的深度值确定深度阈值。其中目标区域的确定方式可自定义,在一个实施例中,将训练人像区域在训练深度图中对应的区域作为目标区域。在一个实施例中,将训练人像区域在训练深度图中对应的区域轮廓进行扩大预设像素范围得到目标区域。其中根据目标区域的深度值确定深度阈值的算法可自定义,可以将目标区域的所有像素点的平均深度值作为深度阈值,也可以将目标区域的所有像素点的中位深度值作为深度阈值,或将平均深度值、中位深度值进行运算后得到深度阈值。
根据修正区域确定局部区域,其中局部区域可以是修正区域靠近轮廓的边缘区域,或根据修正区域和训练背景区域确定局部区域,将修正区域和训练背景区域的重叠部分或对重叠部分进行处理后得到局部区域。计算训练人像掩膜图与已标注人像掩膜图之间在局部区域对应的局部损失代价。根据局部损失代价确定训练损失代价,可以直接将局部损失代价作为训练损失代价,或局部损失代价与其他的损失代价组合形成训练损失代价。在一个实施例中,训练损失代价还可包括全局损失代价,全局损失代价是计算训练人像掩膜图与已标注人像掩膜图之间在全局区域对应的损失代价。局部损失代价和全局损失代价可以进行加权得到训练损失代价。基于训练损失代价不断调整人像分割模型的网络参数,直到达到收敛条件,得到已训练的人像分割模型。由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
步骤206,根据人像分割模型的输出得到待处理RGB图像对应的人像掩膜图。
具体地,将待处理RGB图像和对应的深度图进行通道拼接,将拼接后的图像数据输入已训练的人像分割模型,就可得到人像分割模型的输出的待处理RGB图像对应的人像掩膜图。人像掩膜图中的像素点的像素值只有两个,例如0和1,或者0和255等。可以用0表示人像轮廓区域的像素值,用255表示人像掩膜图中除了人像轮廓区域之外的其他区域的像素值。
本实施例中的图像处理方法,通过获取待处理RGB图像和对应的深度图;将待处理RGB图像和对应的深度图输入已训练的人像分割模型,人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,训练损失代价包括基于修正区域确定的局部损失代价,修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域;根据人像分割模型的输出得到待处理RGB图像对应的人像掩膜图,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
在一个实施例中,局部损失代价是基于修正区域与训练背景区域确定的局部区域对应的损失代价,修正区域是根据训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,根据所述深度阈值从训练深度图中划分得到的区域,所述训练背景区域和所述训练人像区域是根据人像分割模型在训练过程中输出的训练人像掩膜图确定的。
具体地,基于训练人像掩膜图确定训练人像区域,根据训练人像区域的位置从对应的训练深度图上确定对应的目标区域。根据目标区域内的各个像素点的深度值计算得到深度阈值。根据深度阈值从训练深度图中划分得到的区域时,具体的划分方式可自定义,在一个实施例中,获取在训练深度图中深度值小于深度阈值的像素点组成修正区域。
在一个实施例中,可以先根据目标区域内的各个像素点的深度值计算得到平均深度,再获取阈值放大系数,基于阈值放大系数放大平均深度得到深度阈值,如训练人像区域对应于训练深度图上相应区域的平均灰度值G,深度图上灰度值越小代表景深越浅,获取阈值放大系数a,可以取值[1.1,1.2]之间,将aG作为深度阈值。获取在深度图上小于aG上的区域R。R对应的区域通常为包括人像、手持物、遮挡物的区域。
基于修正区域与训练背景区域确定局部区域时,具体的确定算法可自定义,在一个实施例中,基于训练人像掩膜图确定训练背景区域,获取修正区域与训练背景区域之间的重叠区域,将重叠区域作为局部区域。在局部区域上计算训练人像掩膜图和已标注人像掩膜图之间的损失代价,损失代价的计算方式可自定义,如可为局部交叉熵代价。
本实施例中,通过训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,可动态确定合适的深度阈值,从而得到准确的修正区域,根据修正区域与训练背景区域确定局部区域,计算对应的局部损失代价,使得局部损失代价更能表征含有手持物或者遮挡物的,从而引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图。
在一个实施例中,深度图的获取包括以下方式中的至少一种:
方式一:获取双摄像头拍摄得到的第一图像和第二图像,对第一图像和第二图像进行双摄标定得到深度图。
具体地,双摄像头包括第一摄像头和第二摄像头可均为彩色摄像头,通过两个彩色摄像头分别拍摄同一场景得到对应的第一图像和第二图像,通过对第一图像和第二图像进行双摄标定得到深度图。如图3所示,为融合双摄标定深度信息的网络结构示意图,将第一图像和第二图像进行双摄标定得到深度图,进行缩放和归一化,并和缩放和归一化后的待处理RGB图像进行通道拼接,输入人像分割模型,人像分割模型输出人像掩膜图。
方式二:获取单摄景深摄像头拍摄得到的深度图。
方式三:获取ToF摄像头采集得到的深度图。
方式四:获取通过结构光采集得到的深度图。
具体地,通过单摄景深摄像头直接拍摄与待处理RGB图像相同的场景,得到对应的深度图。当电子设备采用TOF(Time of flight,飞行时间测距)深度摄像头采集深度图像时,TOF摄像头通过向被拍摄物体发射近红外光,根据反射的近红外光的时间差或相位差计算得到被拍摄物体的深度信息。还可通过结构光摄像头获取结构光深度图。单摄景深摄像头和结构光摄像头一般用于前摄较多,ToF摄像头用于后摄比较多。如图4所示,为融合单摄景深摄像头、TOF或结构光深度信息的网络结构示意图,通过融合单摄景深摄像头、TOF或结构光得到深度图,进行缩放和归一化,并和缩放和归一化后的待处理RGB图像进行通道拼接,输入人像分割模型,人像分割模型输出人像掩膜图。
方式五:将待处理RGB图像输入单目深度估计网络,单目深度估计网络输出深度图。
具体地,单目深度估计网络是预先通过训练数据对训练RGB图像进行有监督学习后得到的已训练的网络,可以输出待处理RGB图像对应的深度图。其中,训练RGB图像为训练的单目深度估计网络的输入,训练RGB图像对应的深度图作为训练的单目深度估计网络期望输出得到的真实值。单目深度估计网络可采用深度学习类算法得到,例如CNN(Convolutional Neural Networks,卷积神经网络)、U-Net算法、FCN(FullyConvolutional Neural Networks,全卷积神经网络)等。在一个实施例中,单目深度估计网络包括Encoder编码模块和Decoder解码模块,Encoder编码模块采用不限于Mobilenet、Resnet、vgg等backbone实现编码,编码模块即特征提取模块,用于进行特征提取。解码模块用于对图像特征进行处理得到深度图。如图5所示,为融合单目深度估计网络深度信息的网络结构示意图,将RGB图像经过缩放和归一化后,输入encoder-decoder形式的编解码网络,即单目深度估计网络,得到深度图。将得到的深度图进行缩放归一化后,与缩放归一化后的待处理RGB图像通道拼接,作为人像分割网络的输入,得到像分割网络输出的人像掩膜图。
本实施例中,可以采用至少一种方式得到待处理RGB图像对应的深度图,可以理解可以将多种不同方式得到的深度图进行融合得到待处理RGB图像对应的深度图。不同的应用场景可选择不同的方式获取深度图,提高了深度图获取的灵活性与匹配度。
在一个实施例中,步骤202包括:获取双摄像头拍摄得到的第一图像和第二图像,分别对第一图像和第二图像提取特征得到对应的第一特征和第二特征,对第一特征和第二特征进行相关性计算得到相关性结果,将相关性结果输入双目深度估计网络,双目深度估计网络输出深度图。
具体地,双摄像头包括第一摄像头和第二摄像头可均为彩色摄像头,通过两个彩色摄像头分别拍摄同一场景得到对应的第一图像和第二图像。将第一图像和第二图像分别经过若干卷积层提取特征,提取的特征是较抽象的特征,包括但不限于梯度、纹理、颜色等。相关性计算用于计算特征之间的相关度,具体算法可自定义,可采用特征图feature map上对应数值进行点乘的方式计算得到。双目深度估计网络是预先通过训练数据对双摄像头采集得到的训练RGB图像进行有监督学习后得到的已训练的网络,可以输出待处理RGB图像对应的深度图。其中,双摄像头采集得到的第一训练RGB图像和第二训练RGB图像的相关性,作为训练的双目深度估计网络的输入,对应的训练深度图作为训练的双目深度估计网络期望输出得到的真实值。双目深度估计网络可采用深度学习类算法得到,例如CNN(Convolutional Neural Networks,卷积神经网络)、U-Net算法、FCN(FullyConvolutional Neural Networks,全卷积神经网络)等。在一个实施例中,双目深度估计网络包括Encoder编码模块和Decoder解码模块,Encoder编码模块采用不限于Mobilenet、Resnet、vgg等backbone实现编码,编码模块即特征提取模块,用于进行特征提取。解码模块用于对图像特征进行处理得到深度图。如图6所示,为融合双目深度估计网络深度信息的网络结构示意图,从左摄像头获取第一图像,从右摄像头获取第二图像。将第一图像和第二图像分别经过若干卷积层提取特征,将提取的特征进行相关性计算后,输入encoder-decoder形式的编解码网络,即双目深度估计网络后,得到深度图。该编解码网络与上述人像分割网络结构类似,该网络最后输出维度为1*W*H,其中W/H为网络输出宽高,人像分割网络输出维度可为2*W*H,分别代表2个通道的数据,其中一个通道代表背景的置信度值,另一个通道代表人像的置信度值,可根据背景的置信度值或人像的置信度值得到人像掩膜图。
本实施例中,适用于双摄像头采集得到的二个图像通过双目深度估计网络输出深度图的应用场景,无需再通过深度摄像头采集深度图像,节省成本,可通过双目深度估计网络得到精准的深度图。
在一个实施例中,步骤204之前,还包括:分别对待处理RGB图像和对应的深度图进行图像缩放处理调整到预设尺寸;将调整到预设尺寸的待处理RGB图像和对应的深度图进行归一化处理;将归一化处理后的待处理RGB图像和对应的深度图进行图像通道拼接。
具体地,分别对待处理RGB图像和对应的深度图进行图像缩放处理,将图像缩放到人像分割网络所需要的大小,例如但不限于图像大小为800X600。归一化的方式可自定义,如将待处理RGB图像每个像素点RGB三通道的值先减均值,后除以图像中像素值的方差的方式得到归一化后的待处理RGB图像。将深度图上每个像素点的值先减均值,后除以图像中像素值的方差的方式得到归一化后的深度图。将归一化处理后的待处理RGB图像和对应的深度图进行图像通道拼接,通道拼接后图像的长宽不变,通道变成4个通道。
本实施例中,分别对待处理RGB图像和对应的深度图经过图像缩放、归一化和通道拼接后再输入人像分割模型,便于形成符合人像分割模型输入要求的输入数据。
在一个实施例中,步骤206之后,还包括:确定人像掩膜图中的背景区域,基于背景区域在待处理RGB图像中的位置,对待处理RGB图像中的背景区域进行虚化处理,得到目标图像。
具体地,电子设备基于人像掩膜图中每个像素点的像素值,确定人像掩膜图中的背景区域。例如背景区域中的像素值均为0。并基于背景区域在待处理RGB图像中的位置,对待处理RGB图像的背景区域进行虚化处理,得到目标图像。
本实施例,由于人像掩膜图中有效区分了背景区域和包含人像和遮挡物的前景人像区域,那么对待处理RGB图像中的背景区域进行虚化,得到的虚化效果更好。
在一个具体的实施例中,提供一种图像处理方法,具体包括以下过程:
1、获取待处理原始图像和对应的深度图。待处理原始图像不限于是raw图、YUV图、RGB图等,当待处理原始图像不是RGB图时,将待处理原始图像转换为待处理RGB图像。其中深度图可以来自于双摄标定、单摄景深摄像头、TOF、结构光、双目深度估计网络、单目深度估计网络等。
2、将待处理RGB图像和对应的深度图缩放到人像分割网络所需要的大小,并进行归一化。
3、将归一化后的待处理RGB图像和对应的深度图进行通道拼接,输入已训练的人像分割模型,其中人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,训练损失代价包括基于修正区域确定的局部损失代价,修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域。
4、根据人像分割模型的输出得到待处理原始图像对应的人像掩膜图,如图7和图8所示,为一个具体的实施例中,待处理原始图像和对应的人像掩膜图的对比示意图,可见无论是手持物还是遮挡物都能完整的与人像部分一起分割出来。
5、确定人像掩膜图中的背景区域,基于所述背景区域在待处理原始图像中的位置,对待处理原始图像中的背景区域进行虚化处理,得到目标图像。
本实施例中,只需输入待处理原始图像和对应的深度图至人像分割模型,就可得到对应的人像掩膜图,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,把手持物和遮挡物都作为前景来处理,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度,从而提高背景虚化的图像质量。
在一个实施例中,如图9所示,提供了一种人像分割模型的训练方法,包括以下步骤:
步骤302,获取训练RGB图像和对应的训练深度图。
具体地,训练RGB图像和对应的训练深度图可以是训练库中直接获取的训练数据,训练RGB图像也可以是电子设备拍摄的图像,也可以是电子设备本地存储的图像,还可以是从网上下载的图像等不限于此。训练RGB图像可以是raw图(原始图像)、YUV图进行格式转换得到的RGB形式的图像。训练深度图中包含的深度信息表征了训练RGB图像中的各个像素点对应的深度值。
训练RGB图像和对应的训练深度图可以是经过归一化后的图像等。还可以是经过图像缩放后形成的预设尺寸的图像。其中预设尺寸可以自定义,也可以是与人像分割模型匹配的尺寸。
具体地,可以通过深度摄像头或双目摄像头拍摄同一场景得到对应的训练深度图。深度摄像头可为单摄景深摄像头、结构光摄像头或TOF摄像头。深度图可为结构光深度图、TOF深度图和双目深度图中的至少一种。训练深度图还可以是通过双目深度估计网络、单目深度估计网络输出的深度图。
步骤304,将训练RGB图像和对应的训练深度图输入人像分割模型,人像分割模型输出训练人像掩膜图,训练人像掩膜图包括训练背景区域和训练人像区域。
具体地,将训练RGB图像和对应的训练深度图输入包含初始化网络参数的人像分割模型,输出对应的训练人像掩膜图,训练人像掩膜图包括训练背景区域和训练人像区域。
步骤306,根据训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,基于深度阈值从训练深度图中划分得到修正区域。
步骤308,基于修正区域与训练背景区域确定局部区域,基于局部区域计算训练人像掩膜图与标准人像掩膜图之间的局部损失代价。
步骤310,基于局部损失代价计算得到训练损失代价。
其中确定修正区域、局部损失代价、训练损失代价的方法可参考上述实施例中的描述。
步骤312,根据训练损失代价调整人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
具体地,收敛条件可以自定义,可以为调整次数达到预设次数或训练损失代价小于预设损失代价等,通过循环迭代,不断地调整人像分割模型的网络参数,直到人像分割网络收敛到满足需求为止。
本实施例中,通过获取训练RGB图像和对应的训练深度图,将训练RGB图像和对应的训练深度图输入人像分割模型,人像分割模型输出训练人像掩膜图,基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到修正区域,基于修正区域确定局部区域,根据局部区域计算训练人像掩膜图与已标注人像掩膜图之间的局部损失代价,基于局部损失代价计算得到训练损失代价,根据训练损失代价调整人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
在一个实施例中,步骤306包括:基于训练人像掩膜图确定训练人像区域;根据训练人像区域对应于训练深度图上目标区域的深度确定深度阈值;获取在训练深度图中深度值小于深度阈值的像素点组成修正区域。
具体地,基于训练人像掩膜图确定训练人像区域,根据训练人像区域的位置从对应的训练深度图上确定对应的目标区域。根据目标区域内的各个像素点的深度值计算得到深度阈值,深度阈值的具体计算方法可自定义。获取在训练深度图中深度值小于深度阈值的像素点组成修正区域。
本实施例中,通过训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,可动态确定合适的深度阈值,从而得到准确的修正区域。
在一个实施例中,根据训练人像区域对应于训练深度图上目标区域的深度确定深度阈值包括:根据训练人像区域的位置从所述训练深度图上确定对应的目标区域;基于目标区域内的各个像素点的深度值计算得到平均深度;获取阈值放大系数,基于阈值放大系数放大平均深度得到深度阈值。
具体地,训练人像区域对应于训练深度图上相应目标区域的平均灰度值G,深度图上灰度值越小代表景深越浅,获取阈值放大系数a,在一个实施例中,可以取值[1.1,1.2]之间,将aG作为深度阈值,具体的放大算法可自定义,不限于aG这一种放大方式。获取在深度图上小于aG上的区域R。R对应的区域通常为包括人像、手持物、遮挡物的区域。
本实施例中,通过阈值放大系数放大平均深度得到深度阈值,能得到动态自适应变化的深度阈值,便于根据深度阈值自适应的确定对应的修正区域。
在一个实施例中,步骤308中基于修正区域与训练背景区域确定局部区域包括:基于训练人像掩膜图确定训练背景区域;获取修正区域与训练背景区域之间的重叠区域;将重叠区域作为局部区域。
具体地,将修正区域与训练背景区域之间的重叠区域作为局部区域,该区域有较大可能性,存在手持物和遮挡物的漏分割,将此重叠区域作为局部区域,可保证手持物和遮挡物在分割时的完整性。
本实施例中,通过将修正区域与训练背景区域之间的重叠区域作为局部区域,可确定能表征手持物和遮挡物的局部区域,从而得到有效的局部损失代价去调整模型网络参数。
在一个实施例中,步骤310包括:计算训练人像掩膜图与已标注人像掩膜图之间的全局损失代价;将全局损失代价与局部损失代价进行加权得到训练损失代价。
具体地,计算训练人像掩膜图与已标注人像掩膜图之间的全局损失代价,具体的计算方式可自定义,在一个实施例中,计算得到全局损失交叉熵代价L1。局部损失代价也采用交叉熵代价的计算方式,得到对应的局部损失交叉熵代价L2。训练损失代价L=L1+L2,也可以根据实际情况为L1和L2设置相应加权权重,从而得到训练损失代价。
本实施例中,训练损失代价综合考虑了全局损失代价与局部损失代价,使得通过训练损失代价调整模型网络参数时,在全局和局部上都有较好的引导作用,训练得到人像分割精度更高的人像分割模型。
在一个具体的实施例中,如图10所示,提供了一种人像分割模型的训练方法,具体过程如下:
1、在训练过程中,将训练RGB图像和对应的训练深度图进行通道拼接后进行缩放归一化操作,缩放到人像分割模型需要的尺寸,输入人像分割模型。
2、人像分割模型输出训练人像掩膜图,计算训练人像掩膜图与已标注人像掩膜图之间的全局交叉熵代价L1。
3、基于训练人像掩膜图确定训练人像区域,根据训练人像区域的位置从训练深度图上确定对应的目标区域,求取目标区域的平均灰度值G,获取在深度图上小于aG上的区域R,其中a为阈值,通常取值[1.1,1.2]之间。
4、获取修正区域R与训练背景区域之间的重叠区域作为局部区域,计算在局部区域上的训练人像掩膜图与已标注人像掩膜图之间的局部交叉熵代价L2。
5、训练损失代价L=L1+L2,根据总代价L进行循环迭代,并更新参数,调整网络参数,直到人像分割模型收敛到满足需求为止。其中人像分割模型的部署可为如图3、图4、图5、图6所示的任意一种网络架构。如图11所示,分别为深度图,优化前人像分割图和优化后人像分割图,可以看到优化后人像分割图中手持物未出现分割丢失,保留完整,提高了人像分割的精度。
应该理解的是,虽然图2、图9、图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图9、图10中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图12为一个实施例的图像处理装置500的结构框图。如图12所示,一种图像处理装置500,包括:获取模块502、输入模块504、输出模块506,其中:
获取模块502,用于获取待处理RGB图像和对应的深度图。
输入模块504,用于将待处理RGB图像和对应的深度图输入已训练的人像分割模型,人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,训练损失代价包括基于修正区域确定的局部损失代价,修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域。
输出模块506,用于根据人像分割模型的输出得到待处理RGB图像对应的人像分割掩膜图。
本实施中的图像处理装置500,通过获取待处理RGB图像和对应的深度图;将待处理RGB图像和对应的深度图输入已训练的人像分割模型,人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,训练损失代价包括基于修正区域确定的局部损失代价,修正区域是基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到的区域;根据人像分割模型的输出得到待处理RGB图像对应的人像掩膜图,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
在一个实施例中,局部损失代价是基于修正区域与训练背景区域确定的局部区域对应的损失代价,修正区域是根据训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,根据深度阈值从训练深度图中划分得到的区域,训练背景区域和训练人像区域是根据人像分割模型在训练过程中输出的训练人像掩膜图确定的。
本实施中的图像处理装置500,通过训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,可动态确定合适的深度阈值,从而得到准确的修正区域,根据修正区域与训练背景区域确定局部区域,计算对应的局部损失代价,使得局部损失代价更能表征含有手持物或者遮挡物的,从而引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图。
在一个实施例中,获取模块502还用于通过以下方式中的至少一种获取深度图:
获取双摄像头拍摄得到的第一图像和第二图像,对所述第一图像和第二图像进行双摄标定得到所述深度图;
获取单摄景深摄像头拍摄得到的所述深度图;
获取ToF摄像头采集得到的所述深度图;
获取通过结构光采集得到的所述深度图;
将所述待处理RGB图像输入单目深度估计网络,所述单目深度估计网络输出所述深度图。
本实施中的图像处理装置500,可以采用至少一种方式得到待处理RGB图像对应的深度图,可以理解可以将多种不同方式得到的深度图进行融合得到待处理RGB图像对应的深度图。不同的应用场景可选择不同的方式获取深度图,提高了深度图获取的灵活性与匹配度。
在一个实施例中,获取模块502还用于获取双摄像头拍摄得到的第一图像和第二图像;分别对第一图像和第二图像提取特征得到对应的第一特征和第二特征;对第一特征和第二特征进行相关性计算得到相关性结果;将相关性结果输入双目深度估计网络,双目深度估计网络输出深度图。
本实施例中,适用于双摄像头采集得到的二个图像通过双目深度估计网络输出深度图的应用场景,无需再通过深度摄像头采集深度图像,节省成本,可通过双目深度估计网络得到精准的深度图。
在一个实施例中,装置还包括:前处理模块508,用于分别对待处理RGB图像和对应的深度图进行图像缩放处理调整到预设尺寸;将调整到预设尺寸的待处理RGB图像和对应的深度图进行归一化处理;将归一化处理后的待处理RGB图像和对应的深度图进行图像通道拼接。
本实施例中,分别对待处理RGB图像和对应的深度图经过图像缩放、归一化和通道拼接后再输入人像分割模型,便于形成符合人像分割模型输入要求的输入数据。
在一个实施例中,装置还包括:
虚化处理模块,用于确定人像掩膜图中的背景区域;基于背景区域在所述待处理RGB图像中的位置,对待处理RGB图像中的背景区域进行虚化处理,得到目标图像。
本实施例中,由于人像掩膜图中有效区分了背景区域和包含人像和遮挡物的前景人像区域,那么对待处理RGB图像中的背景区域进行虚化,得到的虚化效果更好。
在一个实施例中,如图13所示,提供了一种人像分割模型的训练装置600,包括:
获取模块602,用于获取训练RGB图像和对应的训练深度图。
输入模块604,用于将训练RGB图像和对应的训练深度图输入人像分割模型,人像分割模型输出训练人像掩膜图。
修正区域确定模块606,用于基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到修正区域。
损失代价计算模块608,用于基于修正区域确定局部区域,根据局部区域计算训练人像掩膜图与已标注人像掩膜图之间的局部损失代价,基于局部损失代价计算得到训练损失代价。
人像分割模型确定模块610,用于根据训练损失代价调整人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
本实施例中,通过获取训练RGB图像和对应的训练深度图,将训练RGB图像和对应的训练深度图输入人像分割模型,人像分割模型输出训练人像掩膜图,基于训练人像掩膜图确定深度阈值,根据深度阈值从对应的训练深度图中划分得到修正区域,基于修正区域确定局部区域,根据局部区域计算训练人像掩膜图与已标注人像掩膜图之间的局部损失代价,基于局部损失代价计算得到训练损失代价,根据训练损失代价调整人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型,由于人像分割模型的训练考虑了局部损失代价,局部损失代价中的修正区域往往包括人像区域、手持物和遮挡物,从而使得已训练的人像分割模型在进行人像分割时,深度图通常含有较精确的手持物或者遮挡物信息,可以引导人像分割网络分割出较完整的含有手持物或者遮挡物的人像掩膜图,能避免遮挡物分割空洞或者分割丢失的问题,提升了人像分割的精度。
在一个实施例中,修正区域确定模块606还用于基于训练人像掩膜图确定训练人像区域;根据训练人像区域对应于训练深度图上目标区域的深度确定深度阈值;获取在训练深度图中深度值小于深度阈值的像素点组成修正区域。
本实施例中,通过训练人像区域对应于训练深度图上目标区域的深度确定深度阈值,可动态确定合适的深度阈值,从而得到准确的修正区域。
在一个实施例中,修正区域确定模块606还用于根据训练人像区域的位置从训练深度图上确定对应的目标区域;基于目标区域内的各个像素点的深度值计算得到平均深度;获取阈值放大系数,基于阈值放大系数放大平均深度得到深度阈值。
本实施例中,通过阈值放大系数放大平均深度得到深度阈值,能得到动态自适应变化的深度阈值,便于根据深度阈值自适应的确定对应的修正区域。
在一个实施例中,损失代价计算模块608还用于基于训练人像掩膜图确定训练背景区域;获取修正区域与训练背景区域之间的重叠区域;将重叠区域作为局部区域。
本实施例中,通过将修正区域与训练背景区域之间的重叠区域作为局部区域,可确定能表征手持物和遮挡物的局部区域,从而得到有效的局部损失代价去调整模型网络参数。
在一个实施例中,损失代价计算模块608还用于计算训练人像掩膜图与已标注人像掩膜图之间的全局损失代价;将全局损失代价与局部损失代价进行加权得到训练损失代价。
本实施例中,训练损失代价综合考虑了全局损失代价与局部损失代价,使得通过训练损失代价调整模型网络参数时,在全局和局部上都有较好的引导作用,训练得到人像分割精度更高的人像分割模型。
关于图像处理装置、人像分割模型的训练装置的具体限定可以参见上文中对于图像处理方法、人像分割模型的训练方法的限定,在此不再赘述。上述图像处理装置、人像分割模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图14为一个实施例中电子设备的内部结构示意图。如图14所示,该电子设备包括通过系统总线连接的处理器、存储器。其中,该处理器用于提供计算和控制能力,支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,以用于实现以上各个实施例所提供的图像处理方法或人像分割模型的训练方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该电子设备可以是手机、服务器等。
本申请实施例中提供的图像处理装置、人像分割模型的训练装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时,实现本申请实施例中所描述的图像处理方法或人像分割模型的训练方法。
本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行本申请实施例中所描述的图像处理方法或人像分割模型的训练方法。
一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本申请实施例中所描述的图像处理方法或人像分割模型的训练方法。
本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
获取待处理RGB图像和对应的深度图;
将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;
根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像掩膜图。
2.根据权利要求1所述的方法,其特征在于,所述局部损失代价是基于修正区域与训练背景区域确定的局部区域对应的损失代价,所述修正区域是根据训练人像区域对应于所述训练深度图上目标区域的深度确定深度阈值,根据所述深度阈值从训练深度图中划分得到的区域,所述训练背景区域和所述训练人像区域是根据人像分割模型在训练过程中输出的训练人像掩膜图确定的。
3.根据权利要求1所述的方法,其特征在于,所述深度图的获取包括以下方式中的至少一种:
获取双摄像头拍摄得到的第一图像和第二图像,对所述第一图像和第二图像进行双摄标定得到所述深度图;
获取单摄景深摄像头拍摄得到的所述深度图;
获取ToF摄像头采集得到的所述深度图;
获取通过结构光采集得到的所述深度图;
将所述待处理RGB图像输入单目深度估计网络,所述单目深度估计网络输出所述深度图。
4.根据权利要求1所述的方法,其特征在于,所述获取待处理RGB图像和对应的深度图包括:
获取双摄像头拍摄得到的第一图像和第二图像;
分别对第一图像和第二图像提取特征得到对应的第一特征和第二特征;
对所述第一特征和第二特征进行相关性计算得到相关性结果;
将所述相关性结果输入双目深度估计网络,所述双目深度估计网络输出所述深度图。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型之前,还包括:
分别对所述待处理RGB图像和对应的深度图进行图像缩放处理调整到预设尺寸;
将调整到预设尺寸的待处理RGB图像和对应的深度图进行归一化处理;
将归一化处理后的待处理RGB图像和对应的深度图进行图像通道拼接。
6.根据权利要求1所述的方法,其特征在于,所述根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像分割掩膜图之后,还包括:
确定所述人像掩膜图中的背景区域;
基于所述背景区域在所述待处理RGB图像中的位置,对所述待处理RGB图像中的背景区域进行虚化处理,得到目标图像。
7.一种人像分割模型的训练方法,其特征在于,包括:
获取训练RGB图像和对应的训练深度图;
将所述训练RGB图像和对应的训练深度图输入人像分割模型,所述人像分割模型输出训练人像掩膜图;
基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到修正区域;
基于所述修正区域确定局部区域,根据所述局部区域计算所述训练人像掩膜图与已标注人像掩膜图之间的局部损失代价;
基于所述局部损失代价计算得到训练损失代价;
根据所述训练损失代价调整所述人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从所述训练深度图中划分得到修正区域包括:
基于所述训练人像掩膜图确定训练人像区域;
根据训练人像区域对应于所述训练深度图上目标区域的深度确定所述深度阈值;
获取在所述训练深度图中深度值小于所述深度阈值的像素点组成所述修正区域。
9.根据权利要求8所述的方法,其特征在于,所述根据训练人像区域对应于所述训练深度图上目标区域的深度确定深度阈值包括:
根据训练人像区域的位置从所述训练深度图上确定对应的目标区域;
基于所述目标区域内的各个像素点的深度值计算得到平均深度;
获取阈值放大系数,基于所述阈值放大系数放大所述平均深度得到所述深度阈值。
10.根据权利要求7所述的方法,其特征在于,所述基于所述修正区域与训练背景区域确定局部区域包括:
基于所述训练人像掩膜图确定训练背景区域;
获取所述修正区域与所述训练背景区域之间的重叠区域;
将所述重叠区域作为所述局部区域。
11.根据权利要求7所述的方法,其特征在于,所述基于所述局部损失代价计算得到训练损失代价包括:
计算所述训练人像掩膜图与已标注人像掩膜图之间的全局损失代价;
将所述全局损失代价与所述局部损失代价进行加权得到所述训练损失代价。
12.一种图像处理装置,其特征在于,包括:
获取模块,用于获取待处理RGB图像和对应的深度图;
输入模块,用于将所述待处理RGB图像和对应的深度图输入已训练的人像分割模型,所述人像分割模型是预先通过训练RGB图像、对应的训练深度图和已标注人像掩膜图,基于训练损失代价训练得到的,所述训练损失代价包括基于修正区域确定的局部损失代价,所述修正区域是基于训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到的区域;
输出模块,用于根据所述人像分割模型的输出得到所述待处理RGB图像对应的人像分割掩膜图。
13.一种人像分割模型的训练装置,其特征在于,包括:
获取模块,用于获取训练RGB图像和对应的训练深度图;
输入模块,用于将所述训练RGB图像和对应的训练深度图输入人像分割模型,所述人像分割模型输出训练人像掩膜图;
修正区域确定模块,用于基于所述训练人像掩膜图确定深度阈值,根据所述深度阈值从对应的训练深度图中划分得到修正区域;
训练损失代价确定模块,用于基于所述修正区域确定局部区域,根据所述局部区域计算所述训练人像掩膜图与已标注人像掩膜图之间的局部损失代价,基于所述局部损失代价计算得到训练损失代价;
人像分割模型确定模块,用于根据所述训练损失代价调整所述人像分割模型的网络参数直到满足收敛条件,得到已训练的人像分割模型。
14.一种电子设备,包括存储器以及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011204340.8A CN112258528B (zh) | 2020-11-02 | 2020-11-02 | 图像处理方法和装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011204340.8A CN112258528B (zh) | 2020-11-02 | 2020-11-02 | 图像处理方法和装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112258528A true CN112258528A (zh) | 2021-01-22 |
CN112258528B CN112258528B (zh) | 2024-05-14 |
Family
ID=74268468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011204340.8A Active CN112258528B (zh) | 2020-11-02 | 2020-11-02 | 图像处理方法和装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112258528B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967301A (zh) * | 2021-04-08 | 2021-06-15 | 北京华捷艾米科技有限公司 | 自拍图像抠图方法及装置 |
CN113066115A (zh) * | 2021-04-28 | 2021-07-02 | 北京的卢深视科技有限公司 | 深度预测网络训练方法、装置、服务器和可读存储介质 |
CN113313646A (zh) * | 2021-05-27 | 2021-08-27 | Oppo广东移动通信有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
CN113449623A (zh) * | 2021-06-21 | 2021-09-28 | 浙江康旭科技有限公司 | 一种基于深度学习的轻型活体检测方法 |
CN113538467A (zh) * | 2021-08-09 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 图像分割方法和装置及图像分割模型的训练方法和装置 |
CN113591823A (zh) * | 2021-10-08 | 2021-11-02 | 北京的卢深视科技有限公司 | 深度预测模型的训练及人脸深度图像的生成方法、装置 |
CN113744167A (zh) * | 2021-09-02 | 2021-12-03 | 厦门美图之家科技有限公司 | 一种图像数据转换方法及装置 |
CN113781500A (zh) * | 2021-09-10 | 2021-12-10 | 中国科学院自动化研究所 | 舱段图像实例分割的方法、装置、电子设备及存储介质 |
CN113824877A (zh) * | 2021-08-19 | 2021-12-21 | 惠州Tcl云创科技有限公司 | 一种全景深图像合成方法、存储介质及智能手机 |
CN114066985A (zh) * | 2022-01-11 | 2022-02-18 | 深圳金三立视频科技股份有限公司 | 一种输电线隐患距离的计算方法及终端 |
CN114245011A (zh) * | 2021-12-10 | 2022-03-25 | 荣耀终端有限公司 | 图像处理方法、用户界面及电子设备 |
CN114782460A (zh) * | 2022-06-21 | 2022-07-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分割模型的生成方法及图像的分割方法、计算机设备 |
CN118052861A (zh) * | 2024-02-20 | 2024-05-17 | 上海赫立智能机器有限公司 | 零平面获取方法、系统、介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
CN109816011A (zh) * | 2019-01-21 | 2019-05-28 | 厦门美图之家科技有限公司 | 生成人像分割模型的方法和视频关键帧提取方法 |
CN110473185A (zh) * | 2019-08-07 | 2019-11-19 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN110992411A (zh) * | 2019-12-04 | 2020-04-10 | 图玛深维医疗科技(北京)有限公司 | 图像配准模型的训练方法和装置 |
CN111160350A (zh) * | 2019-12-23 | 2020-05-15 | Oppo广东移动通信有限公司 | 人像分割方法、模型训练方法、装置、介质及电子设备 |
US20200175700A1 (en) * | 2018-11-29 | 2020-06-04 | Adobe Inc. | Joint Training Technique for Depth Map Generation |
-
2020
- 2020-11-02 CN CN202011204340.8A patent/CN112258528B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106530305A (zh) * | 2016-09-23 | 2017-03-22 | 北京市商汤科技开发有限公司 | 语义分割模型训练和图像分割方法及装置、计算设备 |
US20200175700A1 (en) * | 2018-11-29 | 2020-06-04 | Adobe Inc. | Joint Training Technique for Depth Map Generation |
CN109816011A (zh) * | 2019-01-21 | 2019-05-28 | 厦门美图之家科技有限公司 | 生成人像分割模型的方法和视频关键帧提取方法 |
CN110473185A (zh) * | 2019-08-07 | 2019-11-19 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN110992411A (zh) * | 2019-12-04 | 2020-04-10 | 图玛深维医疗科技(北京)有限公司 | 图像配准模型的训练方法和装置 |
CN111160350A (zh) * | 2019-12-23 | 2020-05-15 | Oppo广东移动通信有限公司 | 人像分割方法、模型训练方法、装置、介质及电子设备 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967301A (zh) * | 2021-04-08 | 2021-06-15 | 北京华捷艾米科技有限公司 | 自拍图像抠图方法及装置 |
CN113066115A (zh) * | 2021-04-28 | 2021-07-02 | 北京的卢深视科技有限公司 | 深度预测网络训练方法、装置、服务器和可读存储介质 |
CN113313646B (zh) * | 2021-05-27 | 2024-04-16 | Oppo广东移动通信有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
CN113313646A (zh) * | 2021-05-27 | 2021-08-27 | Oppo广东移动通信有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
CN113449623A (zh) * | 2021-06-21 | 2021-09-28 | 浙江康旭科技有限公司 | 一种基于深度学习的轻型活体检测方法 |
CN113449623B (zh) * | 2021-06-21 | 2022-06-28 | 浙江康旭科技有限公司 | 一种基于深度学习的轻型活体检测方法 |
CN113538467A (zh) * | 2021-08-09 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 图像分割方法和装置及图像分割模型的训练方法和装置 |
WO2023020190A1 (zh) * | 2021-08-19 | 2023-02-23 | 惠州Tcl云创科技有限公司 | 一种全景深图像合成方法、存储介质及智能手机 |
CN113824877A (zh) * | 2021-08-19 | 2021-12-21 | 惠州Tcl云创科技有限公司 | 一种全景深图像合成方法、存储介质及智能手机 |
CN113744167A (zh) * | 2021-09-02 | 2021-12-03 | 厦门美图之家科技有限公司 | 一种图像数据转换方法及装置 |
CN113744167B (zh) * | 2021-09-02 | 2024-04-30 | 厦门美图之家科技有限公司 | 一种图像数据转换方法及装置 |
CN113781500A (zh) * | 2021-09-10 | 2021-12-10 | 中国科学院自动化研究所 | 舱段图像实例分割的方法、装置、电子设备及存储介质 |
CN113781500B (zh) * | 2021-09-10 | 2024-04-05 | 中国科学院自动化研究所 | 舱段图像实例分割的方法、装置、电子设备及存储介质 |
CN113591823A (zh) * | 2021-10-08 | 2021-11-02 | 北京的卢深视科技有限公司 | 深度预测模型的训练及人脸深度图像的生成方法、装置 |
CN114245011B (zh) * | 2021-12-10 | 2022-11-08 | 荣耀终端有限公司 | 图像处理方法、用户界面及电子设备 |
CN114245011A (zh) * | 2021-12-10 | 2022-03-25 | 荣耀终端有限公司 | 图像处理方法、用户界面及电子设备 |
CN114066985A (zh) * | 2022-01-11 | 2022-02-18 | 深圳金三立视频科技股份有限公司 | 一种输电线隐患距离的计算方法及终端 |
CN114782460A (zh) * | 2022-06-21 | 2022-07-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分割模型的生成方法及图像的分割方法、计算机设备 |
CN118052861A (zh) * | 2024-02-20 | 2024-05-17 | 上海赫立智能机器有限公司 | 零平面获取方法、系统、介质及电子设备 |
CN118052861B (zh) * | 2024-02-20 | 2024-08-09 | 上海赫立智能机器有限公司 | 零平面获取方法、系统、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112258528B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112258528B (zh) | 图像处理方法和装置、电子设备 | |
US11526995B2 (en) | Robust use of semantic segmentation for depth and disparity estimation | |
EP3327668B1 (en) | Image-processing device and method for foreground mask correction for object segmentation | |
CN109344742B (zh) | 特征点定位方法、装置、存储介质和计算机设备 | |
CN111629262B (zh) | 视频图像处理方法和装置、电子设备及存储介质 | |
CN107209931B (zh) | 颜色校正装置和方法 | |
CN111028137A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN110191287B (zh) | 对焦方法和装置、电子设备、计算机可读存储介质 | |
CN112215877B (zh) | 图像处理方法和装置、电子设备、可读存储介质 | |
CN108564620B (zh) | 一种针对光场阵列相机的场景深度估计方法 | |
US10785466B2 (en) | Multi-image color-refinement with application to disparity estimation | |
CN112272832A (zh) | 用于基于dnn的成像的方法和系统 | |
CN111753882A (zh) | 图像识别网络的训练方法和装置、电子设备 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
WO2022194079A1 (zh) | 天空区域分割方法、装置、计算机设备和存储介质 | |
CN114049269A (zh) | 图像校正方法和装置、电子设备 | |
CN115471413A (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN102223545B (zh) | 一种快速多视点视频颜色校正方法 | |
CN113160297B (zh) | 图像深度估计方法和装置、电子设备、计算机可读存储介质 | |
CN111160240B (zh) | 图像对象的识别处理方法、装置及智能设备、存储介质 | |
CN111754521A (zh) | 图像处理方法和装置、电子设备及存储介质 | |
CN113674169A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN115375592A (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN114926876A (zh) | 图像关键点检测方法、装置、计算机设备和存储介质 | |
CN114358131A (zh) | 数码相框智能照片优化处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |