CN114782460A - 图像分割模型的生成方法及图像的分割方法、计算机设备 - Google Patents
图像分割模型的生成方法及图像的分割方法、计算机设备 Download PDFInfo
- Publication number
- CN114782460A CN114782460A CN202210701845.8A CN202210701845A CN114782460A CN 114782460 A CN114782460 A CN 114782460A CN 202210701845 A CN202210701845 A CN 202210701845A CN 114782460 A CN114782460 A CN 114782460A
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- foreground
- target
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 136
- 238000003709 image segmentation Methods 0.000 title claims abstract description 114
- 238000012549 training Methods 0.000 claims abstract description 245
- 230000011218 segmentation Effects 0.000 claims abstract description 80
- 238000003062 neural network model Methods 0.000 claims abstract description 54
- 230000000694 effects Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 62
- 238000007500 overflow downdraw method Methods 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 24
- 239000002131 composite material Substances 0.000 claims description 11
- 230000003190 augmentative effect Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 8
- 238000005286 illumination Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 28
- 238000003860 storage Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 17
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005266 casting Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004033 plastic Substances 0.000 description 3
- 229920003023 plastic Polymers 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011796 hollow space material Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分割模型的生成方法及图像的分割方法、计算机设备。其中,该方法包括:获取训练数据集;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜;根据第一目标模型和第二目标模型,生成图像分割模型。本申请解决了利用现有的图像分割算法对图像进行分割处理,分割效果较差的技术问题。
Description
技术领域
本申请涉及图像分割领域,具体而言,涉及一种图像分割模型的生成方法及图像的分割方法、计算机设备。
背景技术
图像分割算法,可以通俗得理解成抠图算法,它是对图像内容进行语义分析,并提取目标对象的一种算法。图像分割算法的任务是对图像内容进行语义分析并提取目标对象,是图片美化、海报制作、影视特效等流程的基础操作,可广泛应用于影视后期制作、电子商务的线上静态及动态广告自动生成、视觉智能平台的图像分割服务中,在互动娱乐(如直播、美颜应用程序)、影视后期、摄影修图、电子商务等行业领域有着极强的 AI赋能角色。而在绿幕场景中,对绿幕视频进行分割可以将视频中的绿幕背景去除,自动完成前景主体与绿幕背景的分割,为之后的互动娱乐,如直播场景、影视后期场景等进行AI赋能,节约大量的人工抠图成本。
传统的图像分割算法,难以达到很好的效果,需要持续不断的优化。另一方面,传统的图像分割算法也有其自身的问题,具体表现在以下方面:
1)假设输入的是分辨率很大的高清绿幕图片,传统的图像分割算法分割出来的效果在边缘存在锯齿且边缘粗糙。
2)带有复杂光影效果的物体(如玻璃、塑料、薄纱类)广泛存在于现实世界,如果用传统的图像分割算法处理,则分割结果不能表达“透明”这种信息, 则抠图的结果可能会将物体后面的背景一并抠出来。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种图像分割模型的生成方法及图像的分割方法、计算机设备,以至少解决利用现有的图像分割算法对图像进行分割处理,分割效果较差的技术问题。
根据本申请实施例的一个方面,提供了一种图像分割模型的生成方法,包括:获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;根据第一目标模型和第二目标模型,生成图像分割模型。
根据本申请实施例的另一方面,还提供了一种图像的分割方法,包括:获取待处理图像;将待处理图像输入至预先训练好的第一图像分割模型进行处理,得到待处理图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与待处理图像尺寸大小相同的图像;将待处理图像和第一掩膜拼接,得到拼接图像;将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到待处理图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
根据本申请实施例的另一方面,还提供了一种图像的分割方法,包括:获取虚拟现实VR设备或增强现实AR设备采集的目标图像;将目标图像输入至预先训练好的第一图像分割模型进行处理,得到目标图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与目标图像尺寸大小相同的图像;将目标图像和第一掩膜拼接,得到拼接图像;将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到目标图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;对目标图像对应的分割图像进行渲染,并驱动VR设备或AR设备展示渲染后的分割图像。
根据本申请实施例的另一方面,还提供了一种图像分割模型的生成方法,包括:获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集中的图像以及合成图像的背景图像输入至编码器,提取第一特征数据;并将第一特征数据及合成图像的背景图像输入至解码器,提取第二特征数据;将第二特征数据输入至第三神经网络模型进行训练,得到第三目标模型,并确定采用第三目标模型对第二特征数据进行预测得到的第三前景图像和第三掩膜,其中,第三掩膜是与训练数据集中的图像尺寸大小相同的图像;将第三前景图像、第三掩膜、第二特征数据以及合成图像的背景图像输入至第四神经网络模型进行训练,生成图像分割模型,并确定图像分割模型输出的第四前景图像和第四掩膜,其中,第四前景图像和第四掩膜的分辨率分别高于第三前景图像和第三掩膜的分辨率。
根据本申请实施例的另一方面,还提供了一种图像的分割方法,包括:获取待处理图像;将待处理图像以及待处理图像的背景图像输入至编码器,提取第一特征数据;并将第一特征数据及待处理图像的背景图像输入至解码器,提取第二特征数据;将第二特征数据输入至预先训练好的第三图像分割模型进行处理,得到待处理图像对应的第三前景图像和第三掩膜,其中,第三掩膜是与待处理图像尺寸大小相同的图像;将第三前景图像、第三掩膜、第二特征数据以及待处理图像的背景图像输入至预先训练好的第四图像分割模型进行处理,得到待处理图像对应的分割图像,其中,分割图像包括:第四前景图像和第四掩膜,第四前景图像和第四掩膜的分辨率分别高于第三前景图像和第三掩膜的分辨率。
根据本申请实施例的另一方面,还提供了一种图像的分割方法,包括:获取虚拟现实VR设备或增强现实AR设备采集的目标图像;将目标以及目标图像的背景图像输入至编码器,提取第一特征数据;并将第一特征数据及目标图像的背景图像输入至解码器,提取第二特征数据;将第二特征数据输入至预先训练好的第三图像分割模型进行处理,得到目标图像对应的第三前景图像和第三掩膜,其中,第三掩膜是与目标图像尺寸大小相同的图像;将第三前景图像、第三掩膜、第二特征数据以及目标图像的背景图像输入至预先训练好的第四图像分割模型进行处理,得到目标图像对应的分割图像,其中,分割图像包括:第四前景图像和第四掩膜,第四前景图像和第四掩膜的分辨率分别高于第三前景图像和第三掩膜的分辨率;对目标图像对应的分割图像进行渲染,并驱动VR设备或AR设备展示渲染后的分割图像。
根据本申请实施例的再一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行以上的图像分割模型的生成方法以及以上的图像的分割方法。
根据本申请实施例的再一方面,还提供了一种计算机设备,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;根据第一目标模型和第二目标模型,生成图像分割模型。
在本申请实施例中,采用获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;根据第一目标模型和第二目标模型,生成图像分割模型的方式,通过针对绿幕场景下的精细化分割,提出了一种从数据生成到总体架构的解决方案,从而实现了对图像进行精细化分割,为基于此结果的其他上层应用提供了更多的可能性和灵活性的技术效果,进而解决了利用现有的图像分割算法对图像进行分割处理,分割效果较差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了一种用于实现图像分割模型的生成方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种图像分割模型的生成方法的流程图;
图3是根据本申请实施例的一种合成训练数据的示意图;
图4是根据本申请实施例的一种模拟前景物体投射阴影的示意图;
图5是根据本申请实施例的一种图像分割模型训练方法的示意图;
图6是根据本申请实施例的一种从掩膜得到对应的边缘区域的示意图;
图7是根据本申请实施例的一种图像分割模型训练方法的示意图;
图8是根据本申请实施例的一种图像的分割方法的流程图;
图9是根据本申请实施例的另一种图像的分割方法的流程图;
图10是根据本申请实施例的一种图像分割模型的生成装置的结构框图;
图11是根据本申请实施例的一种计算机终端的结构框图;
图12是根据本申请实施例的一种图像分割模型的生成方法的流程图;
图13是根据本申请实施例的一种图像分割模型训练方法的示意图;
图14是根据本申请实施例的一种图像的分割方法的流程图;
图15是根据本申请实施例的一种图像的分割方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
阿尔法通道(α Channel或Alpha Channel): 是指一张图片的透明和半透明度。
掩膜:与原图大小相同的图像,标记了每个像素属于前景或背景的概率。
精细分割:精细分割出目标区域,包括细小边缘,如发丝。
编码-解码网络:深度学习中常见的一个模型框架,模型可以采用CNN,RNN,BiRNN、LSTM、GRU等等。编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。
编码,就是将输入序列转化成一个固定长度的向量。
解码,就是将之前生成的固定向量再转化成输出序列。
相关技术中提到的传统的绿幕去除算法,比如green despill算法,可能会将画面上的黄色部分当成绿色部分去除,也对带有噪声的图片泛化性不够,绿幕分割的结果可能会有噪声。
相关技术中的一些其他图像分割算法的语义分割流程为:输入三通道图片到一个网络模型中,输出主体的掩膜。该流程使用到的原始图片信息较少,输出的结果在多分辨率尺度效果较差,模型泛化能力弱。经典的方式有Superpixel和Graphcut等方法。近年来随着深度学习的兴起,主流的分割算法都采用深度网络学习的方式来处理,本质上是一种基于深度学习的稠密预测问题,主流的网络有FCN、UNet、PSP、DeepLab系列、HrNet系列等网络结构。
全卷积神经网络(FCN):FCN神经网络作经典语义分割网络,它借鉴了传统的分类网络结构,而又区别于传统的分类网络,将传统分类网络的全连接层转化为卷积层。然后通过反卷积(deconvolution)进行上采样,逐步恢复图像的细节信息并扩大特征图的尺寸。在恢复图像的细节信息过程中,FCN一方面通过可以学习的反卷积来实现,另一方面,采用了跳跃连接(skip-connection)的方式,将下采样过程中得到的特征信息与上采样过程中对应的特征图相融合。DeepLab系列(deeplabv1~V3+):这一系列的语义分割网络模型是一个不断进化改进的过程。 deeplabv1采用了空洞卷积和CRF的处理,利用空洞卷积在不增加参数的情况下扩大了感受野的范围。而CRF的后期处理可以更好的提升语义分割的准确率。deeplabv2在v1的基础之上增加了ASPP(空洞空间金字塔池化)模块。其他不再赘述。
但是普通的图像分割算法,在高分辨率图片下的复杂背景/边缘细节处精细化分割表现不好,对带有复杂光影效果的物体(如玻璃、塑料、薄纱类)的分割效果不好。
为解决相关技术提出的技术问题及上述现有图像分割算法的不足,本申请针对绿幕场景下的精细化分割,提出了从数据生成到总体架构的解决方案,最终得到精细化绿幕视频分割结果。本申请提供的技术方案共分为三部分,第一部分提出了针对绿幕精细化分割的数据合成方案,第二部分提出了针对绿幕精细化分割的数据增强方法,第三部分提出了总体架构。下面结合具体实施例对本申请提供的技术方案进行详细说明。
实施例1
根据本申请实施例,还提供了一种图像分割模型的生成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像分割模型的生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的图像分割模型的生成方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像分割模型的生成方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
图2是根据本申请实施例的一种图像分割模型的生成方法的流程图,如图2所示,该方法包括以下步骤:
步骤S202,获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体。
根据本申请的一个可选的实施例,上述前景图像中的前景物体包括各个类别,例如,人体,商品等。背景图像可以是绿幕背景图片。
步骤S204,将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像。
步骤S206,将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
本申请实施例采用两个阶段的训练过程。第一阶段是先设计粗糙的(coarse)模型,对输入的图片进行小分辨率掩膜(mask)预测。第二阶段是设计精细的(refine)模型,将输入图片和第一阶段预测得到的小分辨率mask拼接到一起,输入到refine模型中,得到最终的高分辨精细化mask。
步骤S208,根据第一目标模型和第二目标模型,生成图像分割模型。
作为一个可选的实施例,执行步骤S208时,将第一目标模型和第二目标模型进行拼接,生成最终的图像分割模型。
通过上述方法,通过针对绿幕场景下的精细化分割,提出了一种从数据生成到总体架构的解决方案,从而实现了对图像进行精细化分割,为基于此结果的其他上层应用提供了更多的可能性和灵活性的技术效果。
根据本申请的一个可选的实施例,步骤S202中的训练数据集中的图像是前景图像、前景图像对应的掩膜和背景图像按照第一预设公式合成得到的。
目前并没有针对绿幕精细化分割场景的公开数据集,因此需要合成训练数据。而在合成过程中,需要采取一些策略来提升绿幕分割的精确度。图3是根据本申请实施例的一种合成训练数据的示意图,如图3所示,首先获得带有透明通道(即Alpha Channel,或写为α,也可以用mask掩膜来表示)的各类前景物体图片F(包括各个类别,比如人体,商品等),以及大量的绿幕背景图片B,通过公式:C = mask * F + (1 - mask) * B 合成最终图片,组成训练图片集合。
作为一个可选的实施例,前景物体获取方法如下:要做精细化分割,首要的步骤就是精细化的标注数据。但由于现实的原因,精细化标注的数据一般都非常难得到。因此,考虑到标注成本和数据量,采用两个阶段的训练过程。第一阶段是先设计粗糙的(coarse) 模型,对输入的图片进行小分辨率掩膜(mask)预测。第二阶段是设计精细的(refine )模型,将输入图片和第一阶段预测得到的小分辨率mask拼接到一起,输入到refine模型中,得到最终的高分辨精细化mask。
对于第一阶段的模型而言,不需要标注的特别精细的前景物体图片,只需要收集粗标注的前景数据。此阶段获取前景数据的渠道主要有:公开的粗标注数据集,第三方标注公司的粗标注数据集。这部分可以获得数量级以万为单位的前景图片集合,每张前景图片可以随机挑选十张左右的绿幕背景图片进行合成,通过排列组合得到几十万张训练数据。
对于第二阶段的模型而言,需要获得精细标注的高分辨率数据,数量较第一阶段可以少很多,大概在千级别。此阶段获取数据的渠道主要有以下几种:公开的精细标注数据集,第三方标注公司的精标注。综合时间和成本的考虑(一张精标注数据要10元左右的成本),最终选择公开数据集的精标注数据,比如各种image matting各种论文提出的数据集,例如,deep image matting中提出的数据集,以及通过电商采购带有透明通道的图片等。
绿幕背景获取方法如下:通过爬虫获得大量的真实绿幕图片,并且通过人工标注将其中绿幕部分抠出来作为绿幕背景,这种标注只需要标出框即可,非常简单。包括各种各样绿色的绿幕,以及各种形态的绿幕,比如平铺的绿幕,以及堆积了褶皱的绿幕等。
通过上述数据合成方案,解决了目前没有针对绿幕精细化分割场景的公开数据集的问题。而且在合成过程中,提出了一些数据合成策略来提升绿幕分割的精确度。包括针对两个阶段特性设计的不同的前景物体获取方法,以及绿幕背景获取方法。
根据本申请的另一个可选的实施例,由前景图像和背景图像合成得到训练数据集中的图像之前,按照以下至少之一方式对前景图像和背景图像进行数据增强处理:在背景图像上模拟照射平行光源和点状光源;模拟前景物体在背景图像上投射的阴影。
除了使用各种较为常规的数据增强手段:比如随机裁剪,缩放图片,翻转图片,在颜色空间,对比度,亮度上的各种变化扰动,色彩均衡,以及加入各种噪声等策略之外,本申请提出了以下两种数据增强策略。
为了解决不同光照打在绿幕上,形成光斑,或者在绿幕的不同位置形成不一样的光照情况的问题,额外采取了数据增强手段,在绿幕背景上做光照增强,模拟平行光和点状光源。
为了解决前述的前景物体或者人体投射在绿幕上的阴影的问题,采用一些手段模拟前景物体投射在绿幕上的阴影,拟合了阴影的不同投射方向,以及阴影的颜色深浅等。图4是根据本申请实施例的一种模拟前景物体投射阴影的示意图。
作为一个可选的实施例, 利用训练数据集对第一神经网络模型进行训练的过程中,在训练数据集包括的图像中添加除前景物体以外的目标前景物体。
在本步骤中,使用动态贴图方式,在训练过程中动态造出一些训练图片。简单的说,就是在当前训练图片上,根据已有的前景物体的布局,在已有的前景物体之外,粘贴其他更多的前景物体。
在本申请的一些可选的实施例中,在训练数据集包括的图像中添加除前景物体以外的目标前景物体,通过以下方法实现:确定承载目标前景物体的贴图的贴图信息,其中,贴图信息包括:贴图数量以及贴图尺寸;根据贴图信息确定贴图在图像中位置信息;按照位置信息将贴图添加在图像中。
在当前训练图片上,在已有的前景物体之外,粘贴其他更多的前景物体的过程中需要考虑布局问题,主要是根据贴图数量,位置,尺寸来确定各个前景物体的贴图位置。
可以理解的是,上述贴图即在训练图片上粘贴的前景物体的图片。
在本申请的另一些可选的实施例中,在训练数据集包括的图像中添加除前景物体以外的目标前景物体,还可以通过以下方法实现:分别采用多种图像融合方法将贴图添加在图像中;确定按照各种图像融合方法将贴图添加在图像中对应的融合指标,其中,融合指标用于表征贴图与图像的融合效果;比较各种图像融合方法对应的融合指标,依据比较结果从多种图像融合方法确定目标图像融合方法;利用目标图像融合方法将贴图添加在图像中。
在本申请提供的实施例中,比较泊松融合,金字塔融合,加权融合等方法,最后确定用加权融合(即上述目标图像融合方法)的方法将贴图添加在图像中。泊松融合,金字塔融合,加权融合是三种不同的图像融合方法,在本申请提供的实施例中,分别利用这三种图像融合方法将贴图添加在图像中,并确定各图像融合方法对应的融合指标,通过比对融合指标,从而确定一种融合效果较好图像融合方法作为上述目标图像融合方法。
融合指标包括但不限于信息熵、标准差、对比度、空间频率以及平均梯度等指标。例如,信息熵的熵值大小反应其包含信息量的多少,熵值越大,说明图像融合效果越好。平均梯度可灵敏地反应图像对微小细节反差表达的水平,用于评价图像的模糊程度,平均梯度值与图像清晰程度成正比。空间频率反映图像在在空间域的整体活跃程度,空间频率大小与图像融合效果成正比。
作为一个可选的实施例,在所述训练数据集包括的图像中添加除所述前景物体以外的目标前景物体之前,还需要确定所述训练数据集包括的图像的亮度和饱和度;分别根据图像的亮度和饱和度设置贴图的亮度和饱和度。
在当前训练图片上,在已有的前景物体之外,粘贴其他更多的前景物体的过程中还需要考虑真实和多样性问题,为了模拟真实拍摄效果,需要保证贴上去的前景物体和原图的融合效果,比如在亮度和饱和度上尽量保证贴图和原图保持一致。
根据本申请的一个可选的实施例,执行步骤S204将训练数据集输入至第一神经网络模型进行训练,包括以下步骤:对训练数据集中的图像进行尺度缩放处理,得到第一目标图像;去除图像中背景图像,得到第二目标图像;将第一目标图像和第二目标图像输入至第一神经网络模型进行训练,得到第一前景图像和第一掩膜。
如前所述,本申请实施例采用两个阶段的训练过程。第一阶段是先设计coarse模型,对输入的图片进行小分辨率mask预测。第二阶段是设计refine模型,再将输入图片和第一阶段预测得到的小分辨率mask拼接到一起,输入到refine模型中,得到最终的高分辨精细化mask。整体流程如图5所示:
通过前述的数据合成方法,利用收集到的粗标注前景数据和绿幕背景数据,合成大约万量级的训练数据,通过前述的数据增强策略以及在线合成数据策略,形成最终的训练集数据。
进一步的,即用前景图片F和绿幕背景B,以及前景图片对应的透明通道mask,通过公式C = mask * F + (1 - mask) * B得到合成图片C。将合成图片C做尺度缩放,缩放成低尺寸图片C_resize。除此之外,会对低尺寸图片C_resize做green despill操作,得到去除绿色背景的粗略结果,作为先验信息,与图片C_resize一并输入coarse模型,分别得到重建的低分辨率的前景结果F1,和预测的低分辨率的mask1掩膜结果。这个阶段分别对F1和mask1做有监督的损失函数计算,可以利用l1、bce等损失函数进行计算。
根据本申请的另一个可选的实施例,得到第一前景图像和第一掩膜之后, 将第一掩膜、第一前景图像以及背景图像按照第二预设公式进行合成,得到第一合成图像;利用预设损失函数对第一合成图像和第一目标图像进行计算。
在本实施例中,利用合成公式,用预测出来的F1和mask1以及相应的绿幕背景B,合成图片C_resize1, C_resize1 = mask1 * F1 + (1-mask1) * B,再对C_resize和C_resize1做有监督的损失函数计算。
在本申请的一些可选的实施例中,执行步骤S206将训练数据集中的图像与第一掩膜拼接,得到拼接图像,通过以下方法实现:对第一掩膜进行上采样,直至第一掩膜与训练数据集中的图像的尺寸大小相同;将上采样后的第一掩膜、第二目标图像与训练数据集中的图像拼接,得到拼接图像。
根据本申请的一个可选的实施例,得到第二前景图像和第二掩膜之后,根据第二掩膜、第二前景图像以及背景图像按照第三预设公式进行合成,得到第二合成图像;利用预设损失函数对第二合成图像和训练数据集中的图像进行计算。
参见图5,将第一阶段预测得到的低分辨率的mask1掩膜结果上采样至合成图片C的尺寸,再与合成图片C连接到一起,输入精细化网络,得到最终的高分辨率重建前景F2和高分辨率的mask2掩膜结果。这个阶段也分别对F2和mask2做有监督的损失函数计算。然后利用预测出来的F2和mask2以及相应的绿幕背景B,合成图片C2, C2 = mask2* F2 + (1-mask2)B。再对C''和C做有监督的损失函数计算。
根据本申请的一个可选的实施例,利用预设损失函数对第二合成图像和训练数据集中的图像进行计算之前,确定第二前景图像和第二掩膜的边缘区域;增加第二前景图像和第二掩膜的边缘区域对应的权重,其中,权重为在利用预设损失函数对第二合成图像和训练数据集中的图像进行计算的过程中,第二前景图像和第二掩膜的边缘区域所占的权重。
图6是根据本申请实施例的一种从掩膜得到对应的边缘区域的示意图,如图6所示,可以针对边缘区域做权重增强。具体的做法是合成图片的mask通过腐蚀膨胀等方法得到边缘区域,增加F2和mask2边缘区域的loss权重。
在本申请的一个可选的实施例中,确定目标帧图像,其中,目标帧图像与训练数据集中的图像位于同一个视频序列中,与训练数据集中的图像存在位移差异,且在视频序列中的位置位于训练数据集中的图像之后;将目标帧图像输入至第一神经网络模型进行训练,得到目标帧图像对应的第三掩膜;利用预设损失函数对第一掩膜和第三掩膜进行计算。
除了前述的几种监督loss之外,还需要模拟帧与帧之间的运动模糊,并对其做相应的loss计算,具体做法是对输入的合成图片C做运动模糊增强,模拟视频序列中位于图片C之后的帧C_next_frame,C和C_next_frame之间有微小的位移差异。在coarse模型阶段,输入合成图片C,得到mask1,再输入图片C_next_frame,得到mask_next_frame1。然后对mask1和mask_next_frame1做一致性约束。同样的,在refine模型阶段,也做运动模糊的增强,以及相应的一致性约束。
通过上述方法,针对视频分割,提出了需要模拟帧与帧之间的运动模糊,并对其做相应的一致性损失的方法,来解决抖动的问题。
作为一个可选的实施例, 将训练数据集输入至第一神经网络模型进行训练,得到第一掩膜;将训练数据集中的图像与第一掩膜拼接输入至第二神经网络模型进行训练,得到第二掩膜,其中,第二掩膜的分辨率分别高于第一掩膜的分辨率;第一前景图像和第二前景图像分别由第一目标图像和训练数据集中的图像去除背景图像得到。
图7是根据本申请实施例的一种图像分割模型训练方法的示意图,如图7所示,第一阶段coarse阶段的前景F1 也可以不通过模型来重建恢复,毕竟模型重建恢复出来的前景F'或多或少会损失掉一些细节;可以对green despill算法稍做更改,得到去掉绿色的前景部分,这样的话,只需要预测mask1即可,可以对mask1多添加一些监督损失函数来提高其预测准确度。对C_resize和C_resize1做有监督的损失也可以酌情使用。同样的,refine阶段的前景F2也是同理,不再赘述。
使用传统的绿幕抠图算法,难以达到很好的效果,需要持续不断的优化。本申请提出的精细分割算法,相较普通的图像分割算法而言,其优势体现在以下方面:普通分割的效果在边缘存在锯齿且粗糙,而精细分割算法则能解决边缘锯齿以及边缘粗糙的问题。带有复杂光影效果的物体(如玻璃、塑料、薄纱类)如果用普通的分割算法处理,则分割结果不能表达“透明”这种信息, 而精细化分割可以表示这种信息。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的图像分割模型的生成方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
图8是根据本申请实施例的一种图像的分割方法的流程图,如图8所示,该方法包括以下步骤:
步骤S802,获取待处理图像。
在本申请的实施例中,上述待处理图像为带有绿幕背景的图片。
步骤S804,将待处理图像输入至预先训练好的第一图像分割模型进行处理,得到待处理图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与待处理图像尺寸大小相同的图像。
在本步骤中,将待处理图像输入至粗糙的(coarse)模型,对输入的图片进行小分辨率掩膜(mask)预测。
步骤S806,将待处理图像和第一掩膜拼接,得到拼接图像。
步骤S808,将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到待处理图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
将待处理图像和第一阶段预测得到的小分辨率mask拼接到一起,输入到精细的(refine)模型中,得到最终的高分辨精细化mask和高分辨率的前景图像。
需要说明的是,图8所示实施例的优选实施方式可以参见图2所示实施例的相关描述,此处不再赘述。
实施例3
图9是根据本申请实施例的另一种图像的分割方法的应用示意图,如图9所示,以VR设备或AR设备在虚拟游戏中的应用为例,用户佩戴的VR设备或者AR设备采集目标图像(可以是一张游戏场景图片),处理器获取目标图像,按照如下步骤S902至步骤S910对目标对象进行图像分割处理:
步骤S902,获取虚拟现实VR设备或增强现实AR设备采集的目标图像。
VR(Virtual Reality)和AR(Augmented Reality)是两种不同的虚拟技术。
VR是虚拟现实技术,由纯虚拟数字画面构成,可以让用户沉浸在由计算机生成的三维虚拟环境中,并与现实环境相隔绝。用户可以通过VR设备看到虚拟界面(类似网游),所有的操作均可以脱离也无需现实画面,相当于对传统屏幕浏览信息的一种视角的深化。目前VR主要应用在虚拟游戏中。
AR是增强现实技术,是虚拟数字画面和裸眼现实画面的结合,可以在真实环境中增加或者移除由计算机实时生成的可以交互的虚拟物体或信息。
步骤S904,将目标图像输入至预先训练好的第一图像分割模型进行处理,得到目标图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与目标图像尺寸大小相同的图像。
在本步骤中,将待处理的目标图像输入至粗糙的(coarse)模型,对输入的图片进行小分辨率掩膜(mask)预测。
步骤S906,将目标图像和第一掩膜拼接,得到拼接图像。
步骤S908,将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到目标图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
将待处理的目标图像和第一阶段预测得到的小分辨率mask拼接到一起,输入到精细的(refine)模型中,得到最终的高分辨精细化mask和高分辨率的前景图像,以实现对目标图像的分割处理。
步骤S910,对目标图像对应的分割图像进行渲染,并驱动VR设备或AR设备展示渲染后的分割图像。
在步骤中,利用VR设备或AR设备的显示装置现实分割后的图像。
需要说明的是,图9所示实施例的优选实施方式可以参见图2所示实施例的相关描述,此处不再赘述。
实施例4
根据本申请实施例,还提供了一种用于实施上述图像分割模型的生成方法的图像分割模型的生成装置,如图10所示,该装置包括:
获取模块1000,设置为获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体。
第一处理模块1002,设置为将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像。
第二处理模块1004,设置为将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
生成模块1006,设置为根据第一目标模型和第二目标模型,生成图像分割模型。
此处需要说明的是,上述获取模块1000、第一处理模块1002、第二处理模块1004和生成模块1006对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的图像分割模型的生成方法中以下步骤的程序代码:获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;根据第一目标模型和第二目标模型,生成图像分割模型。
可选地,图11是根据本申请实施例的一种计算机终端的结构框图。如图11所示,该计算机终端1100可以包括:一个或多个(图中仅示出一个)处理器1102、存储器1104、以及射频模块、音频模块以及显示器。
其中,存储器1104可用于存储软件程序以及模块,如本申请实施例中的图像分割模型的生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像分割模型的生成方法。存储器1104可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端1100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器1102可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;根据第一目标模型和第二目标模型,生成图像分割模型。
可选的,上述处理器还可以执行如下步骤的程序代码:由前景图像和背景图像合成得到训练数据集中的图像之前,按照以下至少之一方式对前景图像和背景图像进行数据增强处理:在背景图像上模拟照射平行光源和点状光源;模拟前景物体在背景图像上投射的阴影。
可选的,上述处理器还可以执行如下步骤的程序代码:利用训练数据集对第一神经网络模型进行训练的过程中,在训练数据集包括的图像中添加除前景物体以外的目标前景物体。
可选的,上述处理器还可以执行如下步骤的程序代码:确定承载目标前景物体的贴图的贴图信息,其中,贴图信息包括:贴图数量以及贴图尺寸;根据贴图信息确定贴图在图像中位置信息;按照位置信息将贴图添加在图像中。
可选的,上述处理器还可以执行如下步骤的程序代码:分别采用多种图像融合方法将贴图添加在图像中;确定按照各种图像融合方法将贴图添加在图像中对应的融合指标,其中,融合指标用于表征贴图与图像的融合效果;比较各种图像融合方法对应的融合指标,依据比较结果从多种图像融合方法确定目标图像融合方法;利用目标图像融合方法将贴图添加在图像中。
可选的,上述处理器还可以执行如下步骤的程序代码:确定训练数据集包括的图像的亮度和饱和度;分别根据图像的亮度和饱和度设置贴图的亮度和饱和度。
可选的,上述处理器还可以执行如下步骤的程序代码:对训练数据集中的图像进行尺度缩放处理,得到第一目标图像;去除图像中背景图像,得到第二目标图像;将第一目标图像和第二目标图像输入至第一神经网络模型进行训练,得到第一前景图像和第一掩膜。
可选的,上述处理器还可以执行如下步骤的程序代码:将第一掩膜、第一前景图像以及背景图像按照第二预设公式进行合成,得到第一合成图像;利用预设损失函数对第一合成图像和第一目标图像进行计算。
可选的,上述处理器还可以执行如下步骤的程序代码:对第一掩膜进行上采样,直至第一掩膜与训练数据集中的图像的尺寸大小相同;将上采样后的第一掩膜、第二目标图像与训练数据集中的图像拼接,得到拼接图像。
可选的,上述处理器还可以执行如下步骤的程序代码:根据第二掩膜、第二前景图像以及背景图像按照第三预设公式进行合成,得到第二合成图像;利用预设损失函数对第二合成图像和训练数据集中的图像进行计算。
可选的,上述处理器还可以执行如下步骤的程序代码:确定第二前景图像和第二掩膜的边缘区域;增加第二前景图像和第二掩膜的边缘区域对应的权重,其中,权重为在利用预设损失函数对第二合成图像和训练数据集中的图像进行计算的过程中,第二前景图像和第二掩膜的边缘区域所占的权重。
可选的,上述处理器还可以执行如下步骤的程序代码:确定目标帧图像,其中,目标帧图像与训练数据集中的图像位于同一个视频序列中,与训练数据集中的图像存在位移差异,且在视频序列中的位置位于训练数据集中的图像之后;将目标帧图像输入至第一神经网络模型进行训练,得到目标帧图像对应的第三掩膜;利用预设损失函数对第一掩膜和第三掩膜进行计算。
可选的,上述处理器还可以执行如下步骤的程序代码:将训练数据集输入至第一神经网络模型进行训练,得到第一掩膜;将训练数据集中的图像与第一掩膜拼接输入至第二神经网络模型进行训练,得到第二掩膜,其中,第二掩膜的分辨率分别高于第一掩膜的分辨率;第一前景图像和第二前景图像分别由第一目标图像和训练数据集中的图像去除背景图像得到。
处理器1102还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待处理图像;将待处理图像输入至预先训练好的第一图像分割模型进行处理,得到待处理图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与待处理图像尺寸大小相同的图像;将待处理图像和第一掩膜拼接,得到拼接图像;将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到待处理图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
处理器1102还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取虚拟现实VR设备或增强现实AR设备采集的目标图像;将目标图像输入至预先训练好的第一图像分割模型进行处理,得到目标图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与目标图像尺寸大小相同的图像;将目标图像和第一掩膜拼接,得到拼接图像;将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到目标图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;对目标图像对应的分割图像进行渲染,并驱动VR设备或AR设备展示渲染后的分割图像。
采用本申请实施例,提供了一种图像分割模型的生成方法。通过针对绿幕场景下的精细化分割,提出了一种从数据生成到总体架构的解决方案,从而实现了对图像进行精细化分割,为基于此结果的其他上层应用提供了更多的可能性和灵活性的技术效果,进而解决了利用现有的图像分割算法对图像进行分割处理,分割效果较差的技术问题。
本领域普通技术人员可以理解,图所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如,计算机终端1100还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图11所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的图像分割模型的生成方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体;将训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用第一目标模型对训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,第一掩膜是与训练数据集中的图像尺寸大小相同的图像;将训练数据集中的图像与第一掩膜拼接,得到拼接图像;并将拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用第二目标模型对训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;根据第一目标模型和第二目标模型,生成图像分割模型。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:由前景图像和背景图像合成得到训练数据集中的图像之前,按照以下至少之一方式对前景图像和背景图像进行数据增强处理:在背景图像上模拟照射平行光源和点状光源;模拟前景物体在背景图像上投射的阴影。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:利用训练数据集对第一神经网络模型进行训练的过程中,在训练数据集包括的图像中添加除前景物体以外的目标前景物体。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:确定承载目标前景物体的贴图的贴图信息,其中,贴图信息包括:贴图数量以及贴图尺寸;根据贴图信息确定贴图在图像中位置信息;按照位置信息将贴图添加在图像中。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:分别采用多种图像融合方法将贴图添加在图像中;确定按照各种图像融合方法将贴图添加在图像中对应的融合指标,其中,融合指标用于表征贴图与图像的融合效果;比较各种图像融合方法对应的融合指标,依据比较结果从多种图像融合方法确定目标图像融合方法;利用目标图像融合方法将贴图添加在图像中。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:确定训练数据集包括的图像的亮度和饱和度;分别根据图像的亮度和饱和度设置贴图的亮度和饱和度。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:对训练数据集中的图像进行尺度缩放处理,得到第一目标图像;去除图像中背景图像,得到第二目标图像;将第一目标图像和第二目标图像输入至第一神经网络模型进行训练,得到第一前景图像和第一掩膜。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:将第一掩膜、第一前景图像以及背景图像按照第二预设公式进行合成,得到第一合成图像;利用预设损失函数对第一合成图像和第一目标图像进行计算。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:对第一掩膜进行上采样,直至第一掩膜与训练数据集中的图像的尺寸大小相同;将上采样后的第一掩膜、第二目标图像与训练数据集中的图像拼接,得到拼接图像。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:根据第二掩膜、第二前景图像以及背景图像按照第三预设公式进行合成,得到第二合成图像;利用预设损失函数对第二合成图像和训练数据集中的图像进行计算。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:确定第二前景图像和第二掩膜的边缘区域;增加第二前景图像和第二掩膜的边缘区域对应的权重,其中,权重为在利用预设损失函数对第二合成图像和训练数据集中的图像进行计算的过程中,第二前景图像和第二掩膜的边缘区域所占的权重。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:确定目标帧图像,其中,目标帧图像与训练数据集中的图像位于同一个视频序列中,与训练数据集中的图像存在位移差异,且在视频序列中的位置位于训练数据集中的图像之后;将目标帧图像输入至第一神经网络模型进行训练,得到目标帧图像对应的第三掩膜;利用预设损失函数对第一掩膜和第三掩膜进行计算。
可选的,上述存储介质被设置为存储用于执行以下步骤的程序代码:将训练数据集输入至第一神经网络模型进行训练,得到第一掩膜;将训练数据集中的图像与第一掩膜拼接输入至第二神经网络模型进行训练,得到第二掩膜,其中,第二掩膜的分辨率分别高于第一掩膜的分辨率;第一前景图像和第二前景图像分别由第一目标图像和训练数据集中的图像去除背景图像得到。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:获取待处理图像;将待处理图像输入至预先训练好的第一图像分割模型进行处理,得到待处理图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与待处理图像尺寸大小相同的图像;将待处理图像和第一掩膜拼接,得到拼接图像;将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到待处理图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:获取虚拟现实VR设备或增强现实AR设备采集的目标图像;将目标图像输入至预先训练好的第一图像分割模型进行处理,得到目标图像对应的第一前景图像和第一掩膜,其中,第一掩膜是与目标图像尺寸大小相同的图像;将目标图像和第一掩膜拼接,得到拼接图像;将拼接图像输入至预先训练好的第二图像分割模型进行处理,得到目标图像对应的分割图像,其中,分割图像包括:第二前景图像和第二掩膜,第二前景图像和第二掩膜的分辨率分别高于第一前景图像和第一掩膜的分辨率;对目标图像对应的分割图像进行渲染,并驱动VR设备或AR设备展示渲染后的分割图像。
实施例7
在实施例1中提供的图像分割模型的生成方法是在绿幕场景中,对绿幕视频进行分割的机器学习模型,利用该机器学习模型可以实现绿幕场景下的精细化分割,但是针对“去除背景且留下所有前景”的应用场景,利用实施例1中的机器学习模型也不能得到很好的分割效果。
因此,针对上述“去除背景且留下所有前景”的应用场景,基于用户需求,本申请实施例还提出了一种基于输入背景的精细化抠图算法。基于输入背景的精细化抠图算法,是指基于用户输入图片,以及用户输入背景图片,输出除去背景图片之外的所有前景,包括人物和其他所有物体前景。该算法相比直接抠图具有更稳定和精确的输出效果。下面结合具体实施例对上述基于输入背景的精细化抠图算法进行说明书。
图12是根据本申请实施例的一种图像分割模型的生成方法的流程图,如图12所示,该方法包括以下步骤:
步骤S1202,获取训练数据集,其中,训练数据集中的图像是由前景图像和背景图像合成得到的,前景图像中包括前景物体。
本实施例中图像的合成方法可以参见图3所示的图像合成方法,首先获得带有透明通道(即Alpha Channel,或写为α,也可以用mask掩膜来表示)的各类前景物体图片F(包括各个类别,比如人体,商品等),以及大量的背景图片B,通过公式:C = mask * F + (1 -mask) * B 合成最终图片,组成训练图片集合。
作为一个可选的实施例,在图像数据集合的基础上,对同一张前景图片做小幅度的旋转或者平移,对对比度,亮度进行各种变化扰动,或者加入各种噪声等,模拟一段视频中的前景图片在色彩,光照以及动作上的变化。同样的,对同一张背景图片,也做小幅度的旋转或者平移,对对比度,亮度进行各种变化扰动,或者加入各种噪声等,模拟一段视频中的背景图片在色彩,光照以及动作上的变化。视频数据集合主要是为了增加模型训练的鲁棒性和防抖动。
根据本申请的一个可选的实施例,训练数据集中的图像是前景图像、前景图像对应的掩膜和背景图像按照第一预设公式合成得到的。
此外,对训练数据集中的图像做各种数据增强,比如随机裁剪,缩放,翻转,颜色空间,对比度,亮度的各种变化扰动,对比度调整,色彩均衡等,以及加入各种噪声,得到最终的训练图片集合。
步骤S1204,将训练数据集中的图像以及合成图像的背景图像输入至编码器,提取第一特征数据;并将第一特征数据及合成图像的背景图像输入至解码器,提取第二特征数据。
根据本申请的一个可选的实施例,将训练数据集中的图像以及合成图像的背景图像输入至编码器,包括以下步骤:将图像以及背景图像的大小由第一尺寸缩放至第二尺寸;将第二尺寸大小的图像以及背景图像进行拼接后,输入至编码器。将第一特征数据及合成图像的背景图像输入至解码器,通过以下方法实现:将第一特征数据和第二尺寸大小的背景图像进行拼接后,输入至解码器。
图13是根据本申请实施例的一种图像分割模型训练方法的示意图,如图13所示,整个模型的训练过程同样包括三个阶段,在第一阶段,将合成图片和其对应的背景图片,先缩放到小尺寸,然后拼接到一起输入到编码器(encoder)网络,提取不同尺度的隐藏特征。在此基础上,将隐藏特征和缩放后的背景图片进行拼接,输入到解码器(decoder)模块进一步提取特征,这里的背景图片起到了指导作用。
步骤S1206,将第二特征数据输入至第三神经网络模型进行训练,得到第三目标模型,并确定采用第三目标模型对第二特征数据进行预测得到的第三前景图像和第三掩膜,其中,第三掩膜是与训练数据集中的图像尺寸大小相同的图像。
如图13所示,在第二阶段,新的隐藏特征通过project模块,得到预测的前景残差和预测的alpha(mask掩膜)。
步骤S1208,将第三前景图像、第三掩膜、第二特征数据以及合成图像的背景图像输入至第四神经网络模型进行训练,生成图像分割模型,并确定图像分割模型输出的第四前景图像和第四掩膜,其中,第四前景图像和第四掩膜的分辨率分别高于第三前景图像和第三掩膜的分辨率。
在本申请的一些可选的实施例中,执行步骤S1208将第三前景图像、第三掩膜、第二特征数据以及合成图像的背景图像输入至第四神经网络模型进行训练,通过以下方法实现:分别对第三前景图像、第三掩膜及第二特征数据进行上采样处理,直至得到与第一尺寸大小相同的第三前景图像、第三掩膜及第二特征数据;将第一尺寸大小的第三前景图像、第三掩膜、第二特征数据与第一尺寸大小的背景图像进行拼接后,输入至第四神经网络模型进行训练。
参见图13,在第三阶段,预测的前景残差和预测的alpha(mask掩膜)通过上采样,成为和原始输入尺寸大小相同的图片,第二阶段中的隐藏特征也同样通过上采样,成为和原始输入的尺寸大小相同,此三者和原始尺寸大小的输入背景图片一起进行拼接,输入到设计的精细化网络解码模块,得到最终的前景图像和预测的alpha(mask掩膜)。
通过上述方法,可以实现在不使用绿幕的前提下,有效提升了通用场景中前景图像分割结果的完整度。
实施例8
图14是根据本申请实施例的一种图像的分割方法的流程图,如图14所示,该方法包括以下步骤:
步骤S1402,获取待处理图像。
步骤S1404,将待处理图像以及待处理图像的背景图像输入至编码器,提取第一特征数据;并将第一特征数据及待处理图像的背景图像输入至解码器,提取第二特征数据。
步骤S1406,将第二特征数据输入至预先训练好的第三图像分割模型进行处理,得到待处理图像对应的第三前景图像和第三掩膜,其中,第三掩膜是与待处理图像尺寸大小相同的图像。
步骤S1408,将第三前景图像、第三掩膜、第二特征数据以及待处理图像的背景图像输入至预先训练好的第四图像分割模型进行处理,得到待处理图像对应的分割图像,其中,分割图像包括:第四前景图像和第四掩膜,第四前景图像和第四掩膜的分辨率分别高于第三前景图像和第三掩膜的分辨率。
需要说明的是,图14所示实施例的优选实施方式可以参见图12所示实施例的相关描述,此处不再赘述。
实施例9
图15是根据本申请实施例的一种图像的分割方法的流程图,如图15所示,该方法包括以下步骤:
步骤S1502,获取虚拟现实VR设备或增强现实AR设备采集的目标图像。
步骤S1504,将目标以及目标图像的背景图像输入至编码器,提取第一特征数据;并将第一特征数据及目标图像的背景图像输入至解码器,提取第二特征数据。
步骤S1506,将第二特征数据输入至预先训练好的第三图像分割模型进行处理,得到目标图像对应的第三前景图像和第三掩膜,其中,第三掩膜是与目标图像尺寸大小相同的图像。
步骤S1508,将第三前景图像、第三掩膜、第二特征数据以及目标图像的背景图像输入至预先训练好的第四图像分割模型进行处理,得到目标图像对应的分割图像,其中,分割图像包括:第四前景图像和第四掩膜,第四前景图像和第四掩膜的分辨率分别高于第三前景图像和第三掩膜的分辨率。
步骤S1510,对目标图像对应的分割图像进行渲染,并驱动VR设备或AR设备展示渲染后的分割图像。
需要说明的是,图15所示实施例的优选实施方式可以参见图12所示实施例的相关描述,此处不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (23)
1.一种图像分割模型的生成方法,其特征在于,包括:
获取训练数据集,其中,所述训练数据集中的图像是由前景图像和背景图像合成得到的,所述前景图像中包括前景物体;
将所述训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用所述第一目标模型对所述训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,所述第一掩膜是与所述训练数据集中的图像尺寸大小相同的图像;
将所述训练数据集中的图像与所述第一掩膜拼接,得到拼接图像;并将所述拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用所述第二目标模型对所述训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,所述第二前景图像和所述第二掩膜的分辨率分别高于所述第一前景图像和所述第一掩膜的分辨率;
根据所述第一目标模型和所述第二目标模型,生成图像分割模型。
2.根据权利要求1所述的方法,其特征在于,所述训练数据集中的图像是所述前景图像、所述前景图像对应的掩膜和所述背景图像按照第一预设公式合成得到的。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
由所述前景图像和所述背景图像合成得到所述训练数据集中的图像之前,按照以下至少之一方式对所述前景图像和所述背景图像进行数据增强处理:
在所述背景图像上模拟照射平行光源和点状光源;
模拟所述前景物体在所述背景图像上投射的阴影。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述训练数据集对所述第一神经网络模型进行训练的过程中,在所述训练数据集包括的图像中添加除所述前景物体以外的目标前景物体。
5.根据权利要求4所述的方法,其特征在于,在所述训练数据集包括的图像中添加除所述前景物体以外的目标前景物体,包括:
确定承载所述目标前景物体的贴图的贴图信息,其中,所述贴图信息包括:贴图数量以及贴图尺寸;
根据所述贴图信息确定所述贴图在所述图像中位置信息;
按照所述位置信息将所述贴图添加在所述图像中。
6.根据权利要求5所述的方法,其特征在于,在所述训练数据集包括的图像中添加除所述前景物体以外的目标前景物体,包括:
分别采用多种图像融合方法将所述贴图添加在所述图像中;
确定按照各种图像融合方法将所述贴图添加在所述图像中对应的融合指标,其中,所述融合指标用于表征所述贴图与所述图像的融合效果;
比较所述各种图像融合方法对应的融合指标,依据比较结果从所述多种图像融合方法确定目标图像融合方法;
利用所述目标图像融合方法将所述贴图添加在所述图像中。
7.根据权利要求5或6所述的方法,其特征在于,在所述训练数据集包括的图像中添加除所述前景物体以外的目标前景物体之前,所述方法还包括:
确定所述训练数据集包括的图像的亮度和饱和度;
分别根据所述图像的亮度和饱和度设置所述贴图的亮度和饱和度。
8.根据权利要求1所述的方法,其特征在于,所述将所述训练数据集输入至第一神经网络模型进行训练,包括:
对所述训练数据集中的图像进行尺度缩放处理,得到第一目标图像;
去除所述图像中背景图像,得到第二目标图像;
将所述第一目标图像和所述第二目标图像输入至所述第一神经网络模型进行训练,得到所述第一前景图像和所述第一掩膜。
9.根据权利要求8所述的方法,其特征在于,得到所述第一前景图像和所述第一掩膜之后,所述方法还包括:
将所述第一掩膜、所述第一前景图像以及所述背景图像按照第二预设公式进行合成,得到第一合成图像;
利用预设损失函数对所述第一合成图像和所述第一目标图像进行计算。
10.根据权利要求8所述的方法,其特征在于,所述将所述训练数据集中的图像与所述第一掩膜拼接,得到拼接图像,包括:
对所述第一掩膜进行上采样,直至所述第一掩膜与所述训练数据集中的图像的尺寸大小相同;
将上采样后的所述第一掩膜、所述第二目标图像与所述训练数据集中的图像拼接,得到所述拼接图像。
11.根据权利要求1所述的方法,其特征在于,所述得到第二前景图像和第二掩膜之后,所述方法还包括:
根据所述第二掩膜、所述第二前景图像以及所述背景图像按照第三预设公式进行合成,得到第二合成图像;
利用预设损失函数对所述第二合成图像和所述训练数据集中的图像进行计算。
12.根据权利要求11所述的方法,其特征在于,所述利用预设损失函数对所述第二合成图像和所述训练数据集中的图像进行计算之前,所述方法还包括:
确定所述第二前景图像和所述第二掩膜的边缘区域;
增加所述第二前景图像和所述第二掩膜的边缘区域对应的权重,其中,所述权重为在利用预设损失函数对所述第二合成图像和训练数据集中的图像进行计算的过程中,所述第二前景图像和所述第二掩膜的边缘区域所占的权重。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定目标帧图像,其中,所述目标帧图像与所述训练数据集中的图像位于同一个视频序列中,与所述训练数据集中的图像存在位移差异,且在所述视频序列中的位置位于所述训练数据集中的图像之后;
将所述目标帧图像输入至所述第一神经网络模型进行训练,得到所述目标帧图像对应的第三掩膜;
利用预设损失函数对所述第一掩膜和所述第三掩膜进行计算。
14.根据权利要求8所述的方法,其特征在于,所述方法还包括:
将所述训练数据集输入至所述第一神经网络模型进行训练,得到所述第一掩膜;
将所述训练数据集中的图像与所述第一掩膜拼接输入至第二神经网络模型进行训练,得到第二掩膜,其中,所述第二掩膜的分辨率分别高于所述第一掩膜的分辨率;
所述第一前景图像和所述第二前景图像分别由所述第一目标图像和所述训练数据集中的图像去除所述背景图像得到。
15.一种图像的分割方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入至预先训练好的第一图像分割模型进行处理,得到所述待处理图像对应的第一前景图像和第一掩膜,其中,所述第一掩膜是与所述待处理图像尺寸大小相同的图像;
将所述待处理图像和所述第一掩膜拼接,得到拼接图像;
将所述拼接图像输入至预先训练好的第二图像分割模型进行处理,得到所述待处理图像对应的分割图像,其中,所述分割图像包括:第二前景图像和第二掩膜,所述第二前景图像和所述第二掩膜的分辨率分别高于所述第一前景图像和所述第一掩膜的分辨率。
16.一种图像的分割方法,其特征在于,包括:
获取虚拟现实VR设备或增强现实AR设备采集的目标图像;
将所述目标图像输入至预先训练好的第一图像分割模型进行处理,得到所述目标图像对应的第一前景图像和第一掩膜,其中,所述第一掩膜是与所述目标图像尺寸大小相同的图像;
将所述目标图像和所述第一掩膜拼接,得到拼接图像;
将所述拼接图像输入至预先训练好的第二图像分割模型进行处理,得到所述目标图像对应的分割图像,其中,所述分割图像包括:第二前景图像和第二掩膜,所述第二前景图像和所述第二掩膜的分辨率分别高于所述第一前景图像和所述第一掩膜的分辨率;
对所述目标图像对应的分割图像进行渲染,并驱动所述VR设备或所述AR设备展示渲染后的分割图像。
17.一种图像分割模型的生成方法,其特征在于,包括:
获取训练数据集,其中,所述训练数据集中的图像是由前景图像和背景图像合成得到的,所述前景图像中包括前景物体;
将所述训练数据集中的图像以及合成所述图像的背景图像输入至编码器,提取第一特征数据;并将所述第一特征数据及合成所述图像的背景图像输入至解码器,提取第二特征数据;
将所述第二特征数据输入至第三神经网络模型进行训练,得到第三目标模型,并确定采用所述第三目标模型对所述第二特征数据进行预测得到的第三前景图像和第三掩膜,其中,所述第三掩膜是与所述训练数据集中的图像尺寸大小相同的图像;
将所述第三前景图像、所述第三掩膜、所述第二特征数据以及合成所述图像的背景图像输入至第四神经网络模型进行训练,生成图像分割模型,并确定所述图像分割模型输出的第四前景图像和第四掩膜,其中,所述第四前景图像和所述第四掩膜的分辨率分别高于所述第三前景图像和所述第三掩膜的分辨率。
18.根据权利要求17所述的方法,其特征在于,
将所述训练数据集中的图像以及合成所述图像的背景图像输入至编码器,包括:将所述图像以及所述背景图像的大小由第一尺寸缩放至第二尺寸;将所述第二尺寸大小的图像以及背景图像进行拼接后,输入至所述编码器;
将所述第一特征数据及合成所述图像的背景图像输入至解码器,包括:将所述第一特征数据和所述第二尺寸大小的背景图像进行拼接后,输入至所述解码器。
19.根据权利要求18所述的方法,其特征在于,将所述第三前景图像、所述第三掩膜、所述第二特征数据以及合成所述图像的背景图像输入至第四神经网络模型进行训练,包括:
分别对所述第三前景图像、所述第三掩膜及所述第二特征数据进行上采样处理,直至得到与所述第一尺寸大小相同的所述第三前景图像、所述第三掩膜及所述第二特征数据;
将所述第一尺寸大小的所述第三前景图像、所述第三掩膜、所述第二特征数据与所述第一尺寸大小的背景图像进行拼接后,输入至所述第四神经网络模型进行训练。
20.根据权利要求17所述的方法,其特征在于,所述训练数据集中的图像是所述前景图像、所述前景图像对应的掩膜和所述背景图像按照第一预设公式合成得到的。
21.一种图像的分割方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像以及所述待处理图像的背景图像输入至编码器,提取第一特征数据;并将所述第一特征数据及所述待处理图像的背景图像输入至解码器,提取第二特征数据;
将所述第二特征数据输入至预先训练好的第三图像分割模型进行处理,得到所述待处理图像对应的第三前景图像和第三掩膜,其中,所述第三掩膜是与所述待处理图像尺寸大小相同的图像;
将所述第三前景图像、所述第三掩膜、所述第二特征数据以及所述待处理图像的背景图像输入至预先训练好的第四图像分割模型进行处理,得到所述待处理图像对应的分割图像,其中,所述分割图像包括:第四前景图像和第四掩膜,所述第四前景图像和所述第四掩膜的分辨率分别高于所述第三前景图像和所述第三掩膜的分辨率。
22.一种图像的分割方法,其特征在于,包括:
获取虚拟现实VR设备或增强现实AR设备采集的目标图像;
将所述目标以及所述目标图像的背景图像输入至编码器,提取第一特征数据;并将所述第一特征数据及所述目标图像的背景图像输入至解码器,提取第二特征数据;
将所述第二特征数据输入至预先训练好的第三图像分割模型进行处理,得到所述目标图像对应的第三前景图像和第三掩膜,其中,所述第三掩膜是与所述目标图像尺寸大小相同的图像;
将所述第三前景图像、所述第三掩膜、所述第二特征数据以及所述目标图像的背景图像输入至预先训练好的第四图像分割模型进行处理,得到所述目标图像对应的分割图像,其中,所述分割图像包括:第四前景图像和第四掩膜,所述第四前景图像和所述第四掩膜的分辨率分别高于所述第三前景图像和所述第三掩膜的分辨率;
对所述目标图像对应的分割图像进行渲染,并驱动所述VR设备或所述AR设备展示渲染后的分割图像。
23.一种计算机设备,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取训练数据集,其中,所述训练数据集中的图像是由前景图像和背景图像合成得到的,所述前景图像中包括前景物体;
将所述训练数据集输入至第一神经网络模型进行训练,得到第一目标模型,并确定采用所述第一目标模型对所述训练数据集中的图像进行分割得到的第一前景图像和第一掩膜,其中,所述第一掩膜是与所述训练数据集中的图像尺寸大小相同的图像;
将所述训练数据集中的图像与所述第一掩膜拼接,得到拼接图像;并将所述拼接图像输入至第二神经网络模型进行训练,得到第二目标模型,并确定采用所述第二目标模型对所述训练数据集中的图像进行分割得到的第二前景图像和第二掩膜,其中,所述第二前景图像和所述第二掩膜的分辨率分别高于所述第一前景图像和所述第一掩膜的分辨率;
根据所述第一目标模型和所述第二目标模型,生成图像分割模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701845.8A CN114782460B (zh) | 2022-06-21 | 2022-06-21 | 图像分割模型的生成方法及图像的分割方法、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210701845.8A CN114782460B (zh) | 2022-06-21 | 2022-06-21 | 图像分割模型的生成方法及图像的分割方法、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782460A true CN114782460A (zh) | 2022-07-22 |
CN114782460B CN114782460B (zh) | 2022-10-18 |
Family
ID=82421663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210701845.8A Active CN114782460B (zh) | 2022-06-21 | 2022-06-21 | 图像分割模型的生成方法及图像的分割方法、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782460B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2610682A (en) * | 2021-06-28 | 2023-03-15 | Nvidia Corp | Training object detection systems with generated images |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、系统、电子设备及存储介质 |
CN111260679A (zh) * | 2020-01-07 | 2020-06-09 | 广州虎牙科技有限公司 | 图像处理方法、图像分割模型训练方法及相关装置 |
CN111260548A (zh) * | 2018-11-30 | 2020-06-09 | 浙江宇视科技有限公司 | 基于深度学习的贴图方法及装置 |
US20200202534A1 (en) * | 2018-12-20 | 2020-06-25 | Reflexion Health Inc. | Machine learning feature vector generator using depth image foreground attributes |
CN111833372A (zh) * | 2020-07-23 | 2020-10-27 | 浙江大华技术股份有限公司 | 一种前景目标提取方法及装置 |
CN111862140A (zh) * | 2020-06-11 | 2020-10-30 | 中山大学 | 一种基于协同模块级搜索的全景分割网络及方法 |
CN112070793A (zh) * | 2020-09-11 | 2020-12-11 | 北京邮电大学 | 一种目标提取方法及装置 |
CN112232349A (zh) * | 2020-09-23 | 2021-01-15 | 成都佳华物链云科技有限公司 | 模型训练方法、图像分割方法及装置 |
CN112258528A (zh) * | 2020-11-02 | 2021-01-22 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备 |
CN112487974A (zh) * | 2020-11-30 | 2021-03-12 | 叠境数字科技(上海)有限公司 | 视频流多人分割方法、系统、芯片及介质 |
CN112990331A (zh) * | 2021-03-26 | 2021-06-18 | 共达地创新技术(深圳)有限公司 | 图像处理方法、电子设备和存储介质 |
CN114529574A (zh) * | 2022-02-23 | 2022-05-24 | 平安科技(深圳)有限公司 | 基于图像分割的图像抠图方法、装置、计算机设备及介质 |
-
2022
- 2022-06-21 CN CN202210701845.8A patent/CN114782460B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260548A (zh) * | 2018-11-30 | 2020-06-09 | 浙江宇视科技有限公司 | 基于深度学习的贴图方法及装置 |
US20200202534A1 (en) * | 2018-12-20 | 2020-06-25 | Reflexion Health Inc. | Machine learning feature vector generator using depth image foreground attributes |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、系统、电子设备及存储介质 |
CN111260679A (zh) * | 2020-01-07 | 2020-06-09 | 广州虎牙科技有限公司 | 图像处理方法、图像分割模型训练方法及相关装置 |
CN111862140A (zh) * | 2020-06-11 | 2020-10-30 | 中山大学 | 一种基于协同模块级搜索的全景分割网络及方法 |
CN111833372A (zh) * | 2020-07-23 | 2020-10-27 | 浙江大华技术股份有限公司 | 一种前景目标提取方法及装置 |
CN112070793A (zh) * | 2020-09-11 | 2020-12-11 | 北京邮电大学 | 一种目标提取方法及装置 |
CN112232349A (zh) * | 2020-09-23 | 2021-01-15 | 成都佳华物链云科技有限公司 | 模型训练方法、图像分割方法及装置 |
CN112258528A (zh) * | 2020-11-02 | 2021-01-22 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备 |
CN112487974A (zh) * | 2020-11-30 | 2021-03-12 | 叠境数字科技(上海)有限公司 | 视频流多人分割方法、系统、芯片及介质 |
CN112990331A (zh) * | 2021-03-26 | 2021-06-18 | 共达地创新技术(深圳)有限公司 | 图像处理方法、电子设备和存储介质 |
CN114529574A (zh) * | 2022-02-23 | 2022-05-24 | 平安科技(深圳)有限公司 | 基于图像分割的图像抠图方法、装置、计算机设备及介质 |
Non-Patent Citations (3)
Title |
---|
XU ZHAO 等: "JOINT BACKGROUND RECONSTRUCTION AND FOREGROUND SEGMENTATION VIA A TWO-STAGE CONVOLUTIONAL NEURAL NETWORK", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME) 2017》 * |
姚睿 等: "时空图卷积网络与注意机制的视频目标分割", 《中国图像图形》 * |
罗会兰 等: "结合上下文特征与CNN多层特征融合的语义分割", 《中国图象图形学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2610682A (en) * | 2021-06-28 | 2023-03-15 | Nvidia Corp | Training object detection systems with generated images |
Also Published As
Publication number | Publication date |
---|---|
CN114782460B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline | |
Fu et al. | LE-GAN: Unsupervised low-light image enhancement network using attention module and identity invariant loss | |
Liu et al. | Variable augmented neural network for decolorization and multi-exposure fusion | |
CN111681177B (zh) | 视频处理方法及装置、计算机可读存储介质、电子设备 | |
CN108876886B (zh) | 图像处理方法、装置和计算机设备 | |
CN103997687B (zh) | 用于向视频增加交互特征的方法及装置 | |
KR20200128378A (ko) | 이미지 생성 네트워크의 훈련 및 이미지 처리 방법, 장치, 전자 기기, 매체 | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
CN106255990A (zh) | 用于相机阵列的图像重对焦 | |
CN111626918A (zh) | 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统 | |
CN115100334B (zh) | 一种图像描边、图像动漫化方法、设备及存储介质 | |
CN114782460B (zh) | 图像分割模型的生成方法及图像的分割方法、计算机设备 | |
CN107766803B (zh) | 基于场景分割的视频人物装扮方法、装置及计算设备 | |
Zhang et al. | Removing Foreground Occlusions in Light Field using Micro-lens Dynamic Filter. | |
Barsky et al. | Elimination of artifacts due to occlusion and discretization problems in image space blurring techniques | |
CN111696034B (zh) | 图像处理方法、装置及电子设备 | |
US20190220954A1 (en) | Apparatus, method, and computer program code for producing composite image | |
CN114612641A (zh) | 素材的迁移方法和装置、数据处理方法 | |
CN115713585B (zh) | 纹理图像重建方法、装置、计算机设备和存储介质 | |
Polasek et al. | Vision UFormer: Long-range monocular absolute depth estimation | |
CN111768467A (zh) | 图像填充方法、装置、设备及存储介质 | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
Fang et al. | Artificial Intelligence: Second CAAI International Conference, CICAI 2022, Beijing, China, August 27–28, 2022, Revised Selected Papers, Part I | |
Bonneel et al. | Proxy-guided texture synthesis for rendering natural scenes | |
CN114917583A (zh) | 一种基于生成对抗网络的动漫风格游戏背景生成方法及平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |