CN112101371A - 数据处理方法、装置、电子设备和计算机存储介质 - Google Patents
数据处理方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN112101371A CN112101371A CN202011290480.1A CN202011290480A CN112101371A CN 112101371 A CN112101371 A CN 112101371A CN 202011290480 A CN202011290480 A CN 202011290480A CN 112101371 A CN112101371 A CN 112101371A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- loss
- result
- image segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提出了一种数据处理方法、装置、电子设备和计算机存储介质,该方法包括:获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。本发明实施例可以得到用于图像分割的配对训练数据,有利于实现图像分割任务,提高实现图像分割的效率和精度。
Description
技术领域
本发明涉及计算机视觉技术,尤其涉及一种数据处理方法、装置、电子设备和计算机存储介质。
背景技术
在相关技术中,可以采用基于深度学习的分割方法进行图像分割,但是,相比较于图像分类任务,图像分割任务所需的标注量极大;针对图像分割任务,如何获取大量的训练数据,是亟待解决的技术问题。
发明内容
本发明实施例期望提供数据处理的技术方案。
本发明实施例提供了一种数据处理方法,所述方法包括:
获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;
基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;
基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。
可选地,所述至少一个所述第一变量包括第一外观信息变量和第一结构信息变量;
所述基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果,包括:
对所述待处理图像进行编码得到初始编码结果,所述初始编码结果包括所述待处理图像的初始外观信息和初始结构信息;
基于所述第一外观信息变量,对所述初始外观信息进行重参数化操作,得到所述待处理图像的重建后外观信息;基于所述第一结构信息变量,对所述初始结构信息进行重参数化操作,得到所述待处理图像的重建后结构信息;
得到第一编码结果,所述第一编码结果包括所述待处理图像的重建后外观信息和重建后结构信息。
可选地,基于所述至少一个第一变量对所述待处理图像进行编码得到第一编码结果、对所述第一编码结果进行解码得到第一图像、基于所述第二变量对所述第一结构标签图进行编码,得到第二编码结果、以及对所述第二编码结果进行解码得到第二图像的步骤由数据生成网络实现,所述数据生成网络是基于样本图像和第二结构标签图训练得到的,所述第二结构标签图表示所述样本图像的像素标注信息。
可选地,所述数据生成网络的训练过程包括:
基于至少一个第三变量对所述样本图像进行编码,得到第三编码结果;对所述第三编码结果进行解码,得到第三图像;
基于第四变量对所述第二结构标签图进行编码,得到第四编码结果;对所述第四编码结果进行解码,得到第四图像;
根据所述第三图像和所述第四图像,训练所述数据生成网络。
可选地,所述根据所述第三图像和所述第四图像,训练所述数据生成网络,包括:
根据所述第三图像和所述第四图像,确定所述数据生成网络的损失,根据所述数据生成网络的损失,训练所述数据生成网络。
可选地,所述数据生成网络的损失是根据以下至少一种损失得出的:第一损失、第二损失、第三损失、第四损失、第五损失;
其中,所述第一损失表示第一信息、第二信息和第三信息的相对熵之和,所述第一信息表示所述样本图像的重建后外观信息,所述第二信息表示所述样本图像的重建后结构信息,所述第三信息表示所述第二结构标签图的重建后结构信息;所述第二损失用于表示所述样本图像与所述第三图像之间的重建损失、以及所述第二结构标签图与所述第四图像之间的重建损失;所述第三损失用于表征所述样本图像与所述第二结构标签图之间的结构信息差异;所述第四损失用于表征所述样本图像和所述第三图像中的人物身份信息的差异;所述第五损失用于表征:所述第三图像的图像分割结果与所述第四图像的像素级语义差异。
可选地,所述方法还包括:
至少将所述第一图像输入至图像分割网络;
利用所述图像分割网络,对输入至所述图像分割网络的图像进行处理,得到第一图像分割结果;
根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络。
可选地,所述根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,包括:
根据所述第一图像分割结果与所述第一图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
可选地,所述图像分割网络的损失表示所述第一图像对应的广义交叉熵损失。
可选地,所述至少将所述第一图像输入至图像分割网络,包括:
将所述第一图像和预先获取的真实图像输入至所述图像分割网络;
所述根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络,包括:
根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络;其中,所述第一图像分割结果包括:所述第一图像的图像分割结果和所述真实图像的图像分割结果。
可选地,所述根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,包括:
根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
可选地,所述图像分割网络的损失是根据以下损失得出的:所述真实图像对应的交叉熵损失和所述第一图像对应的广义交叉熵损失。
可选地,所述方法还包括:
获取待分割图像;
将所述待分割图像输入至所述训练完成的图像分割网络,利用所述训练完成的图像分割网络对所述待分割图像进行处理,得到第二图像分割结果。
本发明实施例还提供了一种数据处理装置,所述装置包括:
获取模块,用于获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;
处理模块,用于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。
可选地,所述至少一个所述第一变量包括第一外观信息变量和第一结构信息变量;
所述处理模块,用于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果,包括:
对所述待处理图像进行编码得到初始编码结果,所述初始编码结果包括所述待处理图像的初始外观信息和初始结构信息;
基于所述第一外观信息变量,对所述初始外观信息进行重参数化操作,得到所述待处理图像的重建后外观信息;基于所述第一结构信息变量,对所述初始结构信息进行重参数化操作,得到所述待处理图像的重建后结构信息;
得到第一编码结果,所述第一编码结果包括所述待处理图像的重建后外观信息和重建后结构信息。
可选地,基于所述至少一个第一变量对所述待处理图像进行编码得到第一编码结果、对所述第一编码结果进行解码得到第一图像、基于所述第二变量对所述第一结构标签图进行编码,得到第二编码结果、以及对所述第二编码结果进行解码得到第二图像的步骤由数据生成网络实现,所述数据生成网络是基于样本图像和第二结构标签图训练得到的,所述第二结构标签图表示所述样本图像的像素标注信息。
可选地,所述装置还包括第一训练模块;
第一训练模块,用于基于至少一个第三变量对所述样本图像进行编码,得到第三编码结果;对所述第三编码结果进行解码,得到第三图像;基于第四变量对所述第二结构标签图进行编码,得到第四编码结果;对所述第四编码结果进行解码,得到第四图像;根据所述第三图像和所述第四图像,训练所述数据生成网络。
可选地,所述第一训练模块,用于根据所述第三图像和所述第四图像,训练所述数据生成网络,包括:
根据所述第三图像和所述第四图像,确定所述数据生成网络的损失,根据所述数据生成网络的损失,训练所述数据生成网络。
可选地,所述数据生成网络的损失是根据以下至少一种损失得出的:第一损失、第二损失、第三损失、第四损失、第五损失;
其中,所述第一损失表示第一信息、第二信息和第三信息的相对熵之和,所述第一信息表示所述样本图像的重建后外观信息,所述第二信息表示所述样本图像的重建后结构信息,所述第三信息表示所述第二结构标签图的重建后结构信息;所述第二损失用于表示所述样本图像与所述第三图像之间的重建损失、以及所述第二结构标签图与所述第四图像之间的重建损失;所述第三损失用于表征所述样本图像与所述第二结构标签图之间的结构信息差异;所述第四损失用于表征所述样本图像和所述第三图像中的人物身份信息的差异;所述第五损失用于表征:所述第三图像的图像分割结果与所述第四图像的像素级语义差异。
可选地,所述装置还包括第二训练模块;
第二训练模块,用于至少将所述第一图像输入至图像分割网络;利用所述图像分割网络,对输入至所述图像分割网络的图像进行处理,得到第一图像分割结果;根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络。
可选地,所述第二训练模块用于根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,包括:
根据所述第一图像分割结果与所述第一图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
可选地,所述图像分割网络的损失表示所述第一图像对应的广义交叉熵损失。
可选地,所述第二训练模块,用于至少将所述第一图像输入至图像分割网络,包括:将所述第一图像和预先获取的真实图像输入至所述图像分割网络;
所述第二训练模块,用于根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络,包括:
根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络;其中,所述第一图像分割结果包括:所述第一图像的图像分割结果和所述真实图像的图像分割结果。
可选地,所述第二训练模块,用于根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,包括:根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
可选地,所述图像分割网络的损失是根据以下损失得出的:所述真实图像对应的交叉熵损失和所述第一图像对应的广义交叉熵损失。
可选地,所述处理模块,还用于获取待分割图像;将所述待分割图像输入至所述训练完成的图像分割网络,利用所述训练完成的图像分割网络对所述待分割图像进行处理,得到第二图像分割结果。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一种数据处理方法。
本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种数据处理方法。
本发明实施例提出的数据处理方法、装置、电子设备和计算机存储介质中,获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。如此,在本发明实施例中,可以基于变量生成新的图像;并且可以基于变量生成针对该新的生成图像的标注信息,即,本发明实施例可以得到用于图像分割的配对训练数据,有利于实现图像分割任务,提高实现图像分割的效率和精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本发明的实施例,并与说明书一起用于说明本发明的技术方案。
图1为本发明实施例的数据处理方法的流程图;
图2为本发明实施例中生成的配对的训练数据的示意图;
图3为本发明实施例中训练数据生成网络所需的网络架构示意图;
图4为本发明实施例中训练图像分割网络所需的网络架构示意图;
图5为本发明实施例的数据处理装置的组成结构示意图;
图6为本发明实施例的电子设备的结构示意图。
具体实施方式
在相关技术中,人脸图像分割,是将人的头部包含人脸五官构成分解成头发、面部皮肤、眼睛、眉毛、鼻子、嘴、耳朵等区域,即对输入图片中的人脸做解析,给出人脸的各个面部区域解析结果;人脸图像分割得到的面部区域主要包括:背景、脸部皮肤、左/右眉毛 、左/右眼睛 、鼻子、上嘴唇/嘴内部/下嘴唇、左/右耳朵 、脖子、眼镜和墨镜等;人脸图像分割技术可与人脸图像编辑、人脸识别以及人脸关键点等技术结合,应用于人工智能系统、智能主播系统、人脸属性分析、人证对比等领域。在相关技术中,人脸图像分割方法主要包括以下几种:
1)基于几何学的图像分割方法
为了实施基于几何的图像分割方法,首先需要检测人脸关键点,结合人脸关键点对图像进行分割。该方法大多依赖于主动形状模型(Active Shape Modeling,ASM)来对人脸各部位做统计形状建模;基于ASM的方法是一种较为成熟的人脸特征点定位方法,它用局部纹理模型在特征点周围进行局部搜索,用全局统计模型约束特征点集组成的形状,二者反复迭代,最终收敛至最优形状。主动形状模型在速度方面具有较大优势,一般应用于实时性要求较高的场合。基于ASM的方法类似于人类大脑识别面部不同部位的方法,依赖于识别不同面部部位的线索。
2)基于边缘的图像分割方法
人脸图像分割的一种重要途径是通过边缘检测,即检测结构具有突变的地方,这种不连续性称为边缘。不同的图像灰度不同,边界处一般有明显的边缘,利用此特征可以分割图像。
3)基于深度学习的图像分割方法
基于深度学习的方法在计算机视觉问题的研究中都取得了很大进展。随着深度学习的发展,机器学习方法中的一些局限性得到了缓解。
相关技术中,人脸图像分割方法存在以下问题:
1)基于几何学的图像分割方法面临一些严重的缺陷。此类方法忽略了皮肤和其他部位的面部纹理信息,这些纹理信息是不同面部部位分割的重要线索。此外,基于几何学的人脸图像分割方法需要检测人脸关键点,因此一定程度上依赖于关键点检测的准确程度。另外,遮挡和远场成像条件也显著影响这些方法的性能。
2)基于边缘的图像分割方法难点在于,在边缘检测时,抗噪性和检测精度之间存在矛盾。如果想要提高检测精度,则可能导致噪声产生的伪边缘也被作为真实边缘,导致不合理的轮廓;如果想要提高抗噪性,则可能产生部分轮廓无法成功检测出来,或者产生位置偏差。
3)基于深度学习的图像分割方法取得了最好的结果,但是其依赖于大量精细标注的配对人脸图像分割数据。而人脸图像分割是一个像素级的分类任务,相比较于图像分类任务,他的标注量极大,且存在更多的人为的标注误差,为基于深度学习的人脸分割任务带来了很大的困难;也就是说,对于普通的图像分类任务,只需要为一张图像标注一个类别;而对于人脸图像分割任务,则需要针对图像的每个像素进行标注,针对一张图像需要标注的个数为图像长与图像宽的乘积,其中,图像长表示长度方向的像素个数,图像宽表示宽度方向的像素个数;因而,相对于图像分类任务,图像分割任务可能需要上万倍的标注成本,极大的限制了基于深度学习的图像分割方法的研究。
可见,针对基于深度学习的图像分割方法,如何获取大量的训练数据,是亟待解决的技术问题;虽然可以采用数据增广方式生成训练数据,但是数据增广方式主要是通过改变RGB(Red Green Blue)图像的颜色、大小以及角度来实现数据的生成,通过这种数据增广方式生成的数据过于规则、不自然,不能创造出具有新的身份的人脸图像,不能改变人脸图像的形状,不利于有效地实现数据增广。
为解决相关技术中图像分割方法需要大量训练数据的问题,提出本发明实施例的技术方案。
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明实施例记载的技术方案可以任意组合的方式实施。
需要说明的是,在本发明实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或C,可以表示:单独存在A,同时存在A和C ,单独存在C这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
例如,本发明实施例提供的数据处理方法包含了一系列的步骤,但是本发明实施例提供的数据处理方法不限于所记载的步骤,同样地,本发明实施例提供的数据处理装置包括了一系列模块,但是本发明实施例提供的数据处理装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。
本发明实施例可以基于终端和/或服务器实现,这里,终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等。服务器可以是小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本发明实施例提出了一种数据处理方法,图1为本发明实施例的数据处理方法的流程图,如图1所示,该流程可以包括:
步骤101:获取待处理图像和第一结构标签图,第一结构标签图表示待处理图像的像素标注信息。
本发明实施例中,待处理图像可以是人脸图像或其它图像;待处理图像的个数可以是一个,也可以是多个。
这里,可以从本地存储区域或网络获取待处理图像,例如,待处理图像可以为通过移动终端或相机等拍摄的图像,或者,待处理图像可以是从公开数据集中获取的图像;待处理图像的格式可以是联合图像专家小组(Joint Photographic Experts GROUP,JPEG)、位图(Bitmap,BMP)、便携式网络图形(Portable Network Graphics,PNG)或其他格式;需要说明的是,这里仅仅是对待处理图像的格式和来源进行了举例说明,本公开实施例并不对待处理图像的格式和来源进行限定。
在实际应用中,在获取待处理图像后,可以对待处理图像的像素进行标注,得到第一结构标签图。
步骤102:基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像。
本发明的一些实施例中,第一变量可以用于表征噪声带来的变量,第一变量可以是随机变量,第一变量服从的分布可以是高斯分布或其它类型的分布。
在本发明的一些实施例中,对于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果的实现方式,示例性地,可以对待处理图像进行编码得到待处理图像对应的初始编码结果;然后,基于至少一个第一变量,对待处理图像对应的初始编码结果进行重参数化操作,得到第一编码结果。
在本发明的一些实施例中,上述至少一个第一变量包括第一外观信息变量和第一结构信息变量;第一外观信息变量可以用于表征噪声带来的变量,第一外观信息变量可以是随机变量,第一外观信息变量服从的分布可以是高斯分布或其它类型的分布;第一结构信息变量可以用于表征噪声带来的变量,第一结构信息变量可以是随机变量,第一结构信息变量服从的分布可以是高斯分布或其它类型的分布。本发明实施例中,第一外观信息变量与第一结构信息变量可以相同,也可以不同。
对于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果的实现方式,示例性地,可以对待处理图像进行编码得到待处理图像对应的初始编码结果,待处理图像对应的初始编码结果包括待处理图像的初始外观信息和初始结构信息;然后,可以基于第一外观信息变量,对上述初始外观信息进行重参数化操作,得到待处理图像的重建后外观信息;基于第一结构信息变量,对上述初始结构信息进行重参数化操作,得到待处理图像的重建后结构信息。
在得到待处理图像的重建后外观信息和重建后结构信息后,可以得到第一编码结果,第一编码结果包括待处理图像的重建后外观信息和重建后结构信息。
本发明实施例中,对待处理图像进行编码的编码运算与对第一编码结果进行解码的解码运算可以互为逆运算;本发明实施例中,上述对待处理图像的编码运算的实现方式和上述对第一编码结果的解码运算的实现方式均可以根据实际需求预先设置。
本发明实施例中,第一图像可以认为是待处理图像对应的重建图像;也就是说,针对待处理图像按照上述步骤102进行处理,可以得到待处理图像对应的重建图像。
步骤103:基于第二变量对第一结构标签图进行编码,得到第二编码结果;对第二编码结果进行解码,得到第二图像;将第二图像表示的像素标注信息作为第一图像的像素标注信息。
本发明的一些实施例中,第二变量可以用于表征噪声带来的变量,第二变量可以是随机变量,第二变量服从的分布可以是高斯分布或其它类型的分布。这里,第二变量与第一变量可以相同,也可以不同。
在本发明的一些实施例中,对于基于第二变量对第一结构标签图进行编码,得到第二编码结果的实现方式,示例性地,可以对第一结构标签图进行编码得到第一结构标签图对应的初始编码结果;然后,可以基于第二变量,对第一结构标签图对应的初始编码结果进行重参数化操作,得到第二编码结果。
本发明实施例中,对第一结构标签图进行编码的编码运算与对第二编码结果进行解码的解码运算可以互为逆运算;本发明实施例中,上述对第一结构标签图的编码运算的实现方式和上述对第二编码结果的解码运算的实现方式均可以根据实际需求预先设置。
可以理解地,第二图像可以认为是在第一结构标签图的基础上新生成的一个结构标签图,因而,第二图像可以表示像素标注信息,此时,将第二图像表示的像素标注信息作为第一图像的像素标注信息,可以将第二图像与第一图像作为配对的训练数据,用以实现图像分割任务的训练。
在本发明的一些实施例中,还可以将第二图像与第一图像进行图像合成,得到第二图像与第一图像的匹配图;图2为本发明实施例中生成的配对的训练数据的示意图,图2包括9组图像,每行图像包括三组图像,每组图像从左到右依次表示第一图像、第二图像和第一图像与第二图像的匹配图。
需要说明的是,本发明实施例并不对步骤102和步骤103的执行顺序进行限定,例如,步骤102与步骤103可以同时执行,步骤102也可以在步骤103前执行,步骤102还可以在步骤103之后执行。
在实际应用中,步骤101至步骤103可以基于电子设备的处理器实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit ,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital SignalProcessing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array ,FPGA)、中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器中的至少一种。
可以理解地,本发明实施例中,可以基于变量生成新的图像;并且可以基于变量生成针对该新的生成图像的标注信息,即,本发明实施例可以得到用于图像分割的配对训练数据,有利于实现图像分割任务,提高实现图像分割的效率和精度。
在本发明的一些实施例中,基于上述至少一个第一变量对所述待处理图像进行编码得到第一编码结果、对第一编码结果进行解码得到第一图像、基于第二变量对第一结构标签图进行编码,得到第二编码结果、以及对第二编码结果进行解码得到第二图像的步骤由数据生成网络实现,数据生成网络是基于样本图像和第二结构标签图得到的,第二结构标签图表示所述样本图像的像素标注信息。
本发明实施例中,并不对数据生成网络的网络结构进行限定,例如,数据生成网络可以是结构对偶的解耦变分生成网络或其它结构的网络。
本发明实施例中,样本图像可以是与待处理图像相同类型的图像,样本图像可以是人脸图像或其它图像;样本图像的个数可以是多个。
这里,可以从本地存储区域或网络获取样本图像,例如,样本图像可以为通过移动终端或相机等拍摄的图像,或者,样本图像可以是从公开数据集中获取的图像;样本图像的格式可以是JPEG、BMP、PNG或其他格式;需要说明的是,这里仅仅是对样本图像的格式和来源进行了举例说明,本公开实施例并不对样本图像的格式和来源进行限定。
在实际应用中,在获取样本图像后,可以对样本图像的像素进行标注,得到第二结构标签图。
可以理解地,由于第二结构标签图表示样本图像的像素标注信息,因而,基于样本图像和第二结构标签图,有利于实现数据生成网络的训练。
在本发明的一些实施例中,上述数据生成网络的训练过程可以包括:
步骤A1:基于至少一个第三变量对样本图像进行编码,得到第三编码结果;对第三编码结果进行解码,得到第三图像。
本发明的一些实施例中,第三变量可以用于表征噪声带来的变量,第三变量可以是随机变量,第三变量服从的分布可以是高斯分布或其它类型的分布。这里,第三变量与第一变量可以相同,也可以不同。
对于基于至少一个第三变量对样本图像进行编码,得到第三编码结果的实现方式,示例性地,可以对样本图像进行编码得到样本图像对应的初始编码结果;然后,可以基于至少一个第三变量,对样本图像对应的初始编码结果进行重参数化操作,得到第三编码结果。
在本发明的一些实施例中,上述至少一个第三变量包括第二外观信息变量和第二结构信息变量;第二外观信息变量可以用于表征噪声带来的变量,第二外观信息变量可以是随机变量,第二外观信息变量服从的分布可以是高斯分布或其它类型的分布;第二结构信息变量可以用于表征噪声带来的变量,第二结构信息变量可以是随机变量,第二结构信息变量服从的分布可以是高斯分布或其它类型的分布。本发明实施例中,第二外观信息变量与第二结构信息变量可以相同,也可以不同。
对于基于至少一个第三变量对样本图像进行编码,得到第三编码结果的实现方式,示例性地,可以对样本图像进行编码得到样本图像对应的初始编码结果,样本图像对应的初始编码结果包括样本图像的初始外观信息和初始结构信息;然后,可以基于第二外观信息变量,对上述样本图像对应的初始外观信息进行重参数化操作,得到样本图像的重建后外观信息;可以基于第二结构信息变量,对上述样本图像对应的初始结构信息进行重参数化操作,得到样本图像的重建后结构信息。
在得到样本图像的重建后外观信息和重建后结构信息后,可以得到第三编码结果,第三编码结果包括样本图像的重建后外观信息和重建后结构信息。
本发明实施例中,对样本图像进行编码的编码运算与对第三编码结果进行解码的解码运算可以互为逆运算;本发明实施例中,上述对样本图像的编码运算的实现方式和上述对第三编码结果的解码运算的实现方式均可以根据实际需求预先设置。
本发明实施例中,第三图像可以认为是样本图像对应的重建图像;也就是说,针对样本图像按照上述步骤A1进行处理,可以得到样本图像对应的重建图像。
步骤A2:基于第四变量对第二结构标签图进行编码,得到第四编码结果;对第四编码结果进行解码,得到第四图像。
本发明的一些实施例中,第四变量可以用于表征噪声带来的变量,第四变量可以是随机变量,第四变量服从的分布可以是高斯分布或其它类型的分布。这里,第四变量与第二变量可以相同,也可以不同。
在本发明的一些实施例中,对于基于第四变量对第二结构标签图进行编码,得到第四编码结果的实现方式,示例性地,可以对第二结构标签图进行编码得到第二结构标签图对应的初始编码结果;然后,可以基于第四变量,对第二结构标签图对应的初始编码结果进行重参数化操作,得到第四编码结果。
本发明实施例中,对第二结构标签图进行编码的编码运算与对第四编码结果进行解码的解码运算可以互为逆运算;本发明实施例中,上述对第二结构标签图的编码运算的实现方式和上述对第四编码结果的解码运算的实现方式均可以根据实际需求预先设置。
需要说明的是,本发明实施例并不对步骤A1和步骤A2的执行顺序进行限定,例如,步骤A1与步骤A2可以同时执行,步骤A1也可以在步骤A2前执行,步骤A1还可以在步骤A2之后执行。
步骤A3:根据第三图像和第四图像,训练数据生成网络。
在本发明的一些实施例中,可以判断是否满足数据生成网络的训练结束条件,在确定不满足数据生成网络的训练结束条件时,可以调整数据生成网络的网络参数,并重复执行步骤A1至步骤A3;在确定满足数据生成网络的训练结束条件时,可以得到训练完成的数据生成网络。
在本发明的一些实施例中,数据生成网络的训练结束条件可以根据实际情况预先设置;在一个示例中,数据生成网络的训练结束条件可以是网络迭代次数达到设定次数,设定次数可以根据实际应用需求预先设置;在另一个示例中,数据生成网络的训练结束条件可以是数据生成网络的图像处理精度指标达到第一设定精度,图像处理精度指标的类型和第一设定精度可以根据实际应用需求预先设置,例如,数据生成网络的图像处理精度指标可以是由第三图像和第四图像确定的,即,可以根据第三图像和第四图像判断数据生成网络的图像处理精度指标是否达到设定精度。
在实际应用中,步骤A1至步骤A3可以基于电子设备的处理器实现。
可以理解地,第四图像可以认为是在第二结构标签图的基础上新生成的一个结构标签图,因而,第四图像可以表示像素标注信息,此时,可以将第四图像表示的像素标注信息作为第三图像的像素标注信息,第三图像与第四图像可以用以实现数据生成网络的训练。
在本发明的一些实施例中,上述根据第三图像和第四图像,训练数据生成网络,可以包括:根据第三图像和第四图像,确定数据生成网络的损失,根据数据生成网络的损失,训练数据生成网络。
相应地,数据生成网络的训练结束条件可以是数据生成网络的损失小于第一设定损失,第一设定损失可以根据实际应用需求预先设置。
在本发明的一些实施例中,上述数据生成网络的损失是根据以下至少一种损失得出的:第一损失、第二损失、第三损失、第四损失、第五损失。
其中,第一损失表示第一信息、第二信息和第三信息的相对熵之和,所述第一信息表示样本图像的重建后外观信息,第二信息表示样本图像的重建后结构信息,第三信息表示第二结构标签图的重建后结构信息。
这里,相对熵又称为KL散度(Kullback-Leibler divergence),用于表示两个概率分布间差异的非对称性度量;在实际应用中,可以基于至少一个第三变量对样本图像进行编码,得到样本图像的重建后外观信息和重建后结构信息,即,得到第一信息和第二信息;可以基于第四变量对第二结构标签图进行编码,得到第四编码结果,该第四编码结果可以表示第二结构标签图的重建后结构信息。
第二损失用于表示样本图像与第三图像之间的重建损失、以及第二结构标签图与第四图像之间的重建损失。
这里,重建损失表示两个图像之间的像素值差异;在本发明的一些实施例中,可以对样本图像与第三图像之间的重建损失、以及第二结构标签图与第四图像之间的重建损失进行求和,得到第二损失。
第三损失用于表征样本图像与第二结构标签图之间的结构信息差异;第三损失是基于以下目的引入的损失:希望基于训练完成的数据生成网络进行编码处理后,通过编码得到的待处理图像的结构信息与第一结构标签图的结构信息相同或相差较小。
第四损失用于表征样本图像和第三图像中的人物身份信息的差异;第四损失是基于以下目的引入的损失:希望基于训练完成的数据生成网络进行数据处理后,通过数据处理得到的第一图像与待处理图像中的人物身份相同。
在实际应用中,可以预先训练人脸识别网络,用于识别人脸图像的人物身份信息;如此,可以将样本图像输入至预先训练完成的人脸识别网络中,得出样本图像中的人物身份信息;将第三图像输入至预先训练完成的人脸识别网络中,得出第三图像中的人物身份信息;然后,可以确定样本图像和第三图像中的人物身份信息的差异。
第五损失用于表征:第三图像的图像分割结果与第四图像的像素级语义差异。
在实际应用中,可以将第三图像输入至用于实现图像分割的图像分割网络中,得到第三图像的图像分割结果,进而,通过在像素级空间引入语义约束,可以确定第三图像的图像分割结果与第四图像的像素级语义差异。
在本发明的一些实施例中,可以对第一损失、第二损失、第三损失、第四损失和第五损失进行加权求和,得到数据生成网络的损失。
图3为本发明实施例中训练数据生成网络所需的网络架构示意图,如图3所示,可以将样本图像x输入至第一编码器E x 中,第一编码器E x 基于至少一个第三变量对样本图像x进行编码,得到第三编码结果,第一编码器E x 的种类可以根据样本图像x的类型进行设置,例如,在样本图像x为RGB图像时,第一编码器可以是RGB编码器。在一个具体的示例中,可以对样本图像x进行编码得到样本图像x对应的初始编码结果,样本图像对应的初始编码结果包括样本图像的初始外观信息和初始结构信息,这里,样本图像x的初始外观信息的均值为,样本图像x的初始外观信息的标准差为;样本图像x的初始结构信息的均值为,样本图像x的初始结构信息的标准差为。然后,可以基于第二外观信息变量,对样本图像x对应的初始外观信息进行重参数化操作,得到样本图像x的重建后外观信息(为样本图像x的外观隐变量);基于第二结构信息变量,对样本图像x对应的初始结构信息进行重参数化操作,得到样本图像x的重建后结构信息(为样本图像x的结构隐变量);第二外观信息变量和第二结构信息变量可以为相同的变量,例如,第二外观信息变量和第二结构信息变量均可以记为,服从的分布为高斯分布N(0,1)。
在一实施方式中,可以根据以下公式(1)对样本图像x对应的初始外观信息进行重参数化操作:
在一实施方式中,可以根据以下公式(2)对样本图像x对应的初始结构信息进行重参数化操作:
参照图3,在得到样本图像x的重建后外观信息和样本图像x的重建后结构信息后,可以将样本图像x的重建后外观信息和样本图像x的重建后结构信息 输入至第一解码器D x 中,第一解码器D x 对样本图像x的重建后外观信息和样本图像x的重建后结构信息进行解码,可以得到第三图像。
参照图3,还可以将第二结构标签图y输入至第二编码器E y 中,第二编码器E y 基于第四变量对第二结构标签图y进行编码,可以得到第四编码结果.在一个具体的示例中,第二编码器E y 可以对第二结构标签图y进行编码得到第二结构标签图y对应的初始编码结果;第二结构标签图y对应的初始编码结果的均值为,第二结构标签图y对应的初始编码结果的标准差为然后,可以基于第四变量,对第二结构标签图y对应的初始编码结果进行重参数化操作,得到第四编码结果,第四编码结果表示第二结构标签图y的重建后结构信息,第四编码结果为第二结构标签图y的结构隐变量。
在一实施方式中,可以根据以下公式(3)对第二结构标签图y对应的初始编码结果进行重参数化操作:
在本发明的一些实施例中,参照图3,还可以将样本图像x与第三图像输入至人脸识别网络31中,人脸识别网络31分别对样本图像x与第三图像进行处理,得到样本图像x中的人物身份信息和第三图像中的人物身份信息;如此,有利于计算上述第四损失。
在本发明的一些实施例中,第一损失可以根据公式(4)计算得出:
其中, 表示第一损失,和分别表示第一编码器E x 和第二编码器E y 的参数,、和都服从高斯分布N(0,I),I表示方差,、和分别代表、和的先验分布;、和分别表示、和的后验分布,表示计算两者的KL散度。
在本发明的一些实施例中,第一损失可以根据公式(5)计算得出:
在本发明的一些实施例中,第三损失可以记为分布对齐损失,第三损失可以根据公式(6)得出:
在本发明的一些实施例中,第四损失可以记为身份一致性损失,第四损失可以根据公式(7)得出:
在本发明的一些实施例中,第五损失可以根据公式(8)得出:
其中,表示第五损失,M表示第三图像或第四图像的像素个数;M=H*W,H表示第三图像或第四图像的高(即高度方向的像素个数),W表示第三图像或第四图像的宽(即宽度方向的像素个数),这里,第三图像与第四图像的像素尺寸相同。C表示通道数,表示第四图像中第m个像素位置、第c个通道的标签值,表示第三图像中第m个像素位置、第c个通道的像素值,表示将对应的图像分割网络32的输出结果。
在本发明的一些实施例中,数据生成网络的损失可以根据公式(9)得出:
在本发明的一些实施例中,在得到训练完成的数据生成网络后,可以利用数据生成网络执行步骤101至步骤103,得到第一图像和第二图像;第一图像与第二图像可以通过以下公式(10)和公式(11)表示:
其中,表示第一图像,表示第二图像,与组成配对的训练数据;表示待处理图像的重建后外观信息,表示待处理图像的重建后结构信息,表示第一结构标签图的重建后结构信息;在另一些实施例中,在得到后,可以利用公式,直接得出;示对第一编码结果进行的解码运算,即,第一解码器的解码运算;表示对第二编码结果进行的解码运算,即,第二解码器的解码运算。
在本发明的一些实施例中,还可以训练图像分割网络。图像分割网络的训练过程可以包括:
步骤B1:至少将第一图像输入至图像分割网络。
这里,步骤B1中的图像分割网络可以是未经训练的网络,也可以是经过训练但未训练完成的网络。
在本发明的一些实施例中,输入至图像分割网络的图像可以为第一图像;或者,输入至图像分割网络的图像可以包括第一图像和预先获取的真实图像,这里,真实图像可以是人脸图像;在实际应用中,可以从公开数据集或本地存储区域或其它网络位置中获取真实图像。
步骤B2:利用图像分割网络,对输入至所述图像分割网络的图像进行处理,得到第一图像分割结果。
步骤B3:根据第一图像分割结果与第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络。
在本发明的一些实施例中,可以判断是否满足图像分割网络的训练结束条件,在确定不满足图像分割网络的训练结束条件时,可以调整图像分割网络的网络参数,并重复执行步骤B1至步骤B3;在确定满足图像分割网络的训练结束条件时,可以得到训练完成的图像分割网络。
在本发明的一些实施例中,图像分割网络的训练结束条件可以根据实际情况预先设置;在一个示例中,图像分割网络的训练结束条件可以是网络迭代次数达到设定次数,设定次数可以根据实际应用需求预先设置;在另一个示例中,图像分割网络的训练结束条件可以是图像分割网络的图像分割精度指标达到第二设定精度,图像分割精度指标的类型和第二设定精度可以根据实际应用需求预先设置,例如,图像分割网络的图像分割精度指标可以是根据第一图像分割结果与第一图像的像素标注信息确定的,即,可以根据第一图像分割结果与第一图像的像素标注信息判断图像分割网络的图像分割精度指标是否达到第二设定精度。
在实际应用中,步骤B1至步骤B3可以基于电子设备的处理器实现。
可以理解地,根据第一图像分割结果与第一图像的像素标注信息,训练所述图像分割网络,有利于提升训练完成的图像分割网络的图像分割精度。
在本发明的一些实施例中,上述根据第一图像分割结果与第一图像的像素标注信息,训练图像分割网络,可以包括:根据第一图像分割结果与第一图像的像素标注信息,确定图像分割网络的损失;根据图像分割网络的损失,训练图像分割网络。
相应地,图像分割网络的训练结束条件可以是图像分割网络的损失小于第二设定损失,第二设定损失可以根据实际应用需求预先设置。
在本发明的一些实施例中,可以根据第一图像分割结果与第一图像的像素标注信息的差异,确定图像分割网络的损失。
在本发明的一些实施例中,图像分割网络的损失表示第一图像对应的广义交叉熵损失(generalized cross entropy loss)或其它类型的损失。示例性地,在输入至图像分割网络的图像为第一图像的情况下,可以直接计算第一图像对应的广义交叉熵损失,并将第一图像对应的广义交叉熵损失作为图像分割网络的损失。
在本发明的一些实施例中,上述至少将第一图像输入至图像分割网络,可以包括:将第一图像和预先获取的真实图像输入至图像分割网络;
相应地,上述根据第一图像分割结果与第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络,包括:
根据第一图像分割结果、第一图像的像素标注信息和真实图像的像素标注信息,训练图像分割网络,得到训练完成的图像分割网络;其中,第一图像分割结果包括:第一图像的图像分割结果和真实图像的图像分割结果。
在本发明的一些实施例中,根据第一图像分割结果、第一图像的像素标注信息和真实图像的像素标注信息,训练所述图像分割网络,可以包括:
根据第一图像分割结果、第一图像的像素标注信息和真实图像的像素标注信息,确定图像分割网络的损失;根据图像分割网络的损失,训练图像分割网络。
在本发明的一些实施例中,可以根据第一图像的图像分割结果与第一图像的像素标注信息的差异、以及真实图像的图像分割结果与真实图像的像素标注信息的差异,确定图像分割网络的损失。
在本发明的一些实施例中,图像分割网络的损失是根据以下损失得出的:真实图像对应的交叉熵损失(cross-entropy loss)和第一图像对应的广义交叉熵损失。示例性地,在输入至图像分割网络的图像包括第一图像和真实图像的情况下,针对第一图像,可以利用广义交叉熵损失表示图像分割网络的损失;针对真实图像,可以利用交叉熵损失表示图像分割网络的损失。
图4为本发明实施例中训练图像分割网络所需的网络架构示意图,如图4所示,在本发明的一些实施例中,可以将第一图像和真实图像X r 一起输入至图像分割网络41中,并根据第二图像和真实图像X r 的结构解析图Y r 训练图像分割网络41,真实图像X r 的结构解析图Y r 用于表示真实图像的像素标注信息;根据第二图像和真实图像X r 的结构解析图Y r 训练图像分割网络41,可以使图像分割网络41实现粗容忍学习(Coarseness-tolerantlearning)。
在本发明的一些实施例中,针对第一图像,可以利用交叉熵损失或广义交叉熵损失表示图像分割网络的损失;第一图像对应的广义交叉熵损失可以根据公式(12)得出:
在本发明的一些实施例中,针对真实图像,可以利用交叉熵损失表示图像分割网络的损失;真实图像对应的交叉熵损失可以根据公式(13)得出:
在本发明的一些实施例中,在得到训练完成的图像分割网络后,还可以基于训练完成的图像分割网络进行图像分割处理。
基于训练完成的图像分割网络进行图像分割处理可以包括:
步骤C1:获取待分割图像。
本发明实施例中,待分割图像可以是人脸图像或其它图像;待分割图像的个数可以是一个,也可以是多个。
这里,可以从本地存储区域或网络获取待分割图像,例如,待分割图像可以为通过移动终端或相机等拍摄的图像,或者,待分割图像可以是从公开数据集中获取的图像;待分割图像的格式可以是JPEG、BMP、PNG或其他格式;需要说明的是,这里仅仅是对待分割图像的格式和来源进行了举例说明,本公开实施例并不对待分割图像的格式和来源进行限定。
步骤C2:将待分割图像输入至训练完成的图像分割网络,利用训练完成的图像分割网络对待分割图像进行处理,得到第二图像分割结果。
在实际应用中,步骤C1至步骤C2可以基于电子设备的处理器实现。
可以理解地,本发明实施例中,利用训练完成的图像分割网络对待分割图像进行处理,可以实现对待分割图像的图像分割处理。
下面通过表1示例性说明本发明实施例的技术效果。
表1表示通过四种方法对相同的图像进行图像分割处理时的图像分割准确率的对比表,表1中,方法1表示一种现有的图像分割方法;方法2中,图像分割网络为PSPNet网络,只使用真实图像对图像分割网络进行训练,然后基于训练完成的图像分割网络进行图像分割处理;方法3中,图像分割网络为PSPNet网络,使用真实图像和第一图像对图像分割网络进行训练,针对真实图像和第一图像均采用交叉熵损失来表示图像分割网络的损失,然后基于训练完成的图像分割网络进行图像分割处理;方法4中,图像分割网络为PSPNet网络,使用真实图像和第一图像对图像分割网络进行训练,针对真实图像采用交叉熵损失来表示图像分割网络的损失,针对第一图像采用广义交叉熵损失来表示图像分割网络的损失,然后基于训练完成的图像分割网络进行图像分割处理。
表1中,mIoU(mean Intersection over Union)表示均交并比,mIoU表示各类像素(如皮肤、鼻子,眼睛等)的交并比的平均值;mAcc(mean Accuracy)表示平均准确率,具体地说,mAcc表示各类像素的准确率的平均值。
通过表1可以看出,总体来说,方法1、方法2、方法3和方法4的图像分割准确率平均值呈现从低到高的排列,方法1、方法2、方法3和方法4的mIOU指标呈现从低到高的排列,方法3或方法4的mAcc指标优于方法1和方法2的mAcc指标;因而,通过本发明实施例的方法对图像分割网络进行训练,有利于提高图像分割网络的图像分割准确率。
在前述实施例提出的数据处理方法的基础上,本发明实施例还提出了一种数据处理装置。
图5为本发明实施例的数据处理装置的组成结构示意图,如图5所示,该装置可以包括:
获取模块501,用于获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;
处理模块502,用于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。
可选地,所述至少一个所述第一变量包括第一外观信息变量和第一结构信息变量;
所述处理模块502,用于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果,包括:
对所述待处理图像进行编码得到初始编码结果,所述初始编码结果包括所述待处理图像的初始外观信息和初始结构信息;
基于第一外观信息变量,对所述初始外观信息进行重参数化操作,得到所述待处理图像的重建后外观信息;基于所述第一结构信息变量,对所述初始结构信息进行重参数化操作,得到所述待处理图像的重建后结构信息;
得到第一编码结果,所述第一编码结果包括所述待处理图像的重建后外观信息和重建后结构信息。
可选地,基于所述至少一个第一变量对所述待处理图像进行编码得到第一编码结果、对所述第一编码结果进行解码得到第一图像、基于所述第二变量对所述第一结构标签图进行编码,得到第二编码结果、以及对所述第二编码结果进行解码得到第二图像的步骤由数据生成网络实现,所述数据生成网络是基于样本图像和第二结构标签图训练得到的,所述第二结构标签图表示所述样本图像的像素标注信息。
可选地,所述装置还包括第一训练模块;
第一训练模块,用于基于至少一个第三变量对所述样本图像进行编码,得到第三编码结果;对所述第三编码结果进行解码,得到第三图像;基于第四变量对所述第二结构标签图进行编码,得到第四编码结果;对所述第四编码结果进行解码,得到第四图像;根据所述第三图像和所述第四图像,训练所述数据生成网络。
可选地,所述第一训练模块,用于根据所述第三图像和所述第四图像,训练所述数据生成网络,包括:
根据所述第三图像和所述第四图像,确定所述数据生成网络的损失,根据所述数据生成网络的损失,训练所述数据生成网络。
可选地,所述数据生成网络的损失是根据以下至少一种损失得出的:第一损失、第二损失、第三损失、第四损失、第五损失;
其中,所述第一损失表示第一信息、第二信息和第三信息的相对熵之和,所述第一信息表示所述样本图像的重建后外观信息,所述第二信息表示所述样本图像的重建后结构信息,所述第三信息表示所述第二结构标签图的重建后结构信息;所述第二损失用于表示所述样本图像与所述第三图像之间的重建损失、以及所述第二结构标签图与所述第四图像之间的重建损失;所述第三损失用于表征所述样本图像与所述第二结构标签图之间的结构信息差异;所述第四损失用于表征所述样本图像和所述第三图像中的人物身份信息的差异;所述第五损失用于表征:所述第三图像的图像分割结果与所述第四图像的像素级语义差异。
可选地,所述装置还包括第二训练模块;
第二训练模块,用于至少将所述第一图像输入至图像分割网络;利用所述图像分割网络,对输入至所述图像分割网络的图像进行处理,得到第一图像分割结果;根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络。
可选地,所述第二训练模块用于根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,包括:
根据所述第一图像分割结果与所述第一图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
可选地,所述图像分割网络的损失表示所述第一图像对应的广义交叉熵损失。
可选地,所述第二训练模块,用于至少将所述第一图像输入至图像分割网络,包括:将所述第一图像和预先获取的真实图像输入至所述图像分割网络;
所述第二训练模块,用于根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络,包括:
根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络;其中,所述第一图像分割结果包括:所述第一图像的图像分割结果和所述真实图像的图像分割结果。
可选地,所述第二训练模块,用于根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,包括:根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
可选地,所述图像分割网络的损失是根据以下损失得出的:所述真实图像对应的交叉熵损失和所述第一图像对应的广义交叉熵损失。
可选地,所述处理模块502,还用于获取待分割图像;将所述待分割图像输入至所述训练完成的图像分割网络,利用所述训练完成的图像分割网络对所述待分割图像进行处理,得到第二图像分割结果。
上述获取模块501和处理模块502均可由位于电子设备中的处理器实现,上述处理器为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory ,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种数据处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种数据处理方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种数据处理方法。
基于前述实施例相同的技术构思,参见图6,其示出了本发明实施例提供的一种电子设备60,可以包括:存储器61、处理器62及存储在存储器61上并可在处理器62上运行的计算机程序;其中,
存储器61,用于存储计算机程序和数据;
处理器62,用于执行所述存储器中存储的计算机程序,以实现前述实施例的任意一种数据处理方法。
在实际应用中,上述存储器61可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM,快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器62提供指令和数据。
上述处理器62可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
在一些实施例中,本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述
本申请所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;
基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;
基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。
2.根据权利要求1所述的方法,其特征在于,所述至少一个所述第一变量包括第一外观信息变量和第一结构信息变量;
所述基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果,包括:
对所述待处理图像进行编码得到初始编码结果,所述初始编码结果包括所述待处理图像的初始外观信息和初始结构信息;
基于所述第一外观信息变量,对所述初始外观信息进行重参数化操作,得到所述待处理图像的重建后外观信息;基于所述第一结构信息变量,对所述初始结构信息进行重参数化操作,得到所述待处理图像的重建后结构信息;
得到第一编码结果,所述第一编码结果包括所述待处理图像的重建后外观信息和重建后结构信息。
3.根据权利要求1所述的方法,其特征在于,基于所述至少一个第一变量对所述待处理图像进行编码得到第一编码结果、对所述第一编码结果进行解码得到第一图像、基于所述第二变量对所述第一结构标签图进行编码,得到第二编码结果、以及对所述第二编码结果进行解码得到第二图像的步骤由数据生成网络实现,所述数据生成网络是基于样本图像和第二结构标签图训练得到的,所述第二结构标签图表示所述样本图像的像素标注信息。
4.根据权利要求3所述的方法,其特征在于,所述数据生成网络的训练过程包括:
基于至少一个第三变量对所述样本图像进行编码,得到第三编码结果;对所述第三编码结果进行解码,得到第三图像;
基于第四变量对所述第二结构标签图进行编码,得到第四编码结果;对所述第四编码结果进行解码,得到第四图像;
根据所述第三图像和所述第四图像,训练所述数据生成网络。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三图像和所述第四图像,训练所述数据生成网络,包括:
根据所述第三图像和所述第四图像,确定所述数据生成网络的损失,根据所述数据生成网络的损失,训练所述数据生成网络。
6.根据权利要求5所述的方法,其特征在于,所述数据生成网络的损失是根据以下至少一种损失得出的:第一损失、第二损失、第三损失、第四损失、第五损失;
其中,所述第一损失表示第一信息、第二信息和第三信息的相对熵之和,所述第一信息表示所述样本图像的重建后外观信息,所述第二信息表示所述样本图像的重建后结构信息,所述第三信息表示所述第二结构标签图的重建后结构信息;所述第二损失用于表示所述样本图像与所述第三图像之间的重建损失、以及所述第二结构标签图与所述第四图像之间的重建损失;所述第三损失用于表征所述样本图像与所述第二结构标签图之间的结构信息差异;所述第四损失用于表征所述样本图像和所述第三图像中的人物身份信息的差异;所述第五损失用于表征:所述第三图像的图像分割结果与所述第四图像的像素级语义差异。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
至少将所述第一图像输入至图像分割网络;
利用所述图像分割网络,对输入至所述图像分割网络的图像进行处理,得到第一图像分割结果;
根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,包括:
根据所述第一图像分割结果与所述第一图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
9.根据权利要求8所述的方法,其特征在于,所述图像分割网络的损失表示所述第一图像对应的广义交叉熵损失。
10.根据权利要求7所述的方法,其特征在于,所述至少将所述第一图像输入至图像分割网络,包括:
将所述第一图像和预先获取的真实图像输入至所述图像分割网络;
所述根据所述第一图像分割结果与所述第一图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络,包括:
根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,得到训练完成的图像分割网络;其中,所述第一图像分割结果包括:所述第一图像的图像分割结果和所述真实图像的图像分割结果。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,训练所述图像分割网络,包括:
根据所述第一图像分割结果、所述第一图像的像素标注信息和所述真实图像的像素标注信息,确定所述图像分割网络的损失;根据所述图像分割网络的损失,训练所述图像分割网络。
12.根据权利要求11所述的方法,其特征在于,所述图像分割网络的损失是根据以下损失得出的:所述真实图像对应的交叉熵损失和所述第一图像对应的广义交叉熵损失。
13.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取待分割图像;
将所述待分割图像输入至所述训练完成的图像分割网络,利用所述训练完成的图像分割网络对所述待分割图像进行处理,得到第二图像分割结果。
14.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像和第一结构标签图,所述第一结构标签图表示所述待处理图像的像素标注信息;
处理模块,用于基于至少一个第一变量对所述待处理图像进行编码,得到第一编码结果;对所述第一编码结果进行解码,得到第一图像;基于第二变量对所述第一结构标签图进行编码,得到第二编码结果;对所述第二编码结果进行解码,得到第二图像;将所述第二图像表示的像素标注信息作为所述第一图像的像素标注信息。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至13任一项所述的方法。
16.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011290480.1A CN112101371B (zh) | 2020-11-18 | 2020-11-18 | 数据处理方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011290480.1A CN112101371B (zh) | 2020-11-18 | 2020-11-18 | 数据处理方法、装置、电子设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101371A true CN112101371A (zh) | 2020-12-18 |
CN112101371B CN112101371B (zh) | 2021-09-10 |
Family
ID=73785166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011290480.1A Active CN112101371B (zh) | 2020-11-18 | 2020-11-18 | 数据处理方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101371B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409694A (zh) * | 2022-11-03 | 2022-11-29 | 季华实验室 | 语义引导的缺陷图像生成方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055237A1 (en) * | 2014-08-20 | 2016-02-25 | Mitsubishi Electric Research Laboratories, Inc. | Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation |
CN110517759A (zh) * | 2019-08-29 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种待标注图像确定的方法、模型训练的方法及装置 |
CN111612068A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 图像标注方法、装置、计算机设备及存储介质 |
CN111915585A (zh) * | 2020-07-29 | 2020-11-10 | 深圳市商汤科技有限公司 | 图像标注方法、装置、设备以及存储介质 |
-
2020
- 2020-11-18 CN CN202011290480.1A patent/CN112101371B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160055237A1 (en) * | 2014-08-20 | 2016-02-25 | Mitsubishi Electric Research Laboratories, Inc. | Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation |
CN110517759A (zh) * | 2019-08-29 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种待标注图像确定的方法、模型训练的方法及装置 |
CN111612068A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 图像标注方法、装置、计算机设备及存储介质 |
CN111915585A (zh) * | 2020-07-29 | 2020-11-10 | 深圳市商汤科技有限公司 | 图像标注方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
张雪菲等: "基于变分自编码器的人脸图像修复", 《计算机辅助设计与图形学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409694A (zh) * | 2022-11-03 | 2022-11-29 | 季华实验室 | 语义引导的缺陷图像生成方法、装置、设备及存储介质 |
CN115409694B (zh) * | 2022-11-03 | 2023-01-13 | 季华实验室 | 语义引导的缺陷图像生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112101371B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
Deng et al. | Graph Laplace for occluded face completion and recognition | |
Sharma et al. | 3d face reconstruction in deep learning era: A survey | |
US20220222897A1 (en) | Portrait editing and synthesis | |
Oring | Autoencoder image interpolation by shaping the latent space | |
WO2024109374A1 (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
JP7337268B2 (ja) | 三次元エッジ検出方法、装置、コンピュータプログラム及びコンピュータ機器 | |
CN113705290A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Galteri et al. | Deep 3d morphable model refinement via progressive growing of conditional generative adversarial networks | |
CN111695462A (zh) | 一种人脸识别方法、装置、存储介质和服务器 | |
Biza et al. | Invariant slot attention: Object discovery with slot-centric reference frames | |
CN112101371B (zh) | 数据处理方法、装置、电子设备和计算机存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
Huang et al. | Object-occluded human shape and pose estimation with probabilistic latent consistency | |
Di et al. | Ccd-3dr: Consistent conditioning in diffusion for single-image 3d reconstruction | |
Luan et al. | Learning unsupervised face normalization through frontal view reconstruction | |
CN116993948A (zh) | 一种人脸三维重建方法、系统及智能终端 | |
CN114862716B (zh) | 人脸图像的图像增强方法、装置、设备及存储介质 | |
Daniel et al. | Unsupervised image representation learning with deep latent particles | |
Zhou et al. | Groomgen: A high-quality generative hair model using hierarchical latent representations | |
Molnár et al. | Variational autoencoders for 3D data processing | |
Zhao et al. | Rethinking superpixel segmentation from biologically inspired mechanisms | |
Lin et al. | Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic Images in Facial Capture Pipelines | |
Qin et al. | Self-supervised single-image 3D face reconstruction method based on attention mechanism and attribute refinement | |
Li et al. | Geometry to the rescue: 3d instance reconstruction from a cluttered scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |