CN114120068A - 图像处理方法、装置、电子设备、存储介质及计算机产品 - Google Patents
图像处理方法、装置、电子设备、存储介质及计算机产品 Download PDFInfo
- Publication number
- CN114120068A CN114120068A CN202111642974.6A CN202111642974A CN114120068A CN 114120068 A CN114120068 A CN 114120068A CN 202111642974 A CN202111642974 A CN 202111642974A CN 114120068 A CN114120068 A CN 114120068A
- Authority
- CN
- China
- Prior art keywords
- image
- data set
- images
- training
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 title claims description 87
- 238000012549 training Methods 0.000 claims abstract description 166
- 238000000034 method Methods 0.000 claims abstract description 106
- 238000003062 neural network model Methods 0.000 claims abstract description 58
- 210000000720 eyelash Anatomy 0.000 claims description 108
- 230000003287 optical effect Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 22
- 238000009877 rendering Methods 0.000 claims description 17
- 239000002131 composite material Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 210000001508 eye Anatomy 0.000 description 36
- 239000003795 chemical substances by application Substances 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000012360 testing method Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 9
- 230000003628 erosive effect Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 210000003128 head Anatomy 0.000 description 6
- 238000002073 fluorescence micrograph Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 210000001747 pupil Anatomy 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 208000015592 Involuntary movements Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000007519 figuring Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000017311 musculoskeletal movement, spinal reflex action Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000011049 pearl Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20224—Image subtraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、电子设备、存储介质及计算机产品,涉及多媒体、游戏、人工智能和云技术领域。该方法包括:获取多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;确定每个图像对中的两张图像之间的差分图像,并确定该差分图像的三分图;基于各图像对以及各图像对对应的三分图,构建训练数据集,训练数据集中的每个第一样本数据包括一个图像对中的目标图像和该图像对对应的三分图,目标图像为图像对中的任一图像。基于本申请实施例提供的方法,能够为神经网络模型的训练提供更加丰富、训练效果更好的训练数据集。
Description
技术领域
本申请涉及人工智能、云技术及多媒体技术领域,具体而言,本申请涉及一种图像处理方法、装置、电子设备、存储介质及计算机产品。
背景技术
随着文化产业的发展,电影以及游戏等多个产业中对高质量角色的需求日益增长。为了重建一个高质量的角色人物,工业界广泛采用多视角立体视觉重建(MVS,Multi-view Stereo)技术,但是该技术的重建精度不够理想,尤其是对于生理结构比较复杂的部分,产生的重建误差可能会是灾难性的,需要建模师采用手工的方式、耗费大量的时间进行修复。
针对上述问题,人们也探索了一系列抠除人物图像中一些部位的方法来减弱这些部位对应于几何重建的影响,基于数据驱动的深度学习方式就是其中之一,该方式可以通过从真实的数据集来学习一些部位的结构信息,但是由于现有数据集的不完善,基于深度学习的方式虽然能够带来一些重建效果的改善,但是有些部位的处理效果仍不够理想、有待改进。
发明内容
本申请实施例提供了一种图像处理方法、装置、电子设备、存储介质及计算机产品,基于该方案,能够构建得到用于提升神经网络模型性能的训练数据集。为了实现该目的,本申请实施例提供的技术方案如下:
一方面,本申请提供了一种图像处理方法,该方法包括:
获取多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;
确定每个图像对中的两张图像之间的差分图像,并确定该差分图像的三分图;
基于各图像对以及各图像对对应的三分图,构建训练数据集,其中,训练数据集中包括多个第一样本数据,每个第一样本数据包括一个图像对中的目标图像和该图像对对应的三分图,目标图像为图像对中的任一图像。
另一方面,本申请实施例提供了一种图像处理装置,该装置包括:
图像获取模块,用于获取多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;
三分图获取模块,用于确定每个图像对中的两张图像之间的差分图像,并确定该差分图像的三分图;
数据集构建模块,用于基于各图像对以及各图像对对应的三分图,构建训练数据集,其中,训练数据集中包括多个第一样本数据,每个第一样本数据包括一个图像对中的目标图像和该图像对对应的三分图,目标图像为图像对中的任一图像。
可选的,数据集构建模块还可以用于:确定各第一样本数据对应的前景蒙版;其中,训练数据集中还包括各第一样本数据对应的前景蒙版。
可选的,数据集构建模块在确定各第一样本数据对应的前景蒙版时,可以用于:
获取初始数据集,初始数据集包括多个第二样本数据,每个第二样本数据包括目标部位的样本图像、该样本图像的三分图和该样本图像的真实前景蒙版;
基于初始数据集执行至少一次以下训练操作,通过最后一次操作得到的第二模型预测得到各第一样本数据对应的前景蒙版:
基于初始数据集对初始神经网络模型进行训练,得到第一模型,其中,神经网络模型的输入包括一个样本图像和该样本图像的三分图,输出为预测得到的该样本图像的前景蒙版;
通过第一模型预测各第一样本数据对应的前景蒙版;
将各第一样本数据对应的前景蒙版作为真实前景蒙版,采用多个第一样本数据中的至少部分样本数据和该部分样本数据对应的前景蒙版,对初始数据集进行扩充,得到中间数据集;
基于中间数据集对第一模型进行训练,得到第二模型,将第二模型作为下一次训练操作时的初始神经网络模型,将中间数据集作为下一次训练操作时的初始数据集。
可选的,上述初始数据集中包括通过图像渲染方式构建的合成数据集;上述训练数据集包括初始数据集。
可选的,目标部位为目标对象的睫毛。
可选的,目标部位在图像对的两张图像中的颜色信息的不同,是在采集图像对时通过颜色显示控制设备的控制实现的。
可选的,在采集图像对时,目标部位上涂有隐形荧光剂,颜色显示控制设备开启时产生指定光源,隐形荧光剂在指定光源的照射下显色。
可选的,三分图获取模块在确定每个图像对中的两张图像之间的差分图时,可以用于:
确定每个图像对中两张图像之间的光流信息;
对于每个图像对,基于该图像对对应的光流信息对该图像对中的任一图像进行调整,确定该调整后的图像和该图像对中的另一图像之间的差分图像。
可选的,每个图像对中包括目标部位的颜色是该部位的原色时所采集的一张图像,目标图像为对应于原色的图像。
可选的,图像获取模块具体可以用于:在同一场景下,通过多视角图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对。
可选的,每个图像对是图像采集设备处于连拍模式下拍摄的两张图像。
另一方面,本申请实施例还提供了一种图像处理系统,该系统包括图像采集设备、颜色显示控制设备和图像处理设备;图像采集设备用于采集多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;颜色显示控制设备用于在通过图像采集设备采集图像对时,控制采集得到的图像对中的两张图像中上述目标部位的颜色信息的不同;图像处理设备用于基于图像采集设备采集的多个图像对,通过执行本申请任一可选实施例提供的方法,得到训练数据集。
另一方面,本申请实施例还提供了一种图像处理方法,该方法包括:
获取待处理图像;
基于待处理图像,调用训练好的图像处理模型,预测得到待处理图像的前景蒙版;其中,上述图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请实施例提供的图像处理方法所构建得到的,训练数据集中包括多张图像和各张图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到图像处理模型,其中,神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
可选的,上述待处理图像可以是包含上述目标部位的图像。
可选的,上述待处理图像也可以是包含任意对象的图像,该任意对象为待处理图像中的前景,通过上述图像处理模型可以预测得到待处理图像中该任意对象所对应的前景蒙版。
相应的,本申请实施例还提供一种图像处理装置,该装置可以包括:
待处理数据获取模块,用于获取待处理图像;
图像处理模块,用于基于待处理图像,调用训练好的图像处理模型,预测得到待处理图像的前景蒙版;其中,图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请实施例提供的图像处理方法所构建得到的,训练数据集中包括多张图像和各张图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到图像处理模型,其中,神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
另一个方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本申请任一实施例提供的方法的步骤。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请任一实施例提供的方法的步骤。
再一方面,本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一实施例提供的方法的步骤。
本申请实施例提供的技术方案带来的有益效果如下:
本申请实施例提供的图像处理方法,通过获取多个图像对,基于该多个图像对,可以方便、快捷地实现用于预测图像的前景蒙版的神经网络模型的训练数据集的构建,由于每个图像对是同一目标对象的同一目标部位的两张图像,且两张图像中目标部位的颜色信息不同,因此,通过每个图像对的两张图像之间的差分图像所得到的每个图像对对应于上述目标部位的三分图是相对非常真实、准确的,从而基于各图像对和各图像对对应的三分图所构建的训练数据集,为训练得到具有更佳性能的上述神经网络模型提供了非常好的数据基础,更好的满足了实际应用需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种图像处理方法的流程示意图;
图2为本申请实施例所适用的一种基于光流信息对图像进行调整的原理示意图;
图3为本申请实施例提供的一种图像处理系统的结构示意图;
图4为本申请实施例提供的一种图像处理方法的原理示意图;
图5为本申请实施例提供的采用多种方式预测预测出的图像中睫毛的前景蒙版的对比效果示意图;
图6为本申请实施例提供的一种图像处理方法的流程示意图;
图7为本申请实施例提供的一种图像处理装置的结构示意图;
图8为本申请实施例所适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。这里使用的术语“和/或”或者“至少一项”指示该术语所限定的项目中的至少一个,例如“A和/或B”或者“A或B中的至少一项”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“A包括A1、A2、A3”的描述,可以实现为A包括A1或A2或A3,还可以实现为A包括A1、A2、A3这三项中的至少两项。
在很多应用场景中,图像处理已经成为人们生活、工作中不可缺少的技术之一。无论是工业化应用中的人物编辑(如睫毛编辑),比如,游戏中游戏角色的编辑(比如,去除或修改游戏角色的睫毛,或者将真实对象的睫毛应用于游戏角色中),还是人们日常生活中的修图,都离不开图像处理。在这些需求中,抠图处理是非常重要的一环。而随着人工智能技术的发展,基于深度学习的图像处理技术也发展的如火如荼,在很多应用中已投入使用。现有的基于深度学习的抠图处理方式,虽然已经能够取得整体效果不错的抠图效果,但是对于一些生理结构复杂的部位,比如睫毛这一部位,现有技术仍无法有效的提取出该部位,这是因为现有的抠图数据库的生成方式是通过严格控制背景来提取前景蒙版,但是由于睫毛与皮肤、眼睛的背景是相连的,现有数据库构建方式无法构建睫毛数据库,因此,对于包括睫毛在内的一些部位,现有技术仍无法得到局部的精确处理效果。
针对现有技术中的存在的问题,本申请实施例提出了一种图像处理方法,基于该方法所构建得到的训练数据集,能够训练得到具有很好性能的神经网络模型,能够更好的满足实际应用需求。
可选的,本申请实施例提供的图像处理方法中的一些步骤,可以基于人工智能(Artificial Intelligence,AI)技术实现。比如,对于图像的前景蒙版的获取可以通过神经网络模型(如基于带有GCA(Guided Contextual Attention,上下文引导的注意力机制)的图像抠图模型)预测得到。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可选的,本申请实施例所涉及的数据处理可以基于云技术(Cloud technology)实现,比如,图像对的差分图像的计算、图像对应的三分图的获取、神经网络模型的训练等步骤中的一个或多个步骤可以采用云技术实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请实施例提供的图像处理方法,可以由任一电子设备执行,比如,可以由任一用户终端或服务器执行,服务器可以是物理服务器,也可以是云服务器,还可以是服务器集群。上述用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。
需要说明的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。比如,用户的图像等信息的获取,是在用户授权同意并符合相关法律法规等规定的前提下获取的。
为了更好的理解和说明本申请实施例提供的方案,下面首先对本申请实施例中所涉及的一些技术用语进行说明。
遮罩图像:本申请实施例中的差分图像,是将两幅图像进行对应位置的像素值相减操作得到的图像。
三分图:是指将图像划分为了包括前景区域、背景区域和未知区域的图,其中,未知区域是指图像中不确定是前景还是背景的区域。本申请实施例中,三分图可以是指包含未知区域和背景区域两部分的二值图,如背景区域的像素值为0,未知区域的像素值为128。
前景蒙版:也可以称为前景透明度或透明度蒙版,是图像中前背景分离的结果,可以是一个灰度图,每一个像素点的灰度值表示原始图像每个像素属于前景(如睫毛)的程度,白色代表某一个像素确定属于前景,黑色代表某一个像素确定属于背景。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种图像处理方法的流程示意图,该方法可以由任意的电子设备执行,如图1中所示,该图像处理方法可以包括以下步骤S110-步骤S130。
步骤S110:获取多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,目标部位在两张图像中的颜色信息不同。
其中,上述多个图像对中对应的目标对象可以是一个对象,也可以是多个对象,该对象即为本申请实施例提供的方案中的被试。本申请实施例提供的方案,通过对目标对象进行图像采集,来获取构建训练数据集的真实数据,从而使得构建得到的训练数据集中的图像数据更加真实,更加符合实际,为后续基于该训练数据集的图像处理提供了很好的数据支持。当然,对于目标对象的图像数据的采集,是在目标对象授权的情况下进行的。其中,目标对象可以包括但不限于人。
需要说明的是,本申请实施例中所描述的“多个”是指至少两个,可以是两个或两个以上。
在本申请实施例中,目标部位可以是目标对象的任一部位,可以包括但不限于生理结构复杂的部位。可选的,该目标部位可以是目标对象的睫毛。可以理解的是,对于睫毛而言,上述同一个目标部位指的是同一个目标对象的同一只眼睛的睫毛。
在实际采集图像时,可以于同一场景下,通过图像采集设备采集同一目标对象的眼部区域的图像来得到对应于睫毛的图像对。需要说明的是,本申请实施例中所描述的同一场景,是指在采集同一图像对中的两张图像时,采集环境是相同的,可以理解为两张图像中除了目标部位对应的图像区域之外其他图像区域理论上是相同的。
为了构建出图像数据更加丰富的数据集,本申请实施例中,对于睫毛这一目标区域,上述多个图像对中包括多个对应于同一目标对象的左眼的图像对和多个对应于同一目标对象的右眼的图像对。多个图像对可以通过对多个目标对象分别进行图像采集得到。
目前,在图像处理技术中,以人脸重建为例,现有技术都无法很好的实现毛发级别的几何结构的重建。虽然随着深度学习技术的不断发展,重建的精度也在不断的提升,但是由于深度学习所需的数据集的缺乏,对于一些生理结构复杂的部位的重建,现有基于深度学习的三维重建方式也未能取得较好的结果。而本申请实施例提供的该方法,为实现包括但不限于睫毛在内的、具有复杂生理结构的部位的精确处理(该处理包括但不限于三维重建),提供了很好的学习数据集。
步骤S120:确定每个图像对中的两张图像之间的差分图像,并确定该差分图像的三分图。
步骤S130:基于各图像对以及各图像对对应的三分图,构建训练数据集。
其中,上述训练数据集中包括多个第一样本数据,每个第一样本数据包括一个上述图像对中的目标图像和该图像对对应的三分图,目标图像为图像对中的任一图像。
对于每个图像对,由于该图像对是同一目标对象的同一目标部位的两张图像,且两张图像中该目标部位的颜色信息是不同的,因此,可以通过将两张图像相减,对该图像中的大部分的背景进行去除,得到对应于该目标部位的差分图像。可以理解的是,在本申请实施例中,目标部位是各图像对中的前景。
在得到每个图像对对应的差分图像之后,可以基于该差分图像来得到该图像对对应的三分图即trimap图。可选的,对于每个图像对,可以通过对该图像对对应的差分图像进行图像腐蚀、膨胀等处理来得到对应的三分图。由于本申请实施例中的该差分图像是基于采集得到的只有目标部位的颜色信息不同的两张图像得到的,因此,基于该差分图像能够得到精确度很好的三分图。从而,可以基于各图像对和各图像对对应的三分图来构建训练数据集。进一步的,可以基于该数据集训练得到能够很好的预测出图像的前景蒙版的神经网络模型。
采用目标图像和目标图像的三分图来构建训练数据集能够更好的适用于现有常用的一些神经网络模型,可以无需对模型进行修改或者是根据实际需求进行微调即可。比如,该训练数据集可以适用于基于GCA的抠图模型,该模型的输入为一张图像和该图像的三分图。
在实际实施时,对于获取差分图像所对应的三分图的具体方式本申请实施例不做限定。可选的,对于一张差分图像,可以通过腐蚀、膨胀、归一化等处理来生成三分图。具体的,对于差分图像中的一个点,可以取以该点为中心的一个设定大小的像素块,比如大小为n*n的像素块(n可以根据应用需求调节),该像素块中最大像素值可以记为Max,最小像素值记为Min。在进行腐蚀操作中,可以将该像素块的所有像素值设置为Min,得到腐蚀操作后的图像,之后可以进行膨胀操作,在该操作中,可以将像素块(当然该像素块的大小和腐蚀操作时的像素块的大小可以相同,也可以不同)的所有像素值设置为Max,之后,在归一化操作中,可以设置一个像素值阈值t(t是可调节参数),然后将腐蚀膨胀处理后的图像中像素值大于t的点的像素值设置为128(该值是可调整的,如也可以是127或其他值,用于表示未知区域的像素点),小于t的像素点的像素值设置为0,从而得到三分图。在实际应用中,由于图像中目标部位(如睫毛图像中的睫毛)通常很难准确的确定哪一部分是前景。因此,本申请实施例中的三分图可以是基于差分图像进行腐蚀、膨胀和归一化处理后生成的带有未知区域和背景区域的三分图。
需要说明的是,作为另一可选方案,上述三分图也可以是包含未知区域、背景区域和前景区域的三分图,比如,可以设置两个像素点阈值,第一阈值和第二阈值,第一阈值大于第二阈值,可以将大于第一阈值的像素值设置为1,表示像素点是前景点,将小于第二阈值的设置为0,表示像素点为背景点,将位于两个阈值之间的像素值设置为128,表示未知区域的像素点。
其中,在基于本申请实施例所构建的训练数据集对神经网络模型进行训练的过程中,该神经网络模型的输入可以包括上述第一样本数据中的目标图像和该目标图像的三分图(也就是该目标图像所属图像对对应的三分图)。基于本申请实施例提供的该图像处理方法,可以得到很好的用于训练上述神经网络模型的输入数据,为基于深度学习方式训练得到性能很好的、能够用于预测一个图像中所包含的对象的目标部位的前景蒙版的神经网络模型提供了很好的先验信息支撑。此外,由于本申请实施例中的三分图是可以基于图像对之间的差分图像自动生成的,而无需人工标注的方式,可以大大提高样本数据的获取效率。
作为一种可选方案,对于每个图像对,可以得到两个第一样本数据,也就是说,可以将图像对中的两张图像分别作为目标图像,并与该图像对对应的三分图组合,得到两个第一样本数据。
作为另一可选方案,为了尽量避免由于额外引入的颜色信息对图像中其他区域所带来的影响,每个图像对中可以包括上述目标部位的颜色是该部位的原色时所采集的一张图像,上述目标图像为图像对中对应于目标部位的颜色是该部位的原色的图像。即每个图像对中可以包括一张目标部位的颜色是原色时的图像和一张目标部位的颜色是非原色时的图像,比如,目标部位是睫毛,可以给目标对象的睫毛涂上隐形荧光剂,隐形荧光剂不显示时采集的眼部图像是睫毛原色的图像(第一图像),隐形荧光剂显色时采集的眼部图像为非睫毛原色的图像(第二图像)。为了避免荧光剂显色产生的其他影响,对于每个图像对,上述第一样本数据可以包括该图像对中的第一图像和该图像对对应的三分图。
本申请的可选实施例中,对于每个上述图像对,目标部位在该图像对的两张图像中的颜色信息的不同,可以是在采集该图像对时通过颜色显示控制设备的控制实现的。
也就是说,在采集上述图像对时,可以配置有颜色显示控制设备,通过该设备可以实现对目标对象的目标部位的显示颜色的控制。对于颜色显示控制设备的选取和控制颜色不同的方式,本申请实施例不做限定,可以在不会对目标对象造成不良影响的前提下,根据实际需求和场景来选择。
作为一可选方式,在采集上述图像对时,上述目标部位上可以涂有隐形荧光剂,上述颜色显示控制设备开启时可以产生指定光源,上述隐形荧光剂在指定光源的照射下显色。
可以理解的是,上述隐形荧光剂在显色时,所显示的颜色是与目标部位的原色(目标部位的本色)不同的颜色。可选的,上述颜色显示控制设备可以是紫外线闪光灯,隐形荧光剂可以是在紫外灯照射下显色、在自然光照射下无色的荧光剂。
采用该方式,在采集每个图像对时,可以在颜色显示控制设备开启和关闭的状态下,分别进行目标部位的图像采集,以得到目标部位的颜色信息不同的图像对。当然,作为另一可选方式,也可以采用在颜色显示控制设备开启和关闭状态下显示不同颜色的变色荧光剂。
需要说明的是,无论采用何种荧光剂、何种颜色显示控制设备,荧光剂和颜色显示控制设备都应该是符合国际标准要求的,不会对目标对象造成不良影响的荧光剂和设备。比如,在采集眼部图像时,如果采用紫外线闪光灯,可以使用符合国际电工委员会的照明标准的低功率的紫外线闪光灯,紫外线闪光灯在发光时可以距离眼部一定距离以外,比如,0.5米左右。
在实际应用中,由于在荧光剂显色时进行图像采集,可能会对图像中目标部位之外的其他图像区域造成影响(比如,以目标部位是睫毛为例,由于睫毛是与目标对象的其他部位存在连接的,睫毛如果涂色之后,采集得到的图像中睫毛周边的区域的像素信息有可能会有影响),为了减少这种影响,可以优选上述隐形荧光剂,这样每个图像对中至少有一张图像是可以避免上述影响的。可选的,在基于图像对和图像对对应的三分图构建训练数据集时,可以是选择采用图像对中隐形荧光剂不显色时所采集的图像作为目标图像。
在采集图像时,为了尽量减少图像对中两张图像之间的差异,可以控制两张图像之间的采集时差尽量小。可选的,每个图像对可以是图像采集设备处于连拍模式下拍摄的两张图像。比如,以睫毛为例,可以通过连拍的模式拍摄被试带荧光标记(荧光剂显色)与不带荧光标记(荧光剂不显色)的眼部图像,得到上述图像对。
为了尽可能多的能够获取到目标部位处于各种各样不同形态下的图像对,同时也为了能够提高图像采集的效率,本申请的可选实施例中,上述多个图像对可以采用以下方式获取:
在同一场景下,通过多视角图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像;
将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对。
也就是说,在对目标对象进行目标部位的图像采集时,可以通过对应于多个不同视角的多个图像采集设备来采集,这样一次拍摄就可以从多个不同的视角采集得到目标部位的多张图像。比如,可以采用15台相机同时对目标对象的同一只眼睛进行拍摄,可以设置图像采集设备都处于连拍模式,且可以控制15台相机同步进行拍摄,比如,在颜色显示控制设备(如上述紫外线闪光灯)关闭状态下,可以同步拍摄得到15张不同视角的图像,在颜色显示控制设备开启状态下,再同步拍摄15张图像,这样,两次拍摄就可以得到15对眼部区域的图像对。另外,为了尽可能快的获取到图像对(尽可能的减少图像对中两张图像之间由于外在因素所引起的差异),可以控制颜色显示控制设备的开启和关闭与图像采集设备采集两张图像时的时差也能够同步,比如,在上述示例中,可以再额外增加一台相机,可以通过该相机来触发紫外线闪光灯的开启,在图像采集时,可以通过无线快门控制16台相机的同步。
可以理解的是,可以通过上述图像采集方式对至少一个目标对象进行至少一次图像对的采集,比如,可以对每个目标对象分别进行多次采集(一次采集指的是图像对的采集),并可以在目标对象的目标部位处于不同状态时进行多次采集,以获取到更丰富的图像数据。
可选的,通过图像采集设备采集到大量的图像对之后,为了更好的保证最终所构建的训练数据集中的图像质量,还可以对采集到的大量图像对进行筛选,将其中图像质量相对低的一些图像对过滤掉。过滤的方式可以根据实际需求配置,比如,可以通过人工方式进行筛选,或者是可以通过预设的图像质量判断标准,由电子设备根据该标准对图像进行自动筛选。
在得到多个图像对之后,可以将这些图像对直接作为源数据进行后续处理,即计算差分图像,也可以是对各个图像对中的两张图像进行一些预处理,将预处理后的各图像对作为后续处理的源数据,比如,可以对各图像对进行裁剪,可以按照设定尺寸(该设定尺寸也可以与采集到的图像的原始尺寸有关),将各图像对中非目标部位的图像区域进行一些裁剪,可以减少后续的数据处理量。
作为一可选方式,上述步骤S120中,确定每个图像对中的两张图像之间的差分图像,可以包括:
确定每个图像对中两张图像之间的光流信息;
对于每个图像对,基于该图像对对应的光流信息对该图像对中的任一图像进行调整,确定该调整后的图像和该图像对中的另一图像之间的差分图像。
对于图像对中的两张图像而言,由于在实际图像采集时,目标对象(如人)及其微表情等很难是保持绝对的不动的,因此,两张图像中会存在由目标对象的微小变化而引起的两张图像之间的差异,为了减少这种差异,在计算两张图像的差分图像之前,可以对两张图像中的一种图像进行调整,通过该调整减少两张图像之间由于目标对象的运动所导致的差异。
具体的,可以通过计算两张图像之间的光流信息,通过该光流信息对其中一张图像进行形变,再计算形变后的该图像和另外一张图像之间的差分图像。可选的,为了尽量减少由于目标部位处于显色时的影响,可以是以两张图像中目标部位是原色时所采集的图像(可以称为第一图像)为基准,采用两张图像之间的光流场(即上述光流信息),对另一张图像(可以称为第二图像)进行形变处理,将第一图像和形变后的第二图像相减,得到两张图像之间的差分图像。
光流信息也就是两张图像之间的光流场,表征了目标对象(本申请中的目标部位)在两张图像之间的运动信息,可以理解为目标对象的位移。在获取到两张图像之间的光流场之后,可以基于该光流场对两张图像中的待配准的图像(也就是上述需要进行形变处理的图像)进行图像插值处理,得到配准后的图像,即上述形变处理后的图像,以减少两张图像之间由于图像采集时目标对象的微小动作产生的图像间的差异。基于光流场对图像进行配准处理的具体方式,本申请实施例不做限定,可以采用任一现有技术实现。
对于确定两张图像之间的光流场的具体方式,本申请实施例不做限定,可以采用现有任一计算图像之间光流场的方式。可选的,可以采用训练好的光流场估计模型,比如,将图像对输入到该模型中,通过该模型预测得到两张图像间的光流场。之后,则可以基于该光流场对图像对中的一张图像进行调整,以减少两张图像之间的差异。
作为一可选方式,图2中示出了本申请实施例提供的一种得到图像对中两张图像之间的差分图像的原理示意图。该示意图中,目标部位为人的睫毛,图像对包括一张睫毛上的隐形荧光剂显色时采集的睫毛区域的图像(图2中的带荧光图像)和一张睫毛上的隐形荧光剂未显色时采集的睫毛区域的图像(即对应于睫毛原色的图像,图2中所示的不带荧光图像),可以将这两张图像输入至光流估计网络中,通过该神经网络估计得到两张图像之间的光流信息(即光流场),之后,可以基于该光流场对带荧光图像进行形变处理,然后可以将不带荧光图像和该形变处理后的带荧光图像相减,得到两张图像之间的差分图像。
在得到大量图像对之后,可以将这些图像对作为源数据,通过获取各图像对的差分图像的三分图来构建训练数据集。
本申请的可选实施例中,该图像处理方法还可以包括:
确定各第一样本数据对应的前景蒙版;
其中,上述训练数据集还可以包括各第一样本数据对应的前景蒙版。
基于该方案,可以实现对训练数据集的完善,也就是说,除了目标图像、该图像对应的三分图之外,还可以得到目标图像的前景蒙版。在对模型进行训练时,该前景蒙版可以作为该目标图像的真实前景蒙版(即标注标签),实现对模型的有监督的训练,具体的,可以基于第一样本数据中的该真实前景蒙版和通过模型预测得到的前景蒙版之间的差异来约束模型的训练,使得模型的预测输出尽量贴近于第一样本数据的标注标签,从而可以训练得到能够很好的预测出包含目标部位的图像中目标部位对应的前景蒙版,进而还可以基于该前景蒙版对图像进行进一步的处理,比如,基于该蒙版,将图像中的前景区域和背景区域很好的分割。
其中,对于每个第一样本数据对应的前景蒙版的获取方式,本申请实施例不做限定,如可以通过已经训练好的能够用于预测图像对应的前景蒙版的神经网络模型进行预测。
为了能够获取到更加准确的前景蒙版,本申请的可选实施例中,确定各第一样本数据对应的前景蒙版,可以包括:
获取初始数据集,初始数据集包括多个第二样本数据,每个第二样本数据包括目标部位的样本图像、该样本图像的三分图和该样本图像的真实前景蒙版;
基于初始数据集执行至少一次以下训练操作,通过最后一次操作得到的第二模型预测得到各第一样本数据对应的前景蒙版:
基于初始数据集对初始神经网络模型进行训练,得到第一模型,其中,神经网络模型的输入包括一个样本图像和该样本图像的三分图,输出为预测得到的该样本图像的前景蒙版;
通过第一模型预测各第一样本数据对应的前景蒙版;
将各第一样本数据对应的前景蒙版(通过第一模型预测出的蒙版)作为真实前景蒙版,采用多个第一样本数据中的至少部分样本数据和该部分样本数据对应的前景蒙版,对初始数据集进行扩充,得到中间数据集;
基于中间数据集对第一模型进行训练,得到第二模型,将第二模型作为下一次训练操作时的初始神经网络模型,将中间数据集作为下一次训练时的初始数据集。
需要说明的是,在实际应用中,上述初始数据集中还可以包括其他的样本数据,以丰富训练数据集,提升训练出的模型的性能。比如,初始数据集中除包含目标部位对应的样本数据,可以包括其他对象或其他部位的样本图像、该样本图像的三分图和该样本图像的真实前景蒙版(即其他对象或其他部位对应的前景蒙版)。比如,上述目标部位是睫毛,初始数据集中除了可以包括睫毛对应的样本数据外,还可以包括人脸的样本数据,即人脸图像、人脸图像的三分图和真实前景蒙版。
可选的,上述初始数据集可以包括通过图像渲染方式构建的合成数据集,该合成数据集可以作为训练上述神经网络模型的基础数据集,基于该基础数据集对该模型进行初始的训练,再基于该训练后的模型对第一样本数据进行前景蒙版的预测,并将预测出的蒙版作为第一样本数据的真实前景蒙版,基于第一样本数据和该预测出的蒙版对初始数据集扩充后再次对上述训练后的模型进行训练,这样,基于初始数据集对模型进行的一次训练和基于扩充后的数据集对模型进行的一次训练,可以看作一次训练过程,可以通过不断重复该训练过程,实现对模型的优化,并在每次训练后可以对第一样本数据集的前景蒙版再次更新,下一次训练时,中间数据集中第一样本数据的真实前景蒙版则可以采用更新后的更加准确的蒙版。
可以理解的是,采用本申请实施例提供的上述渐进式的训练方法,可以在训练的过程中同时得到每个第一样本数据对应的前景蒙版,可选的,上述最后一次训练得到的第二模型已经是具有很好的性能的神经网络模型,可以将通过该模型预测得到的各第一样本数据对应的前景蒙版作为第一样本数据中目标图像的真实前景蒙版。
本申请的可选实施例中,该图像处理方法还可以包括:
通过图像渲染方式构建合成数据集,上述初始数据集包括该合成数据集。可选的,上述训练数据集也可以包括初始数据集。
也就是说,除了通过对目标对象的目标部位进行图像采集得到的上述真实数据之外,还可以通过图像渲染的方式来构建虚拟对象的虚拟目标部位的合成图像及其对应的前景蒙版,以更好的扩充数据集。
虽然通过图像渲染方式得到的目标部位的图像数据和真实的图像数据有视觉上的差异,但是在实际应用中,通过图像采集设备进行采集的方式,获取到的图像的数据量是有局限的,很难获取到目标对象各种环境下、各种形态、各种各样拍摄角度下的图像,而通过图像渲染方式可以不受这些局限,可以获取到各中不同性别、不同姿势、处于不同环境(如光照)等条件下的多种多样的虚拟对象的目标部位的图像,因此,为了训练数据的多样性,提升训练得到的神经网络模型的性能,还可以通过图像渲染的方式来得到合成数据集,基于该数据集来扩充训练数据集。
其中,通过图像渲染方式构建合成数据集的具体方式,本申请实施例不做限定,如可以采用现有的三维对象制作软件来渲染得到大量的不同视角、不同形态的合成图像,对于合成图像的前景蒙版和三分图的获得方式,本申请实施例也不做限定,可以采用现有图像处理技术实现。
可选的,以目标部位为人的睫毛为例,可以通过三维人物制作软件创建带睫毛的虚拟人脸图像,可以通过渲染参数的配置,使得虚拟人脸图像中包含很多细节内容,如人脸的几何特征、纹理特征、眼部细节等内容,以使得创建出的虚拟人物尽可能逼近真实人脸。之后可以采用光线跟踪算法来渲染出合成的睫毛图像(样本图像)。对于该合成的睫毛图像的真实前景蒙版的获取,可以通过分别设置睫毛为黑色、红色、绿色、蓝色,并渲染出同一姿态下的4张睫毛图像,可以基于这4张睫毛图像,采用三角测量法计算出该姿态下的睫毛蒙版(样本图像的真实前景蒙版)。对于合成的睫毛图像的三分图,可以基于睫毛蒙版生成,可选的,可以采用前文描述的生成差分图像的三分图的处理方式来生成,如对睫毛蒙版进行腐蚀、膨胀及归一化处理,来得到该睫毛图像的三分图(样本图像的三分图)。
本申请实施例提供的该方法,可以用于构建任意目标对象的任意部位(即目标部位可以是任何部位)的训练数据集,这些部位包括但不限于生理结构比较复杂的部位,采用该方法得到的训练数据集进行模型训练时,可以使得训练得到的模型能够更加准确地预测出图像中目标部位的前景蒙版,且模型具有很好的鲁棒性。基于本申请实施例提供的方法,很好的解决了现有技术中由于缺乏数据集导致图像处理效果不佳的问题,尤其是在一些部位的几何结构比较复杂时,现有技术无法提取得到这些部位的前景蒙版,从而造成图像中这些部位的细节处理效果不理想的问题。
与本申请提供的方法相对应,本申请实施例还提供了一种图像处理系统,如图3中所示,该图像处理系统100可以包括图像采集设备110、颜色显示控制设备120和图像处理设备130。
图像采集设备110,用于采集多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;
颜色显示控制设备120,用于在通过图像采集设备采集图像对时,控制采集得到的图像对中的两张图像中上述目标部位的颜色信息的不同;
图像处理设备130,用于基于图像采集设备采集的多个图像对,通过执行本申请实施例提供的上述图像处理方法,得到训练数据集。
可选的,上述目标部位上可以涂有隐形荧光剂,颜色显示控制设备120开启时可以产生指定光源,该隐形荧光剂在指定光源的照射下显色。相应的,在进行图像对的采集时,颜色显示控制设备120可以在采集图像对的一张图像时关闭,在采集图像对的另一张图像时开启。
作为一可选方案,颜色显示控制设备可以是紫外光闪光灯,隐形荧光剂是可以在紫外线照射下显色的荧光剂。
可选的,该图像采集系统还可以包括开关控制设备,该开关控制设备可以控制颜色显示控制设备的开启和关闭。
可选的,在实际应用中,上述图像采集设备110在采集图像对时,可以处于连拍模式,即每个图像对是图像采集设备处于连拍模式下拍摄的两张图像。上述开关控制设备可以控制颜色显示控制设备关闭和开启的时间间隔,与图像采集设备在连拍模式下采集两张图像的时间间隔相同,也就是说,可以由开关控制设备控制颜色显示控制设备与图像采集设备的同步,从而可以在很短的时间内拍摄到两张图像。
作为一可选方案,为了提高数据的采集效率,并为了能够采集到多种不同视角下的目标部位的图像对,上述图像采集设备110可以包括多个不同视角的图像采集设备,可以通过对应于多个拍摄视角的图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同,可以将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对。采用该方式,一次拍摄可以得到多个不同视角下的图像对。在实际的图像采集中,目标对象还可以通过做出不同的表情或者是控制目标部位处于不同的形态,使得采集的图像对更加丰富,从而可以构建得到数据更加丰富的训练数据集。
为了更好的说明本申请提供的方法及其所能够产生的有益效果,下面结合本申请的方法的一种可选实施方式对该方法进行详细说明。该实施方式中目标对象以人为例,目标部位以人的睫毛为例,提供了一种基于隐形荧光标记的睫毛抠图数据库的构建方法,通过该方法能够构建得到睫毛抠图数据库(即训练数据集),该方法通过采集带荧光标记的高清的人像眼部图像,并从中获取睫毛的alpha matte(即前景蒙版),基于该方法,能够提取得到透明度信息丰富的睫毛抠图数据,并能有效区分皮肤、眼睛等背景。该方法可以分为数据采集与数据处理两大部分,下面分别对这两部分进行说明。
第一部分:数据采集。
该部分用于实现图像对的采集,为数据处理提供源数据。
本实施方式中构建了一套多视角图像采集系统,并搭载有用于使隐形荧光剂显色的紫外线闪光灯(简称为紫外灯)。给定一位被试,可以首先在被试的睫毛上涂上隐形荧光剂,该荧光剂仅在紫外灯照射下显色,自然光照射下无色。利用多视角图像采集系统,设计连拍模式用于快速拍摄两张图像,在拍摄时,分别设置紫外灯为开、关两种状态,通过连拍的模式可以拍摄得到被试带荧光标记与不带荧光标记的眼部图像,每个视角的图像采集设备拍摄到的被试带荧光标记与不带荧光标记的眼部图像即为一个图像对。
具体的,可以在被试的睫毛上涂上了清晰的隐形蓝色荧光剂,该荧光剂仅在UVA紫外光下显色。为了让被试尽量保持不动,可以让被试坐在椅子上,可以用十字激光器指导被试调整头部的位置。多视角图像采集系统的相机可以采用高速连拍模式,在很短的时间内(约200ms)拍摄两张照片,并且UVA紫外闪光灯只会在第一次拍摄时闪光,这样就得到了两张同样位置的睫毛的照片。为了获取到更多的源数据,可以拍摄被试在多种不同表情(脸部表情、眼部表情等)下眼部图像。另外,还可以通过多个被试进行拍摄来获取丰富的源数据。
在实际数据采集时,多视角图像采集系统包括多个图像采集设备(如相机),作为一可选方案,可以通过无线快门控制16台相机的同步拍摄,其中15台用来捕捉数据(即拍摄图像),另一台用来触发紫外线闪光灯(即控制紫外灯的开启或关闭),15台相机可以围绕被试布置,每台相机都能够从不同的视角拍摄眼部图像。由于隐形荧光剂仅在UVA紫外光下显色,因此需要配置UVA紫外光闪光灯,可选的,UVA紫外光闪光灯灯板可以采用由48个0.06w的365纳米紫外光灯珠组成,于距离眼睛0.5米左右的距离进行拍摄。在实际应用中,使用符合国际电工委员会的照明标准的低功率的紫外灯珠以保护眼睛,保证图像采集时对于被试而言是足够安全的。
由于在拍摄时强光会覆盖荧光,所以可以采用较暗的环境光,比如,可以用遮光布营造黑暗的房间环境,用若干个(比如3个)照明灯控制光线。此外,还可以给紫外线闪光灯添加滤镜,以减少可见光的强度,以减少两张照片(即图像对)的颜色差异和眼睛对闪光的刺激反应。
在实际拍摄时,由于两只眼睛不能在焦点平面上导致的聚焦问题,位于侧面的相机很难同时拍摄两只眼睛的清晰图像,因此,在实际拍摄时,为了获取到质量更好的图像,每只眼睛分开拍摄,分别拍摄了左眼和右眼的睫毛数据,即每个图像对是一只眼睛的睫毛的两张图像。
另外,为了更好的保证图像质量,拍摄时对拍摄对象(即被试)头部的位置要求相对很高,并且要求拍摄对象尽可能保持静止。然而,即使如此,被试的无意识运动也会对结果产生很大的影响。为了尽可能避免这些影响,可以通过一些辅助装置来帮助拍摄对象的拍摄位置和头部朝向尽可能不动。比如,可以可调节的椅子来控制被试的上下位置,还可以使用颈椎牵引器或其他辅具来控制方向。还可以在被试的头部后方放置可调节的木板或其他设施,以控制其前后位置。可以利用十字激光架来严格定位被试的眼部位置,使其眼部落在相机的聚焦区域内。
在实际操作中,拍摄对象可以轻微调整身体位置,使右(左)眼的瞳孔与十字激光的中心对齐,并可以通过固定木板和颈椎牵引器以固定拍摄对象的头部。之后可以使用连拍的模式拍摄被试的两张照片来保证两张照片高度同步,在连拍的两次拍摄中,紫外闪光灯分别是开和关的状态,以拍摄到睫毛带荧光标记与不带荧光标记(即原色)的照片。
通过上述数据采集步骤,可以获取到大量的图像对,每个图像对是同一台相机连续拍摄得到的荧光标记的图像和不带荧光标记的两张照片。
第二部分:数据处理。
该部分以数据采集部分得到的被试带荧光标记与不带荧光标记的眼部图像为输入,来提取睫毛的alpha matte。具体的,对于每个图像对,首先可以通过两张照片相减得到睫毛遮罩图像(即差分图像),之后再利用该遮罩图像生成一个相对准确的三分图,之后则可以利用神经网络模型从原图(即图像对中的目标图像,如不带荧光标记的眼部图像)与三分图中提取睫毛的alpha matte。
在通过拍摄得到大量源数据之后,可以将拍摄得到的数据进行整理,筛选出效果较好的部分作为后续处理的数据基础。
图4示出了本实施方式中提供的一种睫毛图像的处理方法的原理示意图,下面结合图4对该处理方法进行说明。
在数据处理过程中,由于拍摄得到的每个图像对中的两张照片受光照、拍摄对象轻微移动、姿态、微表情变化的影响,两张照片之间会有微小的差距,为了减少该差距,还可以计算两张照片之间的位移矢量来校正,可选的,如图4中所示,可以通过光流估计网络来估计两张照片之间的光流场,利用光流场对两张照片中带荧光标记的睫毛照片进行形变处理,以减小带荧光标记的睫毛照片与不带荧光标记的睫毛照片的差距。其中,对于光流估计网络的网络架构本申请实施例不做限定,如可以采用Flownet2。在完成上述形变调整后,可以利用调整后的带荧光标记的照片与不带荧光标记的照片相减便可得到一个睫毛遮罩(即差分图像)。
进一步的,如图4所示,在得到差分图像之后,可以对该差分图像进行腐蚀、膨胀等处理,以生成一个相对准确的三分图。之后,则可以基于每个图像对和对应的三分图,得到多个第一样本数据,可选的,可以将不带荧光标记的图像和对应的三分图作为一个第一样本数据。至此,可以得到包含多个第一样本数据的真实数据集。
进一步的,为了扩充数据集,可以利用图像渲染的方式制作了一个睫毛数据库,即前文中描述的合成数据集,可选的,可以采用通过图像处理软件渲染的人像图片作为合成数据集,具体的,可以渲染得到了大量不同视角、不同表情的人脸图像,并且渲染了每张图像对应的睫毛图像,以及人物瞳孔部分的图像。当然,在实际应用中,还可以在上述真实数据集、合成数据集的基础上,再结合现有其他的抠图数据库来丰富数据集,如可以与现有Alpha Matting Dataset结合,该数据集包含了很多不同人脸图像以及毛发的抠图信息,可以辅助神经网络模型的训练。
基于本申请实施例提供的方法得到的上述训练数据集,可以作为神经网络模型的学习数据,来训练得到能够用于预测图像中睫毛的前景蒙版的神经网络模型,并且在训练的过程中可以得到真实数据集中每个第一样本数据对应alpha matte,从而可以得到包含大量样本数据的睫毛抠图数据库,该数据库中包括大量真实的睫毛抠图信息,该睫毛抠图信息具体可以包括一张不带荧光标记的图像即上述睫毛照片、该图像对应的三分图、以及该图像对应的alpha matte,可选的,该数据库中还可以包括上述合成数据集,还可以与现有其他抠图数据库结合使用。
对于上述神经网络模型的具体模型结构本申请实施例不做限定,可选的,可以采用基于GCA的睫毛抠图模型。下面以基于GCA的睫毛抠图模型为例,对采用本申请实施例提供的方案得到的训练数据集,对模型进行迭代训练的过程进行说明。
具体的,在训练过程中,可以首先利用初始数据集D0(该初始数据集可以包括上述合成数据集(如图4中所示的渲染数据集)和现有其他的抠图数据库(图4中所示的其他数据集)),训练初始的睫毛抠图模型M0,初始数据集中的每个样本数据包括图像、图像的三分图和图像的真实前景蒙版。其中,M0的训练结束条件可以根据需求配置,如可以是训练次数达到设定次数或者是训练损失满足一定条件。
之后,可以利用上述训练后的M0(即第一模型)对采集的数据(即基于图像对构建得到的多个第一样本数据)检测睫毛的alpha matte,具体的,如图4中所示,将每个第一样本数据中的目标图像(如不带荧光图像)和对应的三分图输入至上述训练后的M0中,M0输出每个第一样本数据对应的前景蒙版。可以将这些第一样本数据对应的真实蒙版中的部分(如20%)当作真实蒙版数据与初始数据集D0结合生成中间数据集D1,也就是将部分第一样本数据和通过M0预测出的这些样本数据的前景蒙版,与初始数据集D0结合。可选的,可以根据模型输出的第一样本数据的前景蒙版,由专家来选取部分效果较好的前景蒙版,将这些蒙版和对应的上述第一样本数据添加到初始数据集中,得到中间数据集。
之后,再利用中间数据集D1对上述训练后的M0继续训练,得到新的睫毛抠图模型M1(即第二模型),并通过该模型M1更新采集的数据的睫毛alpha matte,即通过该模型重新预测各个第一样本数据对应的蒙版数据。
可以通过多次重复执行上述训练操作(每次操作包括基于初始数据集D0对模型进行一次训练,基于中间数据集对此次基于D0训练得到的模型再次进行训练),比如可以重复执行5次,直到所有采集的数据都与初始数据库D0结合为止,将第5次得到的模型作为最终的睫毛抠图模型,通过此时的该模型可以重新更新得到每个第一样本数据最终的真实前景蒙版。
基于本申请实施例的方法至少具有两点好处:一是可获取睫毛准确的先验信息,基于该方法可以自动地从采集的睫毛图像数据中,获取睫毛的alpha matte信息,而无需手工标注;二是针对弱纹理区域,如睫毛与瞳孔相交的部分,该方法也能够从带标记的图像中获取较准确的睫毛alpha matte,这个在无标记的图像中利用现有方法是无法较好的获取的。最终我们的睫毛数据库可以包含采集的睫毛数据以及渲染得到的数据库,可选的,还可以将带标记的数据也放到数据库中,用于增强数据鲁棒性。此外,该方法可以将相似度较高的前背景抠图问题,转化为相似度较低的前背景抠图问题(通过两张目标部位的颜色信息不同的图像来获取准确的三分图),具有很好的实用性。
可以理解的是,在实际应用中,本申请实施例的图像采集系统中所使用的相机数量、闪光灯数量、灯光数量、头部固定及定位方式均是可变的,是可以根据实际需求和场景需求进行调整的。在确保安全的情况下,隐形荧光剂也可使用显色性更好的颜料。在获取睫毛的前景蒙版时,所使用的神经网络模型也可替换为其他模型,如也可以采用基于HAttMating的神经网络模型;在构建渲染数据(即合成数据集)时,可通过增加虚拟人物的眼型、表情等变量,睫毛可调整长短、疏密、粗细、形态等多方面变化来提供睫毛的多样性。
基于本申请实施例提供的该方法,能够为图像处理提供准确的先验信息,经实验证明,基于该方法构建得到的训练数据集在各项量化指标上都是优于其他方法的,并且基于该数据集训练出的神经网络模型能够精确的获取图像中目标部位的弱特征区域的特征,比如,对于睫毛图像而言,可以很好的获取到睫毛与眼球交界处的睫毛的alpha matte。
为了测试基于本申请实施例提供的方法所获取到的训练数据集的合理性,我们对通过对几种不同的训练数据集进行了测试。在测试时,我们构建了一个baseline测试数据集,用于测试其他的方法及本申请实施例的方法在睫毛提取上的性能。baseline数据集的一部分数据由通过渲染得到的数据构成,另一部分数据由真实采集的睫毛数据(即睫毛图像)构成。我们在该baseline数据集上测试了本申请实施例提供的方法在定性上、定量上的性能。
在测试评估中,我们采用了三个常用的定量评估指标上进行了评估,这三个评估指标分别是绝对值之和(SAD)、均方差(MSE)和梯度(Grad)。一个好的算法或者数据库应能够获取高质量的alpha matte,相应的,以上三个指标的值也会相应降低。
需要说明的是,现有方法的常用评估指标通常还包含连接性(Conn)。但由于睫毛的结构是稀疏线状的,因此真实数据本身的连接性就很低,在评估睫毛抠图结果时,连接性指标的意义并不大,因此,我们在测试评估中没有采用连接性这一评估指标。
目前的抠图处理方法可以分为两类,一类是基于图像滤波的方法,另一类则是基于数据确定的深度学习方法。此次测试评估中,在方法对比上,我们将本申请实施例提供的方法同现有基于Gabor滤波的方法(滤波方法)的结果进行了对比;在数据库层面,我们利用同一个抠图算法在Alpha Matting Dataset(AMD)、渲染数据库(Render)和我们的数据集(Ours,即基于本申请实施例得到的训练数据集)上进行训练得到了三个抠图模型,之后分别在baseline测试数据集上进行了效果测试,评估结果如表1所示。从表1中可以看出,相比于用滤波的方法,我们的方法有非常显著的提升。相比于现有数据库AMD,我们的方法有较大的改进,相比于仅用渲染出来的数据进行训练,我们的方法性能表现也更好。
表1
SAD | MSE | Grad | |
滤波方法 | 43.18 | 0.177 | 111.25 |
AMD | 30.79 | 0.203 | 97.11 |
Render | 29.35 | 0.143 | 78.21 |
Ours(本申请) | 25.41 | 0.116 | 68.18 |
为了能够可视化的看出基于本申请实施例的方法实现的抠图结果的优势,图5中展示了基于本申请实施例的方法和其他方法的部分抠图结果的效果对比图,对于训练得到的抠图模型,模型的输入数据是原图(图5中所示的输入)和该图的三分图,输出是预测的alpha matte(使用trimap进行截取),如图5中所示,滤波的方法对应的一列表示的是通过图像滤波方式得到的输入数据对应的前景蒙版,本申请对应的一列是本申请实施例提供的方法构建的训练数据集所对应的输入数据的前景蒙版。从图5中可看出,基于滤波的方法无法有效分离前景和背景;当仅使用AMD数据库进行训练时,训练得到的模型也无法有效识别睫毛;仅使用渲染数据库可得到较好的结果,但在睫毛聚集的位置,基于本申请实施例提供的方法所构建的训练数据集训练出的模型所预测出的结果表现更好。
需要特别说明的是,对于睫毛而言,由于睫毛与眼睛皮肤等背景是连接的,因此无法通过控制背景来获取前景的方法来获取睫毛alpha matte。而本申请实施例提供的方案,可以通过控制前景的方式来提取前景的alpha matte。该方法在数据采集上,可以获取睫毛的两个状态(即包含睫毛的两种不同颜色信息的图像对),可以进一步基于这两个状态的睫毛图像获取睫毛的alpha matte,基于该方法,可以得到很好的睫毛抠图数据。
在得到本申请前文实施例中所描述的方法所得到的训练数据集之后,还可以基于该训练数据集对输入为图像、输出为图像的前景蒙版的神经网络模型进行训练,以得到能够很好的预测出图像的前景蒙版的图像处理模型。其中,在训练该模型时,每个训练样本可以包括一张图像(训练数据集中的目标图像或合成的样本图像)和该图像的前景蒙版。同样的,对于该神经网络模型的具体模型架构本申请实施例也不做限定,可以根据实际需求选择/配置。在对该模型进行训练时,模型的输入可以是训练数据集中的各个图像(如上述的目标图像、初始数据集中的样本图像等),模型输出的是预测得到的输入图像的前景蒙版,可以基于模型预测出的各个图像的前景蒙版和各个图像的真实前景蒙版之间的差异得到训练函数的值(即训练损失),通过不断的调整模型参数、重复训练,直至模型的训练次数达到设定次数或者模型的训练损失满足训练结束条件(如损失函数收敛),得到训练好的神经网络模型,该模型即可以作为图像处理模型,用于任一图像的处理,预测得到图像前景蒙版。
基于此,本申请实施例还提供了一种图像处理方法,如图6所示,该方法可以包括:
步骤S610:获取待处理图像;
步骤S620:基于待处理图像,调用训练好的图像处理模型,预测得到待处理图像的前景蒙版,其中,该图像处理模型可以是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请前文中任一可选实施例中提供的图像处理方法构建得到的,训练数据集中包括多张图像和各张图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到图像处理模型,其中,神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
由前文中的可知,该方案中的训练数据集中的多张图像可以包括前文中描述的目标图像(如不带荧光标记的图像),还可以包括初始数据集中的样本图像(如通过图像渲染方式合成的图像,或者现有其他数据集中的图像),目标图像的前景蒙版即前文中描述的第一样本数据对应的前景蒙版,如采用前文中的渐进式的训练方法中最后一次训练操作得到第二模型预测得到的第一样本数据的前景蒙版,该蒙版即可作为第一样本数据中的目标图像的真实前景蒙版。基于上述多张图像和各图像的前景蒙版,可以对神经网络模型不断进行迭代训练,直至满足训练结束条件,如模型的损失函数收敛,该损失函数的值表征了模型预测得到的各图像的前景蒙版和训练数据集中各图像的前景蒙版之间的差异,通过不断训练,使得模型输出的前景蒙版可以不断逼近图像的真实前景蒙版。
其中,上述待处理图像可以是包含上述目标部位(如睫毛)的图像,也可以是包含任意对象的图像,该任意对象为待处理图像中的前景,通过上述图像处理模型可以预测得到待处理图像中该任意对象所对应的前景蒙版。基于该方法,可以预测得到效果很好的待处理图像的前景蒙版,后续则可以基于该前景蒙版对待处理图像进行处理。
可以理解的是,本申请实施例提供的图像处理方法,可以适用于任何需要基于前景蒙版进行处理的应用场景中,可以包括但不限于社交、动画、游戏等场景中,对于不同的应用需求,上述处理方式可能不同,如可以包括但不限于修图(如睫毛编辑)、建模等。
基于与本申请提供的图像处理方法相同的原理,本申请实施例还提供了一种图像处理装置,如图7所示,该图像处理装置200可以包括图像获取模块210、三分图获取模块220和数据集构建模块230。
图像获取模块210,用于获取多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;
三分图获取模块220,用于确定每个图像对中的两张图像之间的差分图像,并确定该差分图像的三分图;
数据集构建模块230,用于基于各图像对以及各图像对对应的三分图,构建训练数据集,其中,其中,训练数据集中包括多个第一样本数据,每个第一样本数据包括一个图像对中的目标图像和该图像对对应的三分图,目标图像为图像对中的任一图像。
可选的,数据集构建模块还可以用于:确定各第一样本数据对应的前景蒙版;其中,每个第一样本数据还包括该样本数据对应的前景蒙版。
可选的,数据集构建模块在确定各第一样本数据对应的前景蒙版时,可以用于:
获取初始数据集,初始数据集包括多个第二样本数据,每个第二样本数据包括目标部位的样本图像、该样本图像的三分图和该样本图像的真实前景蒙版;
基于初始数据集执行至少一次以下训练操作,通过最后一次操作得到的第二模型预测得到各第一样本数据对应的前景蒙版:
基于初始数据集对初始神经网络模型进行训练,得到第一模型,其中,神经网络模型的输入包括一个样本图像和该样本图像的三分图,输出为预测得到的该样本图像的前景蒙版;
通过第一模型预测各第一样本数据对应的第二前景蒙版;
将各第一样本数据对应的第二前景蒙版作为真实前景蒙版,采用多个第一样本数据中的至少部分样本数据和该部分样本数据对应的第二前景蒙版,对初始数据集进行扩充,得到中间数据集;
基于中间数据集对第一模型进行训练,得到第二模型,将第二模型作为下一次训练操作时的初始神经网络模型,将中间数据集作为下一次训练操作时的初始数据集。
可选的,上述初始数据集中包括通过图像渲染方式构建的合成数据集;训练数据集包括初始数据集。
可选的,目标部位为目标对象的睫毛。
可选的,目标部位在图像对的两张图像中的颜色信息的不同,是在采集图像对时通过颜色显示控制设备的控制实现的。
可选的,在采集图像对时,目标部位上涂有隐形荧光剂,颜色显示控制设备开启时产生指定光源,隐形荧光剂在指定光源的照射下显色。
可选的,三分图获取模块在确定每个图像对中的两张图像之间的差分图时,可以用于:
确定每个图像对中两张图像之间的光流信息;
对于每个图像对,基于该图像对对应的光流信息对该图像对中的任一图像进行调整,确定该调整后的图像和该图像对中的另一图像之间的差分图像。
可选的,每个图像对中包括目标部位的颜色是该部位的原色时所采集的一张图像,目标图像为对应于原色的图像。
可选的,图像获取模块具体可以用于:在同一场景下,通过多视角图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对。
可选的,每个图像对是图像采集设备处于连拍模式下拍摄的两张图像。
另一方面,本申请实施例还提供了一种图像处理装置,该装置可以包括待处理数据获取模块和图像处理模块。
待处理数据获取模块,用于获取待处理图像;
图像处理模块,用于基于待处理图像,调用训练好的图像处理模型,预测得到待处理图像的前景蒙版;其中,该图像处理模型可以是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请前文中任一可选实施例中提供的图像处理方法构建得到的,训练数据集中包括多张图像和各张图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到图像处理模型,其中,神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
本申请实施例的图像处理装置可执行本申请实施例所提供的方法,其实现原理相同,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。其中,各模块功能的实现可以采用软件、硬件或者两种结合的方式实现。
基于与本申请实施例提供的图像处理方法及装置相同的原理,本申请实施例中还提供了一种电子设备(如服务器),该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。
可选的,图8示出了本申请实施例所适用的一种电子设备的结构示意图,如图8所示,该电子设备4000包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (17)
1.一种图像处理方法,其特征在于,包括:
获取多个图像对,每个所述图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,所述目标部位在两张图像中的颜色信息不同;
确定每个所述图像对中的两张图像之间的差分图像,并确定该差分图像的三分图;
基于各所述图像对以及各所述图像对对应的三分图,构建训练数据集,其中,所述训练数据集中包括多个第一样本数据,每个所述第一样本数据包括一个所述图像对中的目标图像和该图像对对应的三分图,所述目标图像为所述图像对中的任一图像。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定各所述第一样本数据对应的前景蒙版;
其中,所述训练数据集中还包括各所述第一样本数据对应的前景蒙版。
3.根据权利要求2所述的方法,其特征在于,所述确定各所述第一样本数据对应的前景蒙版,包括:
获取初始数据集,所述初始数据集包括多个第二样本数据,每个所述第二样本数据包括所述目标部位的样本图像、该样本图像的三分图和该样本图像的真实前景蒙版;
基于所述初始数据集执行至少一次以下训练操作,通过最后一次操作得到的第二模型预测得到各第一样本数据对应的前景蒙版:
基于所述初始数据集对初始神经网络模型进行训练,得到第一模型,其中,所述神经网络模型的输入包括一个样本图像和该样本图像的三分图,输出为预测得到的该样本图像的前景蒙版;
通过所述第一模型预测各所述第一样本数据对应的前景蒙版;
将各所述第一样本数据对应的前景蒙版作为真实前景蒙版,采用所述多个第一样本数据中的至少部分样本数据和该部分样本数据对应的前景蒙版,对所述初始数据集进行扩充,得到中间数据集;
基于所述中间数据集对所述第一模型进行训练,得到第二模型,将所述第二模型作为下一次训练操作时的初始神经网络模型,将所述中间数据集作为下一次训练操作时的初始数据集。
4.根据权利要求3所述的方法,其特征在于,所述初始数据集中包括通过图像渲染方式构建的合成数据集;所述训练数据集包括所述初始数据集。
5.根据权利要求1所述的方法,其特征在于,所述目标部位为所述目标对象的睫毛。
6.根据权利要求1所述的方法,其特征在于,所述目标部位在每个所述图像对的两张图像中的颜色信息的不同,是在采集所述图像对时通过颜色显示控制设备的控制实现的。
7.根据权利要求6所述的方法,其特征在于,在采集所述图像对时,所述目标部位上涂有隐形荧光剂,所述颜色显示控制设备开启时产生指定光源,所述隐形荧光剂在所述指定光源的照射下显色。
8.根据权利要求1所述的方法,其特征在于,所述确定每个所述图像对中的两张图像之间的差分图像,包括:
确定每个所述图像对中两张图像之间的光流信息;
对于每个所述图像对,基于该图像对对应的光流信息对该图像对中的任一图像进行调整,确定该调整后的图像和该图像对中的另一图像之间的差分图像。
9.根据权利要求1至8中任一项所述的方法,其特征在于,每个所述图像对中包括所述目标部位的颜色是该部位的原色时所采集的一张图像,所述目标图像为图像对中对应于该原色的图像。
10.根据权利要求1至8中任一项所述的方法,其特征在于,所述获取多个图像对,包括:
在同一场景下,通过多视角图像采集设备采集所述目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;
将同一视角下的所述目标对象的一张第一图像和一张第二图像作为一个所述图像对。
11.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
基于所述待处理图像,调用训练好的图像处理模型,预测得到所述待处理图像的前景蒙版;
其中,所述图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,所述训练数据集是基于权利要求1至10中任一项所述的方法构建得到的,所述训练数据集中包括多张图像和各张图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于所述训练数据集对神经网络模型进行训练,得到图像处理模型,其中,所述神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
12.一种图像处理系统,其特征在于,包括图像采集设备、颜色显示控制设备和图像处理设备;
所述图像采集设备,用于采集多个图像对,每个所述图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,所述目标部位在两张图像中的颜色信息不同;
所述颜色显示控制设备,用于在通过所述图像采集设备采集所述图像对时,控制采集得到的所述图像对中的两张图像中所述目标部位的颜色信息的不同;
所述图像处理设备,用于基于所述图像采集设备采集的所述多个图像对,通过执行权利要求1至10中任一项所述的方法,得到训练数据集。
13.一种图像处理装置,其特征在于,包括:
图像获取模块,用于获取多个图像对,每个所述图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,所述目标部位在两张图像中的颜色信息不同;
三分图获取模块,用于确定每个所述图像对中的两张图像之间的差分图像,并确定该差分图像的三分图;
数据集构建模块,用于基于各所述图像对以及各所述图像对对应的三分图,构建训练数据集,其中,所述训练数据集中包括多个第一样本数据,每个所述第一样本数据包括一个所述图像对中的目标图像和该图像对对应的三分图,所述目标图像为所述图像对中的任一图像。
14.一种图像处理装置,其特征在于,所述装置包括:
待处理数据获取模块,用于获取待处理图像;
图像处理模块,用于基于所述待处理图像,调用训练好的图像处理模型,预测得到所述待处理图像的前景蒙版;其中,所述图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,所述训练数据集是基于权利要求1至10中任一项所述的方法所构建得到的,所述训练数据集中包括多张图像和各张图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于所述训练数据集对神经网络模型进行训练,得到图像处理模型,其中,所述神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至10中任一项所述的方法,或者实现权利要求11中所述的方法。
16.一种计算机可读存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法,或者实现权利要求11中所述的方法。
17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法,或者实现权利要求11中所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302048 | 2021-11-04 | ||
CN2021113020484 | 2021-11-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114120068A true CN114120068A (zh) | 2022-03-01 |
Family
ID=80362814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111642974.6A Pending CN114120068A (zh) | 2021-11-04 | 2021-12-29 | 图像处理方法、装置、电子设备、存储介质及计算机产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120068A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
WO2023230927A1 (zh) * | 2022-05-31 | 2023-12-07 | 北京小米移动软件有限公司 | 图像处理方法、装置及可读存储介质 |
-
2021
- 2021-12-29 CN CN202111642974.6A patent/CN114120068A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131570A (zh) * | 2022-05-27 | 2022-09-30 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
CN115131570B (zh) * | 2022-05-27 | 2023-08-22 | 马上消费金融股份有限公司 | 图像特征提取模型的训练方法、图像检索方法及相关设备 |
WO2023230927A1 (zh) * | 2022-05-31 | 2023-12-07 | 北京小米移动软件有限公司 | 图像处理方法、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zuffi et al. | Three-D Safari: Learning to Estimate Zebra Pose, Shape, and Texture from Images" In the Wild" | |
Pandey et al. | Total relighting: learning to relight portraits for background replacement. | |
Xu et al. | Denserac: Joint 3d pose and shape estimation by dense render-and-compare | |
CN108319953B (zh) | 目标对象的遮挡检测方法及装置、电子设备及存储介质 | |
CN110807364B (zh) | 三维人脸与眼球运动的建模与捕获方法及系统 | |
CN107204010B (zh) | 一种单目图像深度估计方法与系统 | |
CN104951773B (zh) | 一种实时人脸识别监视系统 | |
JP7526412B2 (ja) | パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体 | |
CN105046219B (zh) | 一种人脸识别系统 | |
CN110210276A (zh) | 一种移动轨迹获取方法及其设备、存储介质、终端 | |
Fyffe et al. | Multi‐view stereo on consistent face topology | |
CN114219976B (zh) | 图像处理方法、装置、电子设备、存储介质及计算机产品 | |
JP2022533464A (ja) | 三次元モデルの生成方法及び装置、コンピュータ機器並びに記憶媒体 | |
CN114120068A (zh) | 图像处理方法、装置、电子设备、存储介质及计算机产品 | |
Tancik et al. | Flash photography for data-driven hidden scene recovery | |
Chen et al. | High-fidelity face tracking for ar/vr via deep lighting adaptation | |
Malleson et al. | Rapid one-shot acquisition of dynamic VR avatars | |
CN117095128A (zh) | 一种无先验多视角人体服饰编辑方法 | |
Khan et al. | An efficient encoder–decoder model for portrait depth estimation from single images trained on pixel-accurate synthetic data | |
Wu et al. | [Retracted] 3D Film Animation Image Acquisition and Feature Processing Based on the Latest Virtual Reconstruction Technology | |
CN111582036A (zh) | 可穿戴设备下基于形状和姿态的跨视角人物识别方法 | |
Hua et al. | Background extraction using random walk image fusion | |
CN109064444B (zh) | 基于显著性分析的轨道板病害检测方法 | |
Danieau et al. | Automatic generation and stylization of 3d facial rigs | |
Chalás et al. | Generating various composite human faces from real 3D facial images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |