CN114219976A - 图像处理方法、装置、电子设备、存储介质及计算机产品 - Google Patents

图像处理方法、装置、电子设备、存储介质及计算机产品 Download PDF

Info

Publication number
CN114219976A
CN114219976A CN202111640189.7A CN202111640189A CN114219976A CN 114219976 A CN114219976 A CN 114219976A CN 202111640189 A CN202111640189 A CN 202111640189A CN 114219976 A CN114219976 A CN 114219976A
Authority
CN
China
Prior art keywords
image
images
target
data set
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111640189.7A
Other languages
English (en)
Inventor
肖钦杰
金小刚
蒋心为
葛诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN114219976A publication Critical patent/CN114219976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例公开了一种图像处理方法、装置、电子设备、存储介质及计算机产品,涉及多媒体、游戏、人工智能和云技术领域。该方法包括:获取包括多个第一样本的第一数据集,每个第一样本包括目标图像和该目标图像的遮罩图像;对于每个第一样本,通过调用训练好的神经网络模型预测得到该第一样本中的目标图像的前景蒙版,基于各第一样本中的目标图像和该目标图像的前景蒙版,构建得到训练数据集。基于本申请实施例提供的方法,能够为神经网络模型的训练提供更加丰富、训练效果更好的训练数据集。

Description

图像处理方法、装置、电子设备、存储介质及计算机产品
技术领域
本申请涉及多媒体、人工智能、云技术及多媒体技术领域,具体而言,本申请涉及一种图像处理方法、装置、电子设备、存储介质及计算机产品。
背景技术
随着文化产业的发展,电影以及游戏等多个产业中对高质量角色的需求日益增长。为了重建一个高质量的角色人物,工业界广泛采用多视角立体视觉重建(MVS,Multi-view Stereo)技术,但是该技术的重建精度不够理想,尤其是对于生理结构比较复杂的部分,产生的重建误差可能会是灾难性的,需要建模师采用手工的方式、耗费大量的时间进行修复。
针对上述问题,人们也探索了一系列抠除人物图像中一些部位的方法来减弱这些部位对应于几何重建的影响,基于数据驱动的深度学习方式就是其中之一,该方式可以通过从真实的数据集来学习一些部位的结构信息,但是由于现有数据集的不完善,基于深度学习的方式虽然能够带来一些重建效果的改善,但是有些部位的处理效果仍不够理想、有待改进。
发明内容
本申请实施例提供了一种图像处理方法、装置、电子设备、存储介质及计算机产品,基于该方案,能够构建得到用于提升神经网络模型性能的训练数据集。为了实现该目的,本申请实施例提供的技术方案如下:
一方面,本申请提供了一种图像处理方法,该方法包括:
获取包括多个第一样本的第一数据集,每个第一样本包括目标图像和该目标图像的遮罩图像,目标图像的遮罩图像是于同一场景下采集的同一目标对象的同一目标部位的两张图像之间的差分图像,目标部位在两张图像中的颜色信息不同,目标图像为两张图像中的任一图像;
对于每个第一样本,通过调用训练好的神经网络模型对该第一样本执行以下操作,得到该第一样本中的目标图像的前景蒙版:
基于该第一样本中的目标图像和目标图像的遮罩图像,提取该第一样本中的目标图像的透明度特征图,基于该第一样本中的目标图像,提取该目标图像的图像特征图;将图像特征图划分为多个图像特征块,对于每个图像特征块,确定该图像特征块与多个图像特征块中各图像特征块之间的相关性;基于多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,基于修正后的特征图得到该目标图像的前景蒙版,其中,目标特征图为所述透明度特征图,或者是对透明度特征图进行特征提取得到的至少一个层级的特征图中的至少一个;
基于各第一样本中的目标图像和该目标图像的前景蒙版,构建训练数据集。
另一方面,本申请实施例提供了一种图像处理装置,该装置包括:
初始数据集获取模块,用于获取包括多个第一样本的第一数据集,每个第一样本包括目标图像和该目标图像的遮罩图像,遮罩图像是包含同一目标对象的同一目标部位的两张图像之间的差分图像,目标部位在两张图像中的颜色信息不同,目标图像为两张图像中的任一图像;
前景蒙版预测模块,用于对于每个第一样本,通过调用训练好的神经网络模型对该第一样本执行以下操作,得到该第一样本中的目标图像的前景蒙版:
基于该第一样本中的目标图像和目标图像的遮罩图像,提取该第一样本中的目标图像的透明度特征图,基于该第一样本中的目标图像,提取该目标图像的图像特征图;将图像特征图划分为多个图像特征块,对于每个图像特征块,确定该图像特征块与多个图像特征块各图像特征块之间的相关性;基于多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,基于修正后的特征图得到该目标图像的前景蒙版,其中,目标特征图为透明度特征图,或者是对透明度特征图进行特征提取得到的特征图中的至少一个;
训练数据集构建模块,用于基于各第一样本的目标图像和该目标图像的前景蒙版,构建训练数据集。
可选的,前景蒙版预测模块可以用于:
对于每个图像特征块,确定该目标图像的遮罩图像中位置与该图像特征块在所述图像特征图中的位置相对应的图像区域;
对于每个图像特征块,基于该目标图像的遮罩图像中该图像特征块对应的图像区域的图像信息,确定该图像特征块对于上述多个图像特征块中各特征块的透明度影响力;
对于每个图像特征块,基于该图像特征块对应的透明度影响力,对该图像特征块与多个图像特征块中各图像特征块之间的相关性进行修正,得到修正后的相关性;
基于上述多个图像特征块中各图像特征块对应的修正后的相关性,对目标特征图进行修正。
可选的,对于每个图像特征块,前景蒙版预测模块可以用于:
对该目标图像的遮罩图像进行降采样,得到与图像特征图相同大小的图像;确定降采样后的遮罩图像中位置与该图像特征块在图像特征图中的位置相对应的图像区域;确定降采样后的遮罩图像中该图像特征块对应的图像区域的像素均值,将该像素均值确定为该图像特征块对于所述多个图像特征块中各图像特征块的透明度影响力。
可选的,前景蒙版预测模块在基于上述多个图像特征块中各图像特征块之间的相关性,对目标特征图进行修正时,可以用于:
基于上述多个图像特征块中各图像特征块对应的相关性和目标特征图,对各图像特征块对应的透明度特征块进行重建,得到重建后的特征图;
将目标特征图和重建后的特征图进行融合,得到修正后的特征图。
可选的,上述训练好的神经网络模型是由模型训练模块通过以下方式训练得到的:
获取包括多个第二样本的第二数据集,每个第二样本包括上述目标部位的样本图像、该样本图像的遮罩图像和该样本图像的真实前景蒙版;
对初始神经网络模型执行至少一次以下操作,将最后一次操作得到的第二模型作为上述训练好的神经网络模型:
基于第二数据集对初始神经网络模型进行训练,得到第一模型,其中,初始神经网络模型的输入包括一个样本图像和该样本图像的遮罩图像,输出为预测得到的该样本图像的前景蒙版;通过第一模型预测各第一样本中目标图像的前景蒙版;将各第一样本中目标图像的前景蒙版作为真实前景蒙版,采用多个第一样本中的至少部分样本和该部分样本数据对应的前景蒙版,对第二数据集进行扩充,得到中间数据集;基于中间数据集对第一模型进行训练,得到第二模型,将第二模型作为下一次操作时的初始神经网络模型,将中间数据集作为下一次操作时的第二数据集。
可选的,第二数据集中包括通过图像渲染方式构建的合成数据集;训练数据集包括第二数据集中的样本图像和样本图像的真实前景蒙版。
可选的,初始数据集获取模块还用于通过以下方式获得第二数据集中的第二样本:
通过图像渲染方式创建同一虚拟对象的上述目标部位对应的至少一组图像,每组图像包括至少四张图像,每组图像的多张图像中目标部位的颜色信息均不同,每组图像中的多张图像的渲染参数中除目标部位的颜色信息对应的渲染参数之外的其他渲染参数均相同;对于每组图像,基于该组图像中的多张图像,确定该组图像对应的前景蒙版;确定每组图像中两张指定图像之间的差分图像;对于每组图像,构建该组图像对应的至少一个第二样本,其中,第二样本中的样本图像为一组图像中两张指定图像中的任一图像,该样本图像的遮罩图像为所述两张指定图像之间的差分图像,该样本图像的真实前景蒙版为该组图像对应的前景蒙版。
可选的,初始数据集获取模块还用于:通过图像渲染方式创建每组图像对应的背景图像;采用一组图像对应的背景图像对另一组图像对应的上述两张指定图像的背景部分进行替换,确定替换后的两张图像之间的差分图像;将替换后的两张图像中的任一图像、替换后的两张图像之间的差分图像和上述另一组图像对应的前景蒙版,作为第二样本。
可选的,上述目标部位为目标对象的睫毛。
可选的,上述目标部位在上述两张图像中的颜色信息的不同,是在采集量两张图像时通过颜色显示控制设备的控制实现的。
可选的,在采集上述两张图像时,上述目标部位上涂有隐形荧光剂,颜色显示控制设备开启时产生指定光源,该隐形荧光剂在指定光源的照射下显色。
可选的,上述第一数据集是通过以下方式得到的:
在同一场景下,通过多视角图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;
将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对,计算各图像对中两张图像之间的差分图像;
基于各图像对和各图像对对应的差分图像,构建所述第一数据集,目标图像为图像对中的第一图像或第二图像。
另一方面,本申请实施例还提供了一种图像处理系统,该系统包括图像采集设备、颜色显示控制设备和图像处理设备;图像采集设备用于采集多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;颜色显示控制设备用于在通过图像采集设备采集图像对时,控制采集得到的图像对中的两张图像中上述目标部位的颜色信息的不同;图像处理设备用于确定图像采集设备采集的各图像对中两张图像之间的差分图像,基于各图像对和各图像对对应的差分图像,构建第一数据集,基于第一数据集通过执行本申请实施例提供的图像处理方法,得到训练数据集,其中,第一数据集中的目标图像为图像对中的任一图像,目标图像的遮罩图像为目标图像所属的图像对中两张图像之间的差分图像。
另一方面,本申请实施例还提供了一种图像处理方法,该方法包括:
获取待处理图像;基于待处理图像,调用训练好的图像处理模型,得到待处理图像的前景蒙版;其中,图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请实施例提供的图像处理方法构建得到的,训练数据集中包括多张图像和各图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到该图像处理模型,其中,神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
可选的,上述待处理图像可以是包含上述目标部位的图像。
可选的,待处理图像也可以是包含任意对象的图像,该任意对象为待处理图像中的前景,通过上述图像处理模型可以预测得到待处理图像中该任意对象所对应的前景蒙版。
相应的,本申请实施例还提供一种图像处理装置,该装置可以包括:
待处理数据获取模块,用于获取待处理图像;
图像处理模块,用于基于待处理图像,调用训练好的图像处理模型,得到待处理图像的前景蒙版;其中,图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请实施例提供的图像处理方法构建得到的,训练数据集中包括多张图像和各图像对应的前景蒙版;将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到该图像处理模型,其中,神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
另一个方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本申请任一实施例提供的方法的步骤。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请任一实施例提供的方法的步骤。
再一方面,本申请实施例还提供了一种计算机程序产品,该产品包括计算机程序,该计算机程序被处理器执行时实现本申请任一实施例提供的方法的步骤。
本申请实施例提供的技术方案带来的有益效果如下:
本申请实施例提供的方案,可以基于目标图像和目标图像的遮罩图像,准确地预测出目标图像的前景蒙版,从而可以基于目标图像和目标图像的前景蒙版,方便、快捷地实现用于预测图像的前景蒙版的图像处理模型的训练数据集的构建。由于目标图像的遮罩图像是通过对目标部位的颜色信息不同的两张图像进行差分得到的,遮罩图像包含了比三分图更详细的图像信息,因此,基于本申请实施例提供的方案,可以预测得到更加精确的前景蒙版。另外,在预测目标图像的前景蒙版时,还考虑了目标图像中不同图像区域之间的相关性(即图像特征块之间的相关性),由于通常相关性较高的图像区域的透明度信息也应该是相似度较高的,因此,将不同图像区域之间的相关性作为指导信息,来指导目标图像的透明度特征图的修正,可以进一步提升预测得到的前景蒙版的准确性。
本申请实施例提供的方案,为训练得到具有更佳性能的图像处理模型提供了非常好的数据基础,更好的满足了实际应用需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种图像处理方法的流程示意图;
图2为本申请实施例提供的一种通过神经网络模型预测目标图像的前景蒙版的流程示意图;
图3为本申请实施例提供的一种基于光流信息对图像进行调整的原理示意图;
图4为本申请实施例提供的通过图像渲染方式得到的样本数据的示意图;
图5为本申请实施例提供的一种图像处理系统的结构示意图;
图6为本申请实施例提供的一种图像处理方法的原理示意图;
图7为本申请实施例提供的一种神经网络模型的工作原理示意图;
图8为本申请实施例提供的一种对透明度特征图进行修正处理的原理示意图;
图9为本申请实施例提供的基于几种不同的数据集预测出的图像中睫毛的前景蒙版的对比效果示意图;
图10为本申请实施例提供的一种图像处理方法的流程示意图;
图11为本申请实施例提供的一种图像处理装置的结构示意图;
图12为本申请实施例适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。这里使用的术语“和/或”或者“至少一项”指示该术语所限定的项目中的至少一个,例如“A和/或B”或者“A或B中的至少一项”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。在描述多个(两个或两个以上)项目时,如果没有明确限定多个项目之间的关系,这多个项目之间可以是指多个项目中的一个、多个或者全部,例如,对于“A包括A1、A2、A3”的描述,可以实现为A包括A1或A2或A3,还可以实现为A包括A1、A2、A3这三项中的至少两项。
在很多应用场景中,图像处理已经成为人们生活、工作中不可缺少的技术之一。无论是工业化应用中的人物重建,比如,游戏中游戏角色的重建,还是人们日常生活中的修图,都离不开图像处理。在这些需求中,抠图处理是非常重要的一环。而随着人工智能技术的发展,基于深度学习的图像处理技术也发展的如火如荼,在很多应用中已投入使用。现有的基于深度学习的抠图处理方式,虽然已经能够取得整体效果不错的抠图效果,但是对于一些生理结构复杂的部位,比如睫毛这一部位,现有技术仍无法有效的提取出该部位,这是因为现有的抠图数据库的生成方式是通过严格控制背景来提取前景蒙版,但是由于睫毛与皮肤、眼睛的背景是相连的,现有数据库构建方式无法构建睫毛数据库,因此,对于包括睫毛在内的一些部位,现有技术仍无法得到局部的精确处理效果。
针对现有技术中的存在的问题,本申请实施例提出了一种图像处理方法,基于该方法所构建得到的训练数据集,能够训练得到具有很好性能的神经网络模型,能够更好的满足实际应用需求。
可选的,本申请实施例提供的图像处理方法中的一些步骤,可以基于人工智能(Artificial Intelligence,AI)技术实现。比如,对于图像的前景蒙版的获取可以通过神经网络模型(如基于带有GCA(Guided Contextual Attention,上下文引导的注意力机制)的图像抠图模型)预测得到。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可选的,本申请实施例所涉及的数据处理可以基于云技术(Cloud technology)实现,比如,图像对的差分图像的计算、图像对应的三分图的获取、神经网络模型的训练等步骤中的一个或多个步骤可以采用云技术实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请实施例提供的该图像处理方法,可以由任一电子设备执行,比如,可以由任一用户终端或服务器执行,服务器可以是物理服务器,也可以是云服务器,还可以是服务器集群。上述用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。
需要说明的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。比如,用户的图像等信息的获取,是在用户授权同意并符合相关法律法规等规定的前提下获取的。
为了更好的理解和说明本申请实施例提供的方案,下面首先对本申请实施例中所涉及的一些技术用语进行说明。
遮罩图像:本申请实施例中的差分图像,是将两幅图像进行对应位置的像素值相减操作得到的图像。
三分图:是指将图像划分为了包括前景区域、背景区域和未知区域的图,其中,未知区域是指图像中不确定是前景还是背景的区域。
前景蒙版:也可以称为前景透明度或透明度蒙版,是图像中前背景分离的结果,可以是一个灰度图,每一个像素点的灰度值表示原始图像每个像素属于前景(如睫毛)的程度,白色代表某一个像素确定属于前景,黑色代表某一个像素确定属于背景。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种图像处理方法的流程示意图,该方法可以由任意的电子设备执行,如图1中所示,该图像处理方法可以包括以下步骤S110-步骤S130。
步骤S110:获取包括多个第一样本的第一数据集,每个第一样本包括目标图像和该目标图像的遮罩图像。
其中,一个目标图像的遮罩图像是于同一场景下采集的同一目标对象的同一目标部位的两张图像(在下文中简称为图像对)之间的差分图像,该目标部位在两张图像中的颜色信息不同,该目标图像为两张图像中的任一图像。
本申请的实施例中,由于目标图像的遮罩图像是通过对目标部位的颜色信息不同的两张图像进行差分得到的,其中包含了前景(即上述目标部位)边界周围更丰富的图像信息,而并非简单的只是已知区域(即确定的前景区域/背景区域)和未知区域的二进制形式的图像信息,遮罩图像包含了比三分图更详细的图像信息,相比于采用一张图像和该图像的三分图来提取该图像的前景蒙版的方案,可以使得神经网络模型能够基于遮罩图像中更多的图像信息为目标图像学习到更加准确的前景蒙版。其中,第一数据集中的多个第一样本对应的目标对象可以是一个对象,也可以是多个对象。该第一数据集可以是基于通过对目标对象进行图像采集获取到的真实图像数据所构建的,从而使得基于该第一数据集构建得到的训练数据集中的图像数据更加真实,更加符合实际,为后续基于该训练数据集的图像处理提供了很好的数据支持。当然,对于目标对象的图像数据的采集,是在目标对象授权的情况下进行的。其中,目标对象可以包括但不限于人。
需要说明的是,本申请实施例中所描述的“多个”是指至少两个,可以是两个或两个以上。
在本申请实施例中,目标部位可以是目标对象的任一部位,可以包括但不限于生理结构复杂的部位。可选的,该目标部位可以是目标对象的睫毛。可以理解的是,对于睫毛而言,上述同一个目标部位指的是同一个目标对象的同一只眼睛的睫毛。
在实际采集图像时,可以于同一场景下,通过图像采集设备采集同一目标对象的眼部区域的图像来得到对应于睫毛的图像对(即上述两张图像)。需要说明的是,本申请实施例中的所描述的同一场景,是指在采集同一图像对中的两张图像时,采集环境是相同的,可以理解为两张图像中除了目标部位对应的图像区域之外其他图像区域理论上是相同的。
为了构建出图像数据更加丰富的数据集,本申请实施例中,对于睫毛这一目标区域,上述多个图像对中包括多个对应于同一目标对象的左眼对应的图像对和多个对应于同一目标对象的右眼对应的图像对。可以通过对多个目标对象进行图像采集得到多个图像对。
对于每个图像对,由于该图像对是同一目标对象的同一目标部位的两张图像,且两张图像中该目标部位的颜色信息是不同的,因此,可以通过将两张图像相减,对该图像中的大部分的背景进行去除,得到对应于该目标部位的差分图像,也就是本申请实施例中的遮罩图像。可以理解的是,在本申请实施例中,目标部位是各图像对中的前景,如睫毛。
目前,在图像处理技术中,以人脸重建为例,现有技术都无法很好的实现毛发级别的几何结构的重建。虽然随着深度学习技术的不断发展,重建的精度也在不断的提升,但是由于深度学习所需的数据集的缺乏,对于一些生理结构复杂的部位的重建,现有基于深度学习的三维重建方式也未能取得较好的结果。而本申请实施例提供的该方法,为实现包括但不限于睫毛在内的、具有复杂生理结构的部位的精确处理(该处理包括但不限于三维重建),提供了很好的学习数据集。
步骤S120:对于每个第一样本,通过调用训练好的神经网络模型预测得到该第一样本中的目标图像的前景蒙版。
其中,步骤S120可以包括如图2中所示的步骤S121至步骤S123,对于每个第一样本,上述训练好的神经网络模型可以通过执行图2中所示出的各步骤得到该第一样本的前景蒙版。
步骤S121:基于第一样本中的目标图像和目标图像的遮罩图像,提取该第一样本中的目标图像的透明度特征图,基于该第一样本中的目标图像,提取该目标图像的图像特征图。
步骤S122:将图像特征图划分为多个图像特征块,对于每个图像特征块,确定该图像特征块与多个图像特征块中各图像特征块之间的相关性。
其中,对于图像特征图的划分方式本申请实施例不做限定,比如可以采用3×3(对于图像而言,3表示图像中像素点的数量,对于特征图而言,3表示特征图中特征点(或称为元素)的数量)的窗口进行特征图的划分,得到至少两个3×3的图像特征块,并计算划分得到的至少两个图像特征块中所有两两特征块之间的相关性,也就是特征相似性。对于两个特征块之间的相关性的具体计算方式本申请实施例不做限定,如可以以其中一个特征块作为卷积核,与另一个特征块进行卷积操作,得到两个特征块的相关性。
步骤S123:基于多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,基于修正后的特征图得到该目标图像的前景蒙版。
其中,对于一个图像特征块而言,该图像特征块对应的相关性是指该图像特征块与图像特征图中各个图像特征块之间的相关性。可选的,对于每个图像特征块而言,可以将该特征块reshape(即塑形,用于改变特征块中数据的形状)为卷积核,以该卷积核与图像特征图中的各个区块(也就是特征块)分别进行卷积操作,得到该特征块与各个区块之间的相关性。
本申请实施例中,在预测目标图像的前景蒙版时,还考虑目标图像中不同图像区域之间的相关性(即图像特征块之间的相关性,也就是相似度),由于一张图像中相关性较高的图像区域的透明度信息也应该是相似度较高的,因此,采用不同图像区域之间的相关性来指导目标图像的透明度特征图的修正,能够进一步提升提取得到的目标图像的前景蒙版的准确性。
对于上述神经网络模型的模型架构本申请实施例不做限定,该模型的输入是一张图像(如上述目标图像)和该图像的遮罩图像,模型的输出为该图像的前景遮罩,该神经网络模型也可以称为前景蒙版抠图/推理网络,通过该网络能够提取透明度信息丰富的目标部位的前景蒙版,比如,目标部位可以是人的睫毛,基于该前景蒙版抠图网络,可以提取得到人眼图像中睫毛抠图数据即睫毛的前景蒙版,且该蒙版能有效区分皮肤、眼睛等背景,准确度很好。
可选的,本申请实施例提供的该前景蒙版推理网络可以是基于编码器和解码器结构的神经网络模型,比如可以采用基于带有GCA的图像抠图模型,编码器部分用于网络的输入图像的特征提取,得到编码结果,解码器部分基于编码结果进行特征的上采样(如反卷积等处理),得到前景蒙版的预测结果。
其中,进行修正的目标特征图可以是上述透明度特征图,或者是对上述透明度特征图进行特征提取得到的特征图中的至少一个。目标特征图可以包括编码阶段的特征图,还可以包括解码阶段的特征图。透明度特征图是对第一样本进行了至少一次特征提取得到的透明度特征图。
可选的,前景蒙版推理网络的编码器和解码器部分可以均包含多个层次(也可以称为层级)的特征处理模块,如编码器可以包括多个基于卷积层的特征处理模块,解码器可以包括多个基于反卷积层的特征处理模块,上述目标特征图可以包括编码阶段的至少一个层次的透明度特征图,以及解码阶段的至少一个层次的透明度特征图,在预测目标图像的前景蒙版时,可以将第一样本中的目标图像和目标图像的遮罩图像拼接后输入至编码器中,目标特征图可以是通过编码器进行特征提取得到的任一层次的透明度特征图,可选的,目标特征图可以是具有更好的语义表达能力的高层次的特征图,基于上述图像特征块之间的相关性对目标特征图进行修正后,编码器可以基于该修正后的特征图继续进行特征提取,得到编码结果,或者解码器可以基于该修正后的特征图进行解码阶段的处理,在解码阶段,解码器可以基于编码结果进行反卷积等处理,得到处理后的透明度特征图,还可以基于上述图像特征块之间的相关性对该透明度特征图再次进行修正后,解码器基于再次修正后的特征预测得到目标图像的前景蒙版。
由步骤S121至步骤S123可以看出,上述神经网络模型的输入可以包括两个分支,一个分支是第一样本即目标图像和目标图像的遮罩图像,该分支用于样本对应的透明度特征图(即Alpha feature)的提取,另一分支的输入是目标图像,该分支用于提取目标图像的图像特征图(即Image feature)。可选的,透明度特征图可以是高层次的不透明度信息,可以采用多层级的特征提取模块进行特征提取得到,图像特征图可以是低层次的图像特征,如可以采用数量较少的卷积层进行特征提取得到,以使得图像特征图中能够保留目标图像中的更多细节特征(视觉信息),以基于不同图像区域之间的相关性来指导透明度特征图的修正,得到更加准确的透明度特征图,从而可以预测得到更精准的前景蒙版。
步骤S130:基于各第一样本中的目标图像和该目标图像的前景蒙版,构建训练数据集。
其中,上述训练数据集中包括多个训练样本,每个第训练样本包括一个上述目标图像和该目标图像的前景蒙版。
在基于本申请实施例所构建的训练数据集对神经网络模型进行训练时,可以将目标图像的前景蒙版作为目标图像的真实前景蒙版(即标注标签),对模型进行有监督的训练,具体的,该神经网络模型的输入为训练样本中的目标图像,模型的输出为预测得到的目标图像的前景蒙版,可以基于训练样本中的该真实前景蒙版和通过模型预测得到的前景蒙版之间的差异(如基于预测得到的前景蒙版和真实前景蒙版之间的差异计算模型的训练损失)来约束模型的训练,通过不断的模型参数调整、迭代训练使得模型的预测输出尽量贴近于训练样本的标注标签,从而可以训练得到能够很好的预测出待处理图像的前景蒙版的图像处理模型,进而还可以基于待处理图像的前景蒙版对待处理图像进行进一步的处理,比如,可以基于前景蒙版,将图像中的前景区域和背景区域很好的分割。
本申请实施例提供的该图像处理方法,在获取目标图像的前景蒙版时,采用了包含更多信息的目标图像的遮罩图像,还采用目标图像中不同图像区域之间的相关性来指导透明度特征图的修正,与现有技术相比,能够获取到更加准确的前景蒙版。因此,基于本申请实施例方案得到的训练数据集更加真实、准确,为基于深度学习方式训练得到性能很好的、能够用于预测一个图像中所包含的对象的目标部位的前景蒙版的图像处理模型提供了很好的先验信息支撑。此外,由于本申请实施例中的遮罩图像是可以自动生成的,而无需人工标注的方式,可以大大提高样本数据的获取效率。
本申请的可选实施例中,在通过训练好的神经网络模型对每个第一样本进行处理时,对于每个第一样本的目标图像和遮罩图像,该图像处理方法还可以包括:
对于该目标图像对应的每个图像特征块,确定该目标图像的遮罩图像中位置与该图像特征块在图像特征图中的位置相对应的图像区域;
对于每个图像特征块,基于该目标图像的遮罩图像中该图像特征块对应的图像区域的图像信息,确定该图像特征块对于多个图像特征块中各图像特征块的透明度影响力;
相应的,上述基于多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,可以包括:
对于每个图像特征块,基于该图像特征块对应的透明度影响力,对该图像特征块与多个图像特征块中各图像特征块之间的相关性进行修正,得到修正后的相关性;
基于多个图像特征块中各图像特征块对应的修正后的相关性,对目标特征图进行修正。
在实际应用中,对于每个目标图像而言,目标图像中的不同图像区域(每个图像特征块都对应于目标图像中一块特定位置的图像区域)对于上述目标部位而言,其重要程度通常都是不同的,比如,有的图像区域中可能包含目标部位,有的图像区域不包含目标部位,有的图像区域主要是前景区域(即大部分像素点都包含目标部位的像素点),有些区域大部分是背景区域,因此,在预测目标图像的前景蒙版时,不同图像区域的影响力也是不同的。而目标图像的遮罩图像是前文中所描述的目标部位的两张图像的差分图像,且两张图像是对应于同一场景的两张图像,因此,该遮罩图像中的图像信息主要是由于目标部位的颜色信息的不同而产生的像素信息,该遮罩图像中每个图像区域的图像信息则可以用于表征该图像区域对于目标图像中目标部位的重要程度,因此,对于目标图像的每个图像特征块,可以采用遮罩图像中与该特征块对应的图像区域的图像信息,来确定该图像特征块的透明度影响力,即该图像特征块在预测前景蒙版时对于透明度特征图的影响程度。
对于每个图像特征块,该特征块在图像特征图中的位置,是指该特征块在该特征图中所属的区域位置,比如,一个特征块是特征图中一个以坐标(x,y)为中心的3×3(3表示特征图中特征点/元素的数量)大小的特征块,该特征块在特征图中位置采用上述中心点坐标(x,y)和特征块的上述大小3×3来表示。相应的,若遮罩图像是降采样后与图像特征图相同大小的图像,遮罩图像中位置(可以称为图像位置)与该图像区域块(即图像特征块)在图像特征图中的位置相对应的图像区域,则是指遮罩图像中以坐标(x,y)为中心的3×3(3表示特征图中特征点/元素的数量)大小的图像区域,若遮罩图像与图像特征图的大小不同,如遮罩图像是没有进行降采样处理的与目标图像相同大小的图像,遮罩图像中位置与该图像区域块在图像特征图中的位置相对应的图像区域,可以是指遮罩图像中与该特征块的原图区域相对应的图像区域,其中,原图区域指该图像特征块在目标图像中对应的图像区域(也就是该特征块对应到目标图像上的区域)。比如,以坐标(x,y)为中心的3×3大小的特征块,其对应于目标图像上以(x0,y0)为中心的大小为k×k的区域,那么该特征块在遮罩图像中对应的图像区域是遮罩图像中以(x0,y0)为中心的大小为k×k的区域。图像区域的图像信息是指该图像区域中的各像素点的像素值。
作为一可选方案,对于每个图像特征块,可以基于遮罩图像中该图像特征块所对应的图像区域的像素值,来确定该图像特征块对应的透明度影响力,比如,可以将遮罩图像中该图像特征块对应的图像区域的像素值的均值作为该特征块对应的透明度影响力。
作为另一可选方案,对于每个图像特征块,确定该目标图像的遮罩图像中位置与该图像特征块在图像特征图中的位置相对应的图像区域,包括:
对该目标图像的遮罩图像进行降采样,得到与图像特征图相同大小的图像;
确定降采样后的遮罩图像中位置与该图像特征块在图像特征图中的位置相对应的图像区域;
确定上述降采样后的遮罩图像中该图像特征块对应的图像区域的像素均值,将该像素均值确定为该图像特征块对于多个图像特征块中各图像特征块的透明度影响力。
为了减少数据计算量,可以将遮罩图像降采样处理成与图像特征图相同尺寸的图像,这样,每个图像特征块对应于降采样后的图像中相同大小的一块区域,采用该区域的像素信息计算得到对应位置的特征块所对应的透明度影响力。比如,一个图像特征块的大小为3×3,对于图像特征图中以坐标为(x,y)的特征点为中心的一个图像特征块,该特征块在遮罩图像中对应的图像区域是降采样后的遮罩图像中以坐标(x,y)为中心的3×3的图像区域,当然,该示例中图像特征图的图像坐标系和降采样后的遮罩图像的图像坐标系是相同的。
本申请的实施例中,目标图像可以是一张RGB图像,目标图像的遮罩图像也是一张RGB图像,在基于遮罩图像中位置与一个图像特征块相对应的区域来确定该特征块的透明度影响力时,可以采用遮罩图像中至少一个通道的图像中对应区域的图像信息,比如,可以采用蓝色通道(即B通道)的图像信息。当然,也可以采用其他颜色通道或者至少两个颜色通道的图像信息,或者是将遮罩图像转换为灰度图像,采用转换后的图像信息,比如,可以分别采用各通道的图像信息计算一个影响力,通过融合各通道对应的影响力得到该特征块对应的透明度影响力,如,将各通道对应的影响力进行平均或者加权求和,得到该特征块对应的透明度影响力。
在得到每个图像特征块对应的透明度影响力之后,可以采用该透明度影响力对该图像特征块与多个图像特征块中各个图像特征块之间的相关性进行加权计算,采用加权后的相关性作为目标特征图的指导信息,来修正目标特征图。
可选的,上述基于多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,包括:
基于多个图像特征块中各图像特征块对应相关性和目标特征图,对各图像特征块对应的透明度特征块进行重建,得到重建后的特征图;
将目标特征图和重建后的特征图进行融合,得到修正后的特征图。
具体的,可以基于多个图像特征块中各图像特征块对应的相关性(或者修正后的相关性)作为目标特征图重建的指导信息,得到一个融合了图像区域之间的相似性信息的透明度特征图,可以将重建得到的特征图和目标特征图融合得到具有更准确的信息表达的透明度特征图。其中,对于特征图融合的方式,本申请实施例不做限定,如可以是将两个特征图对应位置的特征值相加,即将两个特征图逐像素相加,得到修正后的特征图。
可选的,在重建特征图时,可以采用与划分图像特征图同样的方式,将目标特征图划分为多个透明度特征块,可以将各透明度特征块整形(即reshape)为卷积核,分别与每个图像特征块对应的相关性进行反卷积操作,得到每个图像特征块对应的重建后的透明度特征块。也就是说,对于每个图像特征块,将该特征块对应的各个相关性作为用于重建该特征块对应的透明度特征块的输入特征,以reshape后的透明度特征块作为卷积核,通过反卷积操作重建得到该图像特征块对应的透明度特征块。
可以理解的是,一个图像特征块对应的透明度特征块指的该图像特征块对应的透明度特征图,也就是该图像特征块在目标图像中对应的图像区域的透明度特征图,上述重建后的透明度特征块则是基于图像特征块之间的相关性所预估出的该图像特征块对应的透明度特征块。
其中,对于得到重建后的特征图的具体步骤,可以参见现有基于GCA的抠图模型中GCA模块的实现步骤,但与现有方案不同的是,本申请实施例中的相关性采用的是图像特征图中每个图像特征块与该特征图中各个区块之间的相关性,而不是已知区域的特征和未知区域的特征之间的相关性,本申请实施例中每个特征块对应的相关性的透明度影响力(也就是相似度的权重)是基于目标图像的遮罩图像确定的,而不是根据三分图中已知区域和未知区域确定的。
通过本申请上述各可选实施例提供的方案,对于第一数据集中的多个第一样本,可以基于样本中目标图像的遮罩图像、以及目标图像中不同区域之间的相关性,获取到精确性很好的目标图像的前景蒙版。其中,第一样本中的目标图像,可以是第一样本所对应的图像对(即通过图像采集设备于同一场景下采集的同一目标对象的同一目标部位的两张图像)中的任一图像,可选的,对于图像对,可以基于该图像对得到两个第一样本,也就是说,可以将图像对中的两张图像分别作为目标图像,并与该图像对对应的遮罩图像组合,得到两个第一样本。
作为另一可选方案,为了尽量避免由于额外引入的颜色信息对图像中其他区域所带来的影响,每个图像对中可以包括上述目标部位的颜色是该部位的原色时所采集的一张图像,上述目标图像可以采用图像对中对应于目标部位的颜色是该部位的原色的图像。即每个图像对中可以包括一张目标部位的颜色是原色时的图像和一张目标部位的颜色是非原色时的图像,比如,目标部位是睫毛,可以给目标对象的睫毛涂上隐形荧光剂,隐形荧光剂不显色时采集的眼部图像是睫毛原色的图像(第一图像),隐形荧光剂显色时采集的眼部图像为非睫毛原色的图像(第二图像)。为了避免荧光剂显色产生的其他影响,对于每个图像对,上述第一样本可以包括该图像对中的第一图像和该图像对对应的遮罩图像。
本申请的可选实施例中,上述目标部位在两张图像中的颜色信息的不同,可以是在采集两张图像时通过颜色显示控制设备的控制实现的。
也就是说,在采集上述图像对时,可以配置有颜色显示控制设备,通过该设备可以实现对目标对象的目标部位的显示颜色的控制。对于颜色显示控制设备的选取和控制颜色不同的方式,本申请实施例不做限定,可以在不会对目标对象造成不良影响的前提下,根据实际需求和场景来选择。
作为一可选方式,在采集每个第一样本对应的两张图像时,上述目标部位上可以涂有隐形荧光剂,上述颜色显示控制设备开启时可以产生指定光源,上述隐形荧光剂在指定光源的照射下显色。
可以理解的是,上述隐形荧光剂在显色时,所显示的颜色是与目标部位的原色(目标部位的本色)不同的颜色。可选的,上述颜色显示控制设备可以是紫外线闪光灯,隐形荧光剂可以是在紫外灯照射下显色、在自然光照射下无色的荧光剂。
采用该方式,在采集每个图像对时,可以在颜色显示控制设备开启和关闭的状态下,分别进行目标部位的图像采集,以得到目标部位的颜色信息不同的图像对。当然,作为另一可选方式,也可以采用在颜色显示控制设备开启和关闭状态下显示不同颜色的变色荧光剂。
需要说明的是,无论采用何种荧光剂、何种颜色显示控制设备,荧光剂和颜色显示控制设备都应该是符合国际标准要求的,不会对目标对象造成不良影响的荧光剂和设备。比如,在采集眼部图像时,如果采用紫外线闪光灯,可以使用符合国际电工委员会的照明标准的低功率的紫外线闪光灯,紫外线闪光灯在发光时可以距离眼部一定距离以外,比如,0.5米左右。
在实际应用中,由于在荧光剂显色时进行图像采集,可能会对图像中目标部位之外的其他图像区域造成影响(比如,以目标部位是睫毛为例,由于睫毛是与目标对象的其他部位存在连接的,睫毛如果涂色之后,采集得到的图像中睫毛周边的区域的像素信息有可能会有影响),为了减少这种影响,可以优选上述隐形荧光剂,这样每个图像对中至少有一张图像是可以避免上述影响的。可选的,在基于图像对和图像对对应的遮罩图像构建第一数据集时,可以是选择采用图像对中隐形荧光剂不显色时所采集的图像,即第一数据集中的目标图像可以选用荧光剂不显色的图像。
在采集图像时,为了尽量减少图像对中两张图像之间的差异,可以控制两张图像之间的采集时差尽量小。可选的,每个图像对可以是图像采集设备处于连拍模式下拍摄的两张图像。比如,以睫毛为例,可以通过连拍的模式拍摄被试带荧光标记(荧光剂显色)与不带荧光标记(荧光剂不显色)的眼部图像,得到上述图像对。
为了尽可能多的能够获取到目标部位处于各种各样不同形态下的图像对,同时也为了能够提高图像采集的效率,本申请的可选实施例中,第一数据集是通过以下方式获取到的:
在同一场景下,通过多视角图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;
将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对,计算各图像对中两张图像之间的差分图像;
基于各图像对和各图像对对应的差分图像,构建第一数据集。
其中,第一数据集中的目标图像可以是图像对的第一图像或第二图像,目标图像所属的图像对中两张图像之间的差分图像是该目标图像的遮罩图像。
基于该可选方案,在对目标对象进行目标部位的图像采集时,可以通过对应于多个不同视角的多个图像采集设备来采集,这样一次拍摄就可以从多个不同的视角采集得到目标部位的多张图像。比如,可以采用15台相机同时对目标对象的同一只眼睛进行拍摄,可以设置图像采集设备都处于连拍模式,且可以控制15台相机同步进行拍摄,比如,在颜色显示控制设备(如上述紫外线闪光灯)关闭状态下,可以同步拍摄得到15张不同视角的图像,在颜色显示控制设备开启状态下,再同步拍摄15张图像,这样,两次拍摄就可以得到15对眼部区域的图像对。另外,为了尽可能快的获取到图像对(尽可能的减少图像对中两张图像之间由于外在因素所引起的差异),可以控制颜色显示控制设备的开启和关闭与图像采集设备采集两张图像时的时差也能够同步,比如,在上述示例中,可以再额外增加一台相机,可以通过该相机来触发紫外线闪光灯的开启,在图像采集时,可以通过无线快门控制16台相机的同步。
可以理解的是,在实际实施时,可以通过上述图像采集方式对至少一个目标对象进行至少一次图像对的采集,比如,可以对每个目标对象分别进行多次采集(一次采集指的是图像对的采集),可以在目标对象的目标部位处于不同状态时进行多次采集,以获取到更丰富的图像数据。
可选的,通过图像采集设备采集到大量的图像对之后,为了更好的保证最终所构建的训练数据集中的图像质量,还可以对采集到的大量图像对进行筛选,将其中图像质量相对低的一些图像对过滤掉。过滤的方式可以根据实际需求配置,比如,可以通过人工方式进行筛选,或者是可以通过预设的图像质量判断标准,由电子设备根据该标准对图像进行自动筛选。
在得到多个图像对之后,可以将这些图像对直接作为源数据进行后续处理,即计算差分图像,也可以是对各个图像对中的两张图像进行一些处理,将预处理后的各图像对作为后续处理的源数据,比如,可以对各图像对进行裁剪,可以按照设定尺寸(该设定尺寸也可以与采集到的图像的原始尺寸有关),将各图像对中非目标部位的图像区域进行一些裁剪,可以减少后续的数据处理量。
作为一可选方式,每个第一样本所对应的两张图像之间的差分图像可以是通过以下方式得到的:
确定两张图像之间的光流信息;
基于两张图像对应的光流信息对两张图像中的任一图像进行调整,确定该调整后的图像和该图像对中的另一图像之间的差分图像。
对于图像对中的两张图像而言,由于在实际图像采集时,目标对象(如人)及其微表情等很难是保持绝对的不动的,因此,两张图像中会存在由目标对象的微小变化而引起的两张图像之间的差异,为了减少这种差异,在计算两张图像的差分图像之前,可以对两张图像中的一种图像进行调整,通过该调整减少两张图像之间由于目标对象的运动所导致的差异。
具体的,可以通过计算两张图像之间的光流信息,通过该光流信息对其中一张图像进行形变处理(也就是图像配准处理),再计算形变后的该图像和另外一张图像之间的差分图像。可选的,为了尽量减少由于目标部位处于显色时的影响,可以是以两张图像中目标部位是原色时所采集的图像(可以称为第一图像)为基准(即图像配准时的参考图像),采用两张图像之间的光流场(即上述光流信息),对另一张图像(可以称为第二图像)进行形变处理,将第一图像和形变后的第二图像相减,得到两张图像之间的差分图像。
光流信息即光流场表示了图像中像素的瞬时运动信息,也就是两帧图像之间的运动位移场。在基于光流场对第二图像进行形变处理时,将第二图像作为待配准图像,可以根据光流场对第二图像进行插值处理,来获得配准后的图像,也就是形变处理后的图像。
对于确定两张图像之间的光流场的具体方式,本申请实施例不做限定,可以采用现有任一计算图像之间光流场的方式。可选的,可以采用训练好的光流场估计模型,比如,将图像对输入到该模型中,通过该模型预测得到两张图像间的光流场。之后,则可以基于该光流场对图像对中的一张图像进行调整,以减少两张图像之间的差异。
作为一可选方式,图3中示出了本申请实施例提供的一种得到两张图像之间的差分图像的原理示意图。该示意图中,目标部位为人的睫毛,图像对包括一张睫毛上的隐形荧光剂显色时采集的睫毛区域的图像(图3中的带荧光图像)和一张睫毛上的隐形荧光剂未显色时采集的睫毛区域的图像(即对应于睫毛原色的图像,图3中所示的不带荧光图像),可以将这两张图像输入至光流估计网络中,通过该神经网络估计得到两张图像之间的光流信息(即光流场),之后,可以基于该光流场对带荧光图像进行形变处理(也就是图像配准处理),然后可以将不带荧光图像和该形变处理后的带荧光图像相减,得到两张图像之间的差分图像。
在得到大量图像对之后,即可以将这些图像对作为源数据,通过获取各图像对的差分图像来构建得到上述第一数据集,并可以基于第一数据集,通过训练好的神经网络模型来预测各目标图像的前景蒙版,并将预测出的前景蒙版作为目标图像的真实前景蒙版,构建得到训练数据集。
本申请的可选实施例中,上述训练好的神经网络模型可以是通过以下方式训练得到的:
获取包括多个第二样本的第二数据集,每个第二样本包括目标部位的样本图像、该样本图像的遮罩图像和该样本图像的真实前景蒙版;
对初始神经网络模型执行至少一次以下操作,将最后一次操作得到的第二模型作为训练好的神经网络模型:
基于第二数据集对初始神经网络模型进行训练,得到第一模型,其中,初始神经网络模型的输入包括一个样本图像和该样本图像的遮罩图像,输出为预测得到的该样本图像的前景蒙版;
通过第一模型预测各第一样本中目标图像的前景蒙版;
将各第一样本中目标图像的前景蒙版(即通过第一模型预测得到的前景蒙版)作为真实前景蒙版,采用多个第一样本中的至少部分样本和该部分样本数据对应的前景蒙版,对第二数据集进行扩充,得到中间数据集;
基于中间数据集对第一模型进行训练,得到第二模型,将第二模型作为下一次操作时的初始神经网络模型,将中间数据集作为下一次操作时的第二数据集。
需要说明的是,在实际应用中,上述第二数据集中还可以包括其他的样本数据,以丰富训练数据集,提升训练出的模型的性能。比如,第二数据集中除包含目标部位对应的第二样本,可以包括其他对象或其他部位的样本图像、该样本图像的遮罩图像和该样本图像的真实前景蒙版(即其他对象或其他部位对应的前景蒙版)。比如,上述目标部位是睫毛,第二数据集中除了可以包括睫毛对应的第二样本外,还可以包括人脸的样本数据,即人脸图像、人脸图像的遮罩图像和真实前景蒙版。
可选的,上述第二数据集可以包括通过图像渲染方式构建的合成数据集,该合成数据集可以作为训练上述神经网络模型的基础数据集,基于包括该基础数据集的第二数据集对该模型进行初始的训练,再基于该训练后的模型对第一样本进行前景蒙版的预测,并将预测出的蒙版作为第一样本的真实前景蒙版,基于第一样本数据和该预测出的前景蒙版对基础数据集扩充后再次对上述训练后的模型进行训练,这样,基于第二数据集对模型进行的一次训练和基于扩充后的中间数据集对模型进行的一次训练,可以看作一次训练,可以通过不断重复该训练过程,实现对模型的优化,并在每次训练后可以对各第一样本中目标对象的前景蒙版再次更新,下一次训练时,中间数据集中第一样本的真实前景蒙版则可以采用更新后的更加准确的蒙版。
在完成模型的最后一次训练后,可以将此次得到的第二模型作为上述训练好的神经网络模型,通过该模型即可以预测得到各第一样本中目标图像的前景蒙版。其中,在实际实施时,对于上述神经网络模型的训练结束条件,本申请实施例不做限定,比如,可以是训练次数达到设定次数,或者是神经网络模型的损失函数满足设定条件,如损失函数收敛或者训练损失值小于设定值。
可选的,为了提高模型的性能,在对第二数据集进行扩充得到中间数据集时,添加至第二数据集中的新的样本数据,可以基于此次操作中通过第一模型预测得到的各目标图像的前景蒙版的效果来筛选,比如,可以通过人工选择部分(比如20%)预测效果比较好的前景蒙版和该部分蒙版对应的第一样本,来扩充数据集,将挑选出的前景蒙版、该蒙版对应的目标图像以及该目标图像的遮罩图像作为新增的第二样本和第二数据集一起作为中间数据集。将中间数据集用作下一次操作的第二数据集,再次执行上述操作。
需要说明的是,在每次执行上述训练操作的过程中,都需要基于此次训练得到的第一模型重新预测所有目标样本(包括添加到中间数据集中的目标图像、以及第一数据集中的目标图像)的前景蒙版。
在实际应用中,在采用上述渐进式训练策略完成模型的训练之后,可以基于该模型预测得到第一数据集中所有第一样本中目标图像的前景蒙版,基于目标图像和预测得到的前景蒙版构建出训练数据集中,可选的,可以将视觉效果比较好的前景蒙版和对应的目标图像作为训练数据集中的样本。在训练时,还可以通过增加训练次数来提升模型的性能,这样也可以采用更多轮训练得到的模型来更好的预测目标图像的前景蒙版,增加训练数据集中的样本数据量。
本申请的可选实施例中,该图像处理方法还可以包括:
通过图像渲染方式构建合成数据集,上述第二数据集包括该合成数据集。可选的,本申请实施例中的训练数据集也可以包括第二数据集中的样本图像和样本图像的真实前景蒙版。
也就是说,除了通过对目标对象的目标部位进行图像采集得到的上述真实数据之外,还可以通过图像渲染的方式来构建虚拟对象的虚拟目标部位的合成图像及其对应的前景蒙版,以更好的扩充数据集。
虽然通过图像渲染方式得到的目标部位的图像数据和真实的图像数据有视觉上的差异,但是在实际应用中,通过图像采集设备进行采集的方式,获取到的图像的数据量是有局限的,很难获取到目标对象各种环境下、各种形态、各种各样拍摄角度下的图像,而通过图像渲染方式可以不受这些局限,通过图像渲染来构建虚拟对象的目标部位的样本图像及样本图像的真实遮罩图像的仍具有明显的优点。首先,通过图像渲染方式,可以获取到各种不同性别、不同姿势(如目标部位是睫毛,姿势可以是目标对象的头部姿势,也可以眼部姿势等)、处于不同环境(如光照)等条件下的多种多样的虚拟对象的目标部位的图像,且实现方便,获取成本较低。因此,为了增加训练数据的多样性,提升训练得到的神经网络模型的性能,可以通过图像渲染的方式来得到合成数据集,基于该数据集来扩充训练数据集。
其中,通过图像渲染方式构建合成数据集的具体方式,本申请实施例不做限定,如可以采用现有的三维对象制作软件来渲染得到大量的不同视角、不同形态的合成图像,对于合成图像的真实前景蒙版和遮罩图像的获得方式,本申请实施例也不做限定,可以采用现有图像处理技术实现。
本申请的可选实施例中,第二数据集中的第二样本可以是通过以下方式获取得到的:
通过图像渲染方式创建同一虚拟对象的目标部位对应的至少一组图像,每组图像包括至少四张图像,每组图像的各张图像中目标部位的颜色信息均不同,每组图像中的各张图像的渲染参数中除目标部位的颜色信息对应的渲染参数之外的其他渲染参数均相同;
对于每组图像,基于该组图像中的至少四张图像,确定该组图像对应的前景蒙版;
确定每组图像中两张指定图像之间的差分图像;
对于每组图像,构建该组图像对应的至少一个第二样本,其中,第二样本中的样本图像为一组图像中两张指定图像中的任一图像,该样本图像的遮罩图像为两张指定图像之间的差分图像,该样本图像的真实前景蒙版为该组图像对应的前景蒙版。
在实际实施时,可以通过三维对象制作软件创建对应于多个不同的虚拟对象(两个或两个以上)、多种不同姿态的多组图像,每个虚拟对象可以对应一组或至少两组图像,每组图像对应目标部位的一种姿态。可选的,每组图像中可以包含有四种不同颜色(目标部位的颜色)的图像,比如,可以配置每组图像的渲染参数中目标部位的颜色信息的渲染参数分别是黑、红、绿、蓝四个颜色并渲染出来,对于每组图像,可以使用这四张图像通过三角测量法计算出这四张图像中的目标部位的前景蒙版,可以使用四张图像中的两张指定图像计算对应的差分图像,两张指定图像可以是四张图像中的任意两张,可选的,为了使得渲染得到的图像与真实采集的图像尽量接近,四张图像中可以包含两张目标部位的颜色尽可能与实际采集的图像对中的两张图像中目标部位的颜色相同的图像,采用这两张图像计算对应的差分图像,并选择这两张中的任一图像(如目标部位的颜色是黑色的图像)作为样本图像,来得到第二样本,上述计算得到的前景蒙版作为第二样本中该样本图像的真实前景蒙版,上述差分图像作为该样本图像的遮罩图像。
以目标部位是睫毛为例,可选的,在获取合成数据集时,可以通过虚拟人物创建软件(如3D人物模型创建软件)渲染得到姿势多样化和表情多样化的虚拟人物的睫毛图像,在渲染的过程中,可以通过不断改变虚拟人物的图像渲染参数,来获取多样化的图像数据,比如,可以在渲染过程中,不断改变头部姿势的渲染参数,如可以控制虚拟人物的头部偏航角从-120度到120度、俯仰角从-60度到60度不断变化。在通过渲染获取同一虚拟对象的多样化的图像数据的过程中,可以通过渲染参数的配置,使得虚拟对象的面部和眼睛的表情也在光滑地变化。通过这样的配置,数据集可以包含可能出现在普通人像照片中的大多数常见姿势。
此外,在通过前文中所描述的采用隐形荧光剂的方式来获取第一数据集时(即第一数据集中的目标图像的遮罩图像是一张荧光剂显色时的图像和一张荧光剂不显示的图像的差分图像),为了使得渲染得到的样本数据(即第二样本)尽量接近真实采集的图像数据,在通过渲染获取第二样本时,可以模拟荧光采集系统,以渲染得到类似带荧光标记的睫毛图像。其中,荧光采集系统中的光源可以模拟采集真实图像数据时的光源,比如,在通过图像采集设备采集真实对象的图像对时,采用了三个紫外线灯(即颜色显示控制设备),在渲染时,亦可以使用三个较弱的紫色光源模拟紫外线光的可见光噪声(紫外线透射滤光片不能完全去除UVA闪光灯的可见光部分)。具体的,假设上述隐形荧光剂采用的是显色时是蓝色的荧光剂,则可以在渲染带颜色的睫毛图像时,睫毛的颜色信息的渲染参数尽量选用接近于该荧光剂显示时的颜色的渲染参数,并可以通过配置用于模拟紫外线光的渲染参数来增加图像的噪声(因为在实际进行图像采集时,紫外线灯产生的紫外线光源不可能完全滤除掉,在荧光剂显示时拍摄得到的图像中会含有紫外线光源产生的噪声),以使得渲染得到的图像与真实场景中通过图像采集设备采集的图像尽可能接近。
在通过虚拟对象创建软件获取合成数据集时,可以用非常小的扰动来渲染部分头像(即对渲染参数进行微调),以模拟微小的表情和姿势的噪音。本申请的可选实施例中,还可以渲染前景睫毛的背景图像(如没有睫毛的脸部图像,也就是包含睫毛的样本图像中去除了睫毛的图像)。
可选的,该方法还可以包括:
通过图像渲染方式创建每组图像对应的背景图像,即不包含目标部位的图像;
采用一组图像对应的背景图像对另一组图像对应的上述两张指定图像的背景部分进行替换,确定替换后的两张图像之间的差分图像;
将替换后的两张图像中的任一图像、替换后的两张图像之间的差分图像和另一组图像对应的前景蒙版,作为第二样本。
在实际应用中,即使是通过图像渲染的方式也不可能获取到所有不同姿态的图像数据,而采用本申请提供的该方案,可以通过不同组图像间背景部分替换的方式,获取到更多新的图像数据,基于该方案,可以更加快捷的获取到多样化的第二样本,更加丰富了第二数据集中的图像数据。
作为一可选示例,图4中显示了本申请实施例提供的合成数据集中的几个关键图像。图4中每一列对应一个样本数据,从上到下,图4分别展示了模拟的带标记的睫毛图像(即睫毛带颜色的图像,对应于真实数据集中的荧光剂显色时采集的图像)、原始睫毛图像(原色的不带颜色的睫毛图像)、背景图像(不带睫毛的图像)和前景蒙版(训练模型时的蒙版真值即真实前景蒙版)。对于图4中所示的每个样本数据,可以将其中的带标记的睫毛图像或原始睫毛图像作为样本图像,将带标记的睫毛图像和原始睫毛图像之间的差分图像作为该样本图像的遮罩图像,将前景蒙版作为真实前景蒙版,得到第二样本。另外,还可以将采用一个样本数据中的背景图像对其他样本数据中的带标记的睫毛图像和原始睫毛图像中的背景部分进行替换,替换后的两张图像和对应的前景蒙版可以作为新的样本数据,采用该方案,可以得到虚拟对象的姿态更加丰富的数据集。比如,可以将图4中第二列的前两张图像中的背景替换为第一列中的背景图像(即第3张图像),替换背景后的两张图像和第二列的前景蒙版可以作为新的样本数据,得到更多的第二样本。
基于本申请实施例提供的该方法,可以构建任意目标对象的任意部位(即目标部位可以是任何部位)的训练数据集,这些部位包括但不限于生理结构比较复杂的部位,采用该方法得到的训练数据集进行模型训练时,可以使得训练得到的模型能够更加准确地预测出图像中目标部位的前景蒙版,且模型具有很好的鲁棒性。基于本申请实施例提供的方法,很好的解决了现有技术中由于缺乏数据集导致图像处理效果不佳的问题,尤其是在一些部位的几何结构比较复杂时,现有技术无法提取得到这些部位的前景蒙版,从而造成图像中这些部位的细节处理效果不理想的问题。
与本申请提供的方法相对应,本申请实施例还提供了一种图像处理系统,如图5中所示,该图像处理系统100可以包括图像采集设备110、颜色显示控制设备120和图像处理设备130。
图像采集设备110,用于采集多个图像对,每个图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,目标部位在两张图像中的颜色信息不同;
颜色显示控制设备120,用于在通过图像采集设备采集图像对时,控制采集得到的图像对中的两张图像中上述目标部位的颜色信息的不同;
图像处理设备130,用于确定图像采集设备采集的各图像对中两张图像之间的差分图像,基于各图像对和各图像对对应的差分图像,构建第一数据集,基于第一数据集通过执行本申请任一可选实施例中提供的图像处理方法,得到训练数据集。
可选的,上述目标部位上可以涂有隐形荧光剂,颜色显示控制设备120开启时可以产生指定光源,该隐形荧光剂在指定光源的照射下显色。相应的,在进行图像对(每个第一样本对应的两张图像)的采集时,颜色显示控制设备120可以在采集图像对的一张图像时关闭,在采集图像对的另一张图像时开启。
作为一可选方案,颜色显示控制设备可以是紫外光闪光灯,隐形荧光剂是可以在紫外线照射下显色的荧光剂。
可选的,该图像采集系统还可以包括开关控制设备,该开关控制设备可以控制颜色显示控制设备的开启和关闭。
可选的,在实际应用中,上述图像采集设备110在采集图像对时,可以处于连拍模式,即每个图像对是图像采集设备处于连拍模式下拍摄的两张图像。上述开关控制设备可以控制颜色显示控制设备关闭和开启的时间间隔,与图像采集设备在连拍模式下采集两张图像的时间间隔相同,也就是说,可以由开关控制设备控制颜色显示控制设备与图像采集设备的同步,从而可以在很短的时间内拍摄到两张图像。
作为一可选方案,为了提高数据的采集效率,并为了能够采集到多种不同视角下的目标部位的图像对,上述图像采集设备110可以包括多个不同视角的图像采集设备,可以通过对应于多个拍摄视角的图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同,可以将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对。采用该方式,一次拍摄可以得到多个不同视角下的图像对。在实际的图像采集中,目标对象还可以通过做出不同的表情或者是控制目标部位处于不同的形态,使得采集的图像对更加丰富,从而可以构建得到数据更加丰富的训练数据集。
本申请提供的方案至少可以产生具有以下有益效果:
①本申请实施例中提出了一个前景蒙版推理网络,基于该网络可以很好的提取出目标图像中的前景蒙版,为构建训练数据集提供了数据支撑。
②本申请实施例中提出了一个渐进式训练策略,该训练策略通过减少目标部位(如睫毛)的合成数据(即第二数据集)和采集的目标部位的真实数据(即第一数据集)之间的数据集偏移,使前景蒙版推理网络更好的适应真实采集的数据。
③本申请实施例中提出了一种合成数据集的生成方法,基于该方法能生成高质量的虚拟对象对应的合成数据集(如虚拟睫毛抠图数据集),为前景蒙版推理网络的训练提供了基础数据集。
为了更好的说明本申请提供的方法及其所能够产生的有益效果,下面结合本申请的方法的一种可选实施方式对该方法进行详细说明。该实施方式中目标对象以人为例,目标部位以人的睫毛为例,提供了一种基于隐形荧光标记的睫毛抠图数据库的构建方法,通过该方法能够构建得到睫毛抠图数据库(即训练数据集),该方法通过采集带荧光标记的高清的人像眼部图像,并从中获取睫毛的alpha matte(即前景蒙版),基于该方法,能够提取得到透明度信息丰富的睫毛抠图数据,并能有效区分皮肤、眼睛等背景。该方法可以分为数据采集、数据合成和数据处理两大部分,下面分别对这三部分进行说明。
第一部分:数据采集。
该部分用于实现图像对(即各第一样本对应的两张图像)的采集,为数据处理提供源数据。
本实施方式中构建了一套多视角图像采集系统,并搭载有用于使隐形荧光剂显色的紫外线闪光灯(简称为紫外灯)。给定一位被试,可以首先在被试的睫毛上涂上隐形荧光剂,该荧光剂仅在紫外灯照射下显色,自然光照射下无色。利用多视角图像采集系统,设计连拍模式用于快速拍摄两张图像,在拍摄时,分别设置紫外灯为开、关两种状态,通过连拍的模式可以拍摄得到被试带荧光标记与不带荧光标记的眼部图像,每个视角的图像采集设备拍摄到的被试带荧光标记与不带荧光标记的眼部图像即为一个图像对。
具体的,可以在被试的睫毛上涂上了清晰的隐形蓝色荧光剂,该荧光剂仅在UVA紫外光下显色。为了让被试尽量保持不动,可以让被试坐在椅子上,可以用十字激光器指导被试调整头部的位置。多视角图像采集系统的相机可以采用高速连拍模式,在很短的时间内(约200ms)拍摄两张照片,并且UVA紫外闪光灯只会在第一次拍摄时闪光,这样就得到了两张同样位置的睫毛的照片。为了获取到更多的源数据,可以拍摄被试在多种不同表情(脸部表情、眼部表情等)下眼部图像。另外,还可以通过多个被试进行拍摄来获取丰富的源数据。
在实际数据采集时,多视角图像采集系统包括多个图像采集设备(如相机),作为一可选方案,可以通过无线快门控制16台相机的同步拍摄,其中15台用来捕捉数据(即拍摄图像),另一台用来触发紫外线闪光灯(即控制紫外灯的开启或关闭),15台相机可以围绕被试布置,每台相机都能够从不同的视角拍摄眼部图像。由于隐形荧光剂仅在UVA紫外光下显色,因此需要配置UVA紫外光闪光灯,可选的,UVA紫外光闪光灯灯板可以采用由48个0.06w的365纳米紫外光灯珠组成,于距离眼睛0.5米左右的距离进行拍摄。在实际应用中,使用符合国际电工委员会的照明标准的低功率的紫外灯珠以保护眼睛,保证图像采集时对于被试而言是足够安全的。
由于在拍摄时强光会覆盖荧光,所以可以采用较暗的环境光,比如,可以用遮光布营造黑暗的房间环境,用若干个(比如3个)照明灯控制光线。此外,还可以给紫外线闪光灯添加滤镜,以减少可见光的强度,以减少两张照片(即图像对)的颜色差异和眼睛对闪光的刺激反应。
在实际拍摄时,由于两只眼睛不能在焦点平面上导致的聚焦问题,位于侧面的相机很难同时拍摄两只眼睛的清晰图像,因此,在实际拍摄时,为了获取到质量更好的图像,每只眼睛分开拍摄,分别拍摄了左眼和右眼的睫毛数据,即每个图像对是一只眼睛的睫毛的两张图像。
另外,为了更好的保证图像质量,拍摄时对拍摄对象(即被试)头部的位置要求相对很高,并且要求拍摄对象尽可能保持静止。然而,即使如此,被试的无意识运动也会对结果产生很大的影响。为了尽可能避免这些影响,可以通过一些辅助装置来帮助拍摄对象的拍摄位置和头部朝向尽可能不动。比如,可以可调节的椅子来控制被试的上下位置,还可以使用颈椎牵引器或其他辅具来控制方向。还可以在被试的头部后方放置可调节的木板或其他设施,以控制其前后位置。可以利用十字激光架来严格定位被试的眼部位置,使其眼部落在相机的聚焦区域内。
在实际操作中,拍摄对象可以轻微调整身体位置,使右(左)眼的瞳孔与十字激光的中心对齐,并可以通过固定木板和颈椎牵引器以固定拍摄对象的头部。之后可以使用连拍的模式拍摄被试的两张照片来保证两张照片高度同步,在连拍的两次拍摄中,紫外闪光灯分别是开和关的状态,以拍摄到睫毛带荧光标记与不带荧光标记(即原色)的照片。
通过上述数据采集步骤,可以获取到大量的图像对,每个图像对是同一台相机连续拍摄得到的带荧光标记的图像和不带荧光标记的两张照片。
第二部分:数据合成
该部分可以通过图像渲染的方式得到合成数据集,该合成数据集中包括多个第二样本,该数据集可以作为后续训练前景蒙版推理网络的基础数据集。通过渲染的方式,可以得到了大量不同视角、不同表情的人脸图像,并且渲染了每张图像对应的睫毛图像,以及人物瞳孔部分的图像。通过图像渲染方式得到合成数据集的具体实现可以参照前文中的描述。
第三部分:数据处理。
该部分以数据采集部分得到的被试带荧光标记与不带荧光标记的眼部图像为输入,来得到第一数据集。具体的,对于每个图像对,首先可以通过两张照片相减得到睫毛的遮罩图像。
图6示出了本实施方式中提供的一种睫毛图像的处理方法的原理示意图,下面结合图6对该处理方法进行说明。
在数据处理过程中,由于拍摄得到的每个图像对中的两张照片受光照、拍摄对象轻微移动、姿态、微表情变化的影响,两张照片之间会有微小的差距,为了减少该差距,还可以计算两张照片之间的位移矢量来校正,可选的,如图6中所示,可以通过光流估计网络来估计两张照片之间的光流场,利用光流场对两张照片中带荧光标记的睫毛照片进行形变处理,以减小带荧光标记的睫毛照片与不带荧光标记的睫毛照片的差距。其中,对于光流估计网络的网络架构本申请实施例不做限定,如可以采用Flownet2。在完成上述形变调整后,可以利用调整后的带荧光标记的照片与不带荧光标记的照片相减便可得到一个睫毛遮罩(即差分图像)。
至此,可以得到包含多个第一样本的真实数据集即第一数据集,其中,第一数据中的目标图像可以采用上述不带荧光标记的照片。
本申请实施例提供的图像处理方法,可以基于上述第一数据集和合成数据集,采用渐进式训练策略训练神经网络模型,以基于训练好的模型预测得到第一数据集对应的前景蒙版,从而得到训练数据集,该训练数据集可以作为输入为图像、输出为图像的前景蒙版的神经网络模型的学习数据,来训练得到能够用于预测图像的前景蒙版(如睫毛图像中睫毛的蒙版)的神经网络模型,该训练数据集中包括大量真实的睫毛抠图信息,该睫毛抠图信息具体可以包括一张不带荧光标记的图像即上述睫毛照片(目标图像)以及该图像对应的alpha matte,可选的,该训练数据集中还可以包括上述合成数据集中的样本图像和样本图像的真实前景蒙版。
对于上述神经网络模型(图6中所示的神经网络模型,下文中可以称为前景蒙版推理网络)的具体模型结构本申请实施例不做限定,可选的,可以采用基于GCA的抠图模型。下面以基于GCA的抠图模型为例,对采用本申请实施例提供的方案得到的训练数据集,对模型进行迭代训练的过程进行说明。
下面首先对本申请实施例提供的该前景蒙版推理网络的图像处理原理进行说明。
该网络能从睫毛遮罩(即遮罩图像)和原始睫毛图像(目标图像)中计算出高质量的睫毛蒙版(即前景蒙版)。该网络采用基于GCA的抠图模型实现,可选的,可以采用类似U型的网络结构(包含多个残差块(residual block))的编码器-解码器网络,编码器部分可以包含多个卷积层和多个残差块,而解码器部分可以包括多个残差块、至少一个反卷积层和卷积层组成。该网络中还可以包含五个快捷层(shortcut layer)被用来建立跳跃连接,为估计前景蒙版提供较低层次的特征。可选的,该网络中可以包含两个上下文引导的注意力模块即GCA模块,该模块可以从低级别的图像特征图中提取相似性信息来完善前景蒙版特征。
需要说明的是,在实际应用中,上述前景蒙版推理网络中编码器和解码器部分的网络结构可以根据实际需求进行调整,可以不限于上述所描述的网络结构。在前景蒙版推断网络的基础上,可以采用本申请实施例提供的渐进式训练策略,以提高对真实采集的睫毛数据的抠图性能。由于图像处理的目标是得到高精度的睫毛蒙版,所以需要高精度的抠图数据用于训练该网络来估计睫毛的前景蒙版。对于采集到的数据,本文选择视觉上对齐较好的图像对作为渐进式训练的起始数据集。
具体的,在训练过程中,本文先用合成数据集来预热前景蒙版推理网络(即先用合成数据集对网络进行一定程度的初步训练),之后用预热的推理网络(第一模型)估计所有真实采集睫毛(即真实数据集中的所有第一样本)的前景蒙版。然后,可以通过人工选择(在后文中进行了展开描述)仔细检查估计的前景蒙版,并选择出好的抠图结果(视觉效果比较好的前景蒙版),把感知上正确的结果作为伪真值,并把这些前景蒙版和对应的采集数据(即真实数据集中的目标图像和目标图像的遮罩图像)作为新的训练数据,与合成数据集合并得到扩充的中间数据集,以进行下一轮的训练。
为了描述方便,可以把上述合并的数据集表示为第一轮睫毛数据集R1。对于第二轮训练,可以基于数据集R1继续训练推理网络,以更新所有采集数据(即所有第一样本,包括R1中选定的采集数据)的前景蒙版。同样,可以选择感知上正确的结果作为伪真值,并将其添加到R1中以进行下一轮训练,即可以再选择一部分视觉效果比较好的前景蒙版和对应的第一样本与R1合并得到本轮对应的中间数据集,可以表示为R2。
采用本申请实施例提供的上述渐进式训练策略,在经过几轮训练之后就可以使网络迅速适应真实的睫毛数据,经实验,经过两轮上述训练,网络就可以具有很好的预测效果。训练后的网络能够以睫毛遮罩和原始睫毛图像作为输入,产生准确的睫毛蒙版,可以采用训练后的该网络对真实数据集中的所有第一样本进行前景蒙版的预测,将预测得到的前景蒙版可以作为第一样本中原始睫毛图像的真实前景蒙版,得到最终所需的训练数据集。
在训练过程中,可以通过人工来选择质量较好的睫毛蒙版来扩充数据集,这是一个弱的标签过程,可选的,筛选可以遵循如下标准:预测得到的前景蒙版应该覆盖几乎所有的睫毛,同时不覆盖非睫毛区域。在实践过程中,可以邀请多位评分者观察并判断抠图数据即睫毛蒙版是否符合以上标准,根据多位评分者的判断结果筛选预测效果较好的睫毛蒙版和该部分蒙版对应的原始睫毛图像和该图像的遮罩图像来扩充数据集。
在基于合成数据集或扩充的中间数据集对前景蒙版推理网络进行训来时,可以基于损失函数来约束网络的训练,损失函数的值表征了网络预测出的样本图像的前景蒙版与真实前景蒙版之间的差异。作为一可选方案,对于一个样本图像,该图像对应的损失函数可以表示如下:
Figure BDA0003443209910000361
其中,LMAE表示损失函数,|U|可以表示样本图像中所有像素点的数量,i表示样本图像中第i个像素点,
Figure BDA0003443209910000362
和αi分别表示该样本图像的前景蒙版中第i个像素的估计值(即网络预测的前景蒙版中对应像素点的值)和真值(真实前景蒙版中对应像素点的值),LMAE的值表征了该样本图像的真实前景蒙版和预测的前景蒙版中所有对应位置的像素值之间的差异的均值。推理网络的损失函数的值则可以是将数据集(合成数据集或扩充数据后的数据集)中所有样本图像对应的损失函数的值求和。
图7中示出了本申请实施例提供的该网络的编码器部分的工作原理示意图,下面以样本图像和样本图像的遮罩图像的处理方式为例,对该网络的数据处理原理进行说明。
本申请的实施例中,网络的输入是样本图像和样本图像的遮罩图像,其中,样本图像和遮罩图像都可以是RGB图像,将两张图像的6个通道的图像拼接后(图中所示的样本图像+遮罩图像)输入至编码器部分的透明度特征提取分支(图中所示的透明度特征提取),用于提取得到样本图像的透明度特征图(图中所示的透明度特征),可以将样本图像输入至模型的图像特征提取分支(图中所示的图像特征提取),提取得到样本图像的图像特征图Igca(图中所示的图像特征),可以将遮罩图像降采样到与图像特征Igca相同大小的图像。透明度特征图、图像特征图Igca以及降采样后的遮罩图像(或者降采样后的遮罩图像的指定通道的图像,如蓝色通道的图像)作为GCA模块的输入,通过GCA模块生成网络的注意力图(attention map),也就是修正后的图像特征块之间的相关性,或者是将修正后的相关性再进行归一化处理后的相关性。之后,网络可以基于该attention map对透明度特征图进行重建,得到重建后的特征图,可以将重建后的特征图和原透明度特征图逐元素相加,得到修正后的特征图。编码器可以基于修正后的特征图继续进行高层级的透明度特征图的提取,得到编码特征,将编码特征输入至解码器部分进行解码处理,预测得到样本图像的前景蒙版。其中,可选的,在解码器部分同样可以包含GCA模块,用于解码部分的透明度特征图的修正。
为了更好的理解上述特征图的修正处理原理,图8中以一个示意性的图像为例,对上述处理过程进行了说明。如图8中所示,该示例中,将图像特征图示意性的划分为了9个图像特征块,对于每个图像特征块,分别计算该特征块与图像特征图中各特征块之间的相关性S,如图8中所示,以特征块P1为例,可以将该特征块P1整形即reshape作为卷积核,与9个特征块分别进行卷积计算,得到特征块P1对应的9个相关性,如可以记为P1j,j∈{1,2,…,9},P1j表示特征块P1与特征块Pj之间的相关性,对于每个特征块都对应有9个相关性。通过该步骤,对于每个特征块,可以计算得到该特征块与透明度特征图中各区块(即特征块)之间的相关性。
对于每个特征块,可以根据遮罩图像中该特征块对应的图像区域的图像信息确定该特整块对应的透明度影响力,即图8中的权重。仍以P1为例,将遮罩图像降采样成与图像特征图相同大小的图像之后,P1对应的图像区域为P10,可以将降采样的遮罩图像的蓝色通道的图像中P10区域的像素值的均值作为P1所对应的相关性的权重,对特征块P1对应的9个相关性进行加权处理,并对加权后的相关性进行归一化处理,如可以通过softmax函数进行归一化,得到特征块P1对应的9个归一化后的相关性,也就是图中所示的注意力分数a11至a19
例如,可以采用3×3大小窗口对图像特征图进行划分,图像特征块是一个3×3大小的特征块,假设一个图像特征块是以特征图中坐标点为(x,y)的特征点为中心的特征块,该特征块对应的权重wc(x,y)(即透明度影响力)可以表示为:
Figure BDA0003443209910000381
其中,DB表示降采样后的遮罩图像的蓝色通道的图像,DB(i,j)表示将采样后的遮罩图像中坐标点为(i,j)的像素点的像素值,wc(x,y)则是以DB中坐标点为(x,y)的像素点为中心的3×3的图像区域中各像素点的像素值的均值。
需要说明的是,在实际应用中,该公式中的DB也可以采用遮罩图像中其他通道的图像,如红色、绿色通道的图像,或者也可以采用遮罩图像的灰度图像。
基于上述处理,可以得到各个特征块对应的注意力分数,这些注意力分数可以构成注意力图,如图8中所示的注意力图,每个特征块对应一个注意力特征(也就是特征块对应的9个注意力分数)。之后可以基于该注意力图来指导透明度特征图的重建。
具体的,可以采用与图像特征图同样的划分方式,将透明度特征图划分为9个特征块,如图8中所示的特征块A1至A9,可以将划分后的透明度特征图进行reshape处理作为卷积核,将该卷积核分别与各个图像特征块对应的注意力特征进行反卷积操作,得到每个图像特征块对应的重建后的透明度特征块,以图像特征块P1为例,将reshape后的透明度特征块与图像特征块P1对应的注意力特征(即a11至a19)进行反卷积操作,得到A1对应的重建后的透明度特征块B1,通过上述处理方式,可以得到每个透明度特征块对应的重建后的透明度特征块,也就得到了重建后的特征图。可以将透明度特征图和重建后的特征图逐元素相加(也就是两张特征图中每个对应位置的特征点的特征值相加),得到修正后的特征图。之后,网络则可以基于修正后的特征图继续进行后续的处理。
本申请实施例提供的上述睫毛图像的处理方法,通过计算包含更多细节信息的图像特征块之间的相关性来指导透明度特征度的创建,融入了更多的指导信息。而睫毛遮罩图像中包含的前景边界周围的浮动值而不是二进制值,可以提供比三分图更详细的信息,以帮助GCA模块为推理网络生成更有效的注意图(attention map),采用该推理网络可以根据睫毛遮罩的先验估计模糊区域(如瞳孔)的睫毛蒙版,能够预测得到更佳精确的睫毛蒙版。
基于本申请实施例的方法至少具有两点好处:一是可获取睫毛准确的先验信息,基于该方法可以自动地从采集的睫毛图像数据中,获取睫毛的alpha matte信息,而无需手工标注;二是针对弱纹理区域如睫毛与瞳孔相交的部分,该方法也能够从带标记的图片中获取较准确的睫毛alpha matte,这个在无标记的图像中利用现有方法是无法较好的获取的。最终我们的睫毛数据库可以包含采集的睫毛数据以及渲染得到的数据库,可选的,还可以将带标记的数据也放到数据库中,用于增强数据鲁棒性。此外,该方法可以将相似度较高的前背景抠图问题,转化为相似度较低的前背景抠图问题(通过两张目标部位的颜色信息的图像来获取图像信息更加丰富的遮罩图像),具有很好的实用性。
可以理解的是,在实际应用中,本申请实施例的图像采集系统中所使用的相机数量、闪光灯数量、灯光数量、头部固定及定位方式均是可变的,是可以根据实际需求和场景需求进行调整的。在确保安全的情况下,隐形荧光剂也可使用显色性更好的颜料。在获取睫毛的前景蒙版时,所使用的神经网络模型也可替换为其他模型;在构建渲染数据(即合成数据集)时,可通过增加虚拟人物的眼型、表情等变量,睫毛可调整长短、疏密、粗细、形态等多方面变化来提供睫毛的多样性。
基于本申请实施例提供的该方法,能够为图像处理提供准确的先验信息,经实验证明,基于该方法构建得到的训练数据集在各项量化指标上都是优于其他方法的,并且基于该数据集训练出的神经网络模型能够精确的获取图像中目标部位的弱特征区域的特征,比如,对于睫毛图像而言,可以很好的获取到睫毛与眼球交界处的睫毛的alpha matte。
在得到本申请前文实施例中所描述的方法所得到的训练数据集之后,还可以基于该训练数据集对输入为图像、输出为图像的前景蒙版的神经网络模型进行训练,以得到能够很好的预测出图像的前景蒙版的图像处理模型。同样的,对于该神经网络模型的具体模型架构本申请实施例也不做限定,可以根据实际需求选择/配置。在对该模型进行训练时,模型的输入可以是训练数据集中的各个图像(如上述的目标图像、初始数据集中的样本图像等),模型输出是预测得到的输入图像的前景蒙版,可以基于模型预测出的各个图像的前景蒙版和各个图像的真实前景蒙版之间的差异得到训练函数的值(即训练损失),通过不断的调整模型参数、重复训练,直至模型的训练次数达到设定次数或者模型的训练损失满足训练结束条件(如损失函数收敛),得到训练好的神经网络模型,该模型即可以作为图像处理模型,用于任一图像的处理,预测得到图像的前景蒙版。
比如,可以基于上述包含睫毛图像和睫毛图像的遮罩图像的训练数据集,训练出以脸部图像为输入,睫毛的前景蒙版为输出的图像处理模型。
本申请实施例提供的方案,可以应用于包括但限于人物图像处理、游戏场景中虚拟角色(游戏角色)的创建等应用场景中。为了更好的理解和说明本申请实施例所提供的方案的实用价值,下面仍以睫毛的处理为例,结合一个具体应用场景对该方案的实用性进行说明。
本应用场景中,以游戏角色的创建为例。在实际应用中,为了更好的满足用户需求,游戏应用可以向游戏用户提供游戏角色创建的功能,通过该功能游戏用户可以创建与自己(或者用户指定的人物)相似度很好的游戏角色,以提升用户的游戏感知。基于本申请实施例提供的方案,可以更加准确的创建出这种游戏角色。
可选的,可以在游戏应用的用户界面为用户提供游戏角色编辑控件,游戏用户可以通过触发该控件来创建或者编辑自己的游戏角色。为了创建出与自己相似的游戏角色,用户在点击该控件后,可以在用户界面中选择创建游戏角色的功能,之后用户可以通过拍摄自己的图像或者将用户终端上存储的图像上传到游戏服务器,以脸部图像为例,服务器接收到该图像之后,可以基于该图像获取到用户的脸部参数,从而可以基于用户的脸部参数为用户创建对应的游戏角色。以脸部的睫毛为例,可以将用户的脸部图像输入至前文中所描述的图像处理模型中,通过该模型可以提取得到脸部图像中用户的睫毛的前景蒙版,可以基于睫毛蒙版从该脸部图像中准确提取出用户的睫毛形状,从而可以基于该睫毛形状为用户创建出睫毛相似度很高的游戏角色。可选的,还可以对提取出的睫毛进行编辑,如可以根据用户的需求对睫毛的颜色进行修改,更好的满足了用户需求。
为了测试基于本申请实施例提供的方法所获取到的训练数据集的合理性,我们对通过对几种不同的训练数据集进行了测试。在测试时,我们构建了一个baseline测试数据集,用于测试其他的方法及本申请实施例的方法在睫毛提取上的性能。baseline数据集的一部分数据由通过渲染得到的数据构成,另一部分数据由真实采集的睫毛数据(即睫毛图像和睫毛图像的差分图像)构成。我们在该baseline数据集上测试了本申请实施例提供的方法在定性上、定量上的性能。
在测试评估中,我们采用了四个常用的定量评估指标上进行了评估,这四个评估指标分别是绝对值之和(SAD)、均方差(MSE)、梯度(Grad)以及连接性误差(Conn)。一个好的算法或者数据库应能够获取高质量的alpha matte,相应的,以上四个指标的值也会相应降低。
渐进式训练策略旨在逐步使前景蒙版推理网络适应真实的采集数据。本申请实施例提供的渐进式模型训练方式,先在合成的睫毛抠图数据集(即初始的第二数据集)上训练一个初始网络(第一模型),然后可以进行设定轮数(比如两轮,也就是两次)的渐进式训练,产生了两个中间网络(每次训练操作得到的第二模型)和数据集(中间数据集)。为了描述方便,可以将把包括合成的睫毛数据集、第一轮训练得到的中间数据集和第二轮得到的中间数据集在内的三个不同的训练数据集表示为R0、R1、R2。表1显示了这三个训练数据集对应的定量测试结果。从表1中可以看出,与在合成的睫毛抠图数据集(R0)上训练的初始网络相比,在两轮(R1和R2)渐进式训练中,测试数据集上的均方误差(MSE)、绝对误差之和(SAD)、梯度误差(Grad)和连接误差(Conn)指标的值逐渐减少。
表1
Figure BDA0003443209910000421
图9显示了这三个训练数据集对应的定性测试结果,图9中的第1列的眼部图像为测试图像,也就是模型的输入(包括图像和图像的遮罩蒙版)中的图像,第2列至第4列中的睫毛部分的前景蒙版分别是采用基于R0、R1和R2训练得到的模型所预测出的对应的输入图像的前景蒙版,图9也验证了本申请实施例所提供的渐进式训练策略的有效性,采用该训练策略训练得到的网络模型可以有效地检测出瞳孔等区域的睫毛。
基于此,本申请实施例还提供了一种图像处理方法,如图10所示,该方法可以包括:
步骤S610:获取待处理图像;
步骤S620:基于待处理图像,调用训练好的图像处理模型,得到待处理图像的前景蒙版,其中,该图像处理模型可以是通过以下方式训练得到的:
其中,该图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,所述训练数据集是基于本申请前文任一可选实施例中提供的图像处理方法构建得到的,该训练数据集中包括多张图像(如目标图像、样本图像)和各图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于上述训练数据集对神经网络模型进行训练,得到图像处理模型,其中,该神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
由前文中的可知,该方案中的训练数据集中的多张图像可以包括前文中描述的目标图像(如不带荧光标记的图像),还可以包括初始数据集中的样本图像(如通过图像渲染方式合成的图像),目标图像的前景蒙版即前文中描述的第一样本对应的前景蒙版,如采用前文中的渐进式的训练方法中最后一次训练操作得到第二模型预测得到的第一样本的前景蒙版,该蒙版即可作为第一样本中的目标图像的真实前景蒙版。基于上述多张图像和各图像的前景蒙版,可以对神经网络模型不断进行迭代训练,得到用于预测待处理图像的前景蒙版的上述图像处理模型。
其中,上述待处理图像可以是包含上述目标部位(如睫毛)的图像,也可以是包含任意对象的图像,该任意对象为待处理图像中的前景,通过上述神经网络模型可以预测得到待处理图像中该任意对象所对应的前景蒙版。基于该方法,可以预测得到效果很好的待处理图像的前景蒙版,后续则可以基于该前景蒙版对待处理图像进行处理。
可以理解的是,本申请实施例提供的图像处理方法,可以适用于任何需要基于前景蒙版进行处理的应用场景中,可以包括但不限于社交、动画、游戏等场景中,对于不同的应用需求,上述处理方式可能不同,如可以包括但不限于修图(如睫毛编辑)、建模等。
基于与本申请提供的图像处理方法相同的原理,本申请实施例还提供了一种图像处理装置,如图11所示,该图像处理装置200可以包括初始数据集获取模块210、前景蒙版预测模块220和训练数据集构建模块230。
初始数据集获取模块210,用于获取包括多个第一样本的第一数据集,每个第一样本包括目标图像和该目标图像的遮罩图像,遮罩图像是包含同一目标对象的同一目标部位的两张图像之间的差分图像,目标部位在两张图像中的颜色信息不同,目标图像为两张图像中的任一图像;
前景蒙版预测模块220,用于对于每个第一样本,通过调用训练好的神经网络模型对该第一样本执行以下操作,得到该第一样本中的目标图像的前景蒙版:
基于该第一样本中的目标图像和目标图像的遮罩图像,提取该第一样本中的目标图像的透明度特征图,基于该第一样本中的目标图像,提取该目标图像的图像特征图;将图像特征图划分为多个图像特征块,对于每个图像特征块,分别确定该图像特征块与多个图像特征块中各个图像特征块之间的相关性;基于多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,基于修正后的特征图得到该目标图像的前景蒙版,其中,目标特征图为透明度特征图,或者是对透明度特征图进行特征提取得到的特征图中的至少一个;
训练数据集构建模块230,用于基于各第一样本的目标图像和该目标图像的前景蒙版,构建训练数据集。
可选的,前景蒙版预测模块可以用于:
对于每个图像特征块,确定该目标图像的遮罩图像中位置与该图像特征块块在图像特征图中的位置相对应的图像区域;
对于每个图像特征块,基于该图像特征块对应的图像区域的图像信息,确定该图像特征块对于上述多个图像特征块中各特征块的透明度影响力;
对于每个图像特征块,基于该图像特征块对应的透明度影响力,对该图像特征块与多个图像特征块中各图像特征块之间的相关性进行修正,得到修正后的相关性;
基于上述多个图像特征块中各图像特征块对应的修正后的相关性,对目标特征图进行修正。
可选的,对于每个图像特征块,前景蒙版预测模块在确定该图像特征块对于上述多个图像特征块中各图像特征块的透明度影响力时,可以用于:
对该目标图像的遮罩图像进行降采样,得到与图像特征图相同大小的图像;确定降采样后的遮罩图像中位置与该图像特征块在图像特征图中的位置相对应的图像区域;确定降采样后的遮罩图像中该图像特征块对应的图像区域的像素均值,将该像素均值确定为该图像特征块对于多个图像特征块中各图像特征块的透明度影响力。
可选的,前景蒙版预测模块在基于上述多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正时,可以用于:
基于上述多个图像特征块中各图像特征块对应的相关性和目标特征图,对各图像特征块对应的透明度特征块进行重建,得到重建后的特征图;
将目标特征图和重建后的特征图进行融合,得到修正后的特征图。
可选的,前景蒙版预测模块在基于上述多个图像特征块中各图像特征块对应的相关性和目标特征图,对各图像特征块对应的透明度特征块进行重建时,可以用于:
采用与图像特征图相同的划分方式,将目标特征图划分为多个透明度特征块;
将多个透明度特征块塑形作为卷积核,对于每个图像特征块,采用该卷积核与该图像特征块对应的相关性进行反卷积操作,得到该图像特征块对应的重建后的透明度特征块。
可选的,上述练好的神经网络模型是由模型训练模块通过以下方式训练得到的:
获取包括多个第二样本的第二数据集,每个第二样本包括上述目标部位的样本图像、该样本图像的遮罩图像和该样本图像的真实前景蒙版;
对初始神经网络模型执行至少一次以下操作,将最后一次操作得到的第二模型作为上述训练好的神经网络模型:
基于第二数据集对初始神经网络模型进行训练,得到第一模型,其中,初始神经网络模型的输入包括一个样本图像和该样本图像的遮罩图像,输出为预测得到的该样本图像的前景蒙版;通过第一模型预测各第一样本中目标图像的前景蒙版;将各第一样本中目标图像的前景蒙版作为真实前景蒙版,采用多个第一样本中的至少部分样本和该部分样本对应的前景蒙版,对第二数据集进行扩充,得到中间数据集;基于中间数据集对第一模型进行训练,得到第二模型,将第二模型作为下一次操作时的初始神经网络模型,将中间数据集作为下一次操作时的第二数据集。
可选的,第二数据集中包括通过图像渲染方式构建的合成数据集;训练数据集包括第二数据集中的样本图像和样本图像的真实前景蒙版。
可选的,初始数据集获取模块还用于通过以下方式获取第二数据集中的第二样本:
通过图像渲染方式创建同一虚拟对象的上述目标部位对应的至少一组图像,每组图像包括至少四张图像,每组图像的多张图像中目标部位的颜色信息均不同,每组图像中的多张图像的渲染参数中除目标部位的颜色信息对应的渲染参数之外的其他渲染参数均相同;对于每组图像,基于该组图像中的多张图像,确定该组图像对应的前景蒙版;确定每组图像中两张指定图像之间的差分图像;对于每组图像,构建该组图像对应的至少一个第二样本,其中,第二样本中的样本图像为一组图像中两张指定图像中的任一图像,该样本图像的遮罩图像为所述两张指定图像之间的差分图像,该样本图像的真实前景蒙版为该组图像对应的前景蒙版。
可选的,初始数据集获取模块还用于:通过图像渲染方式创建每组图像对应的背景图像;采用一组图像对应的背景图像对另一组图像对应的上述两张指定图像的背景部分进行替换,确定替换后的两张图像之间的差分图像;将替换后的两张图像中的任一图像、替换后的两张图像之间的差分图像和上述另一组图像对应的前景蒙版,作为第二样本。
可选的,上述目标部位为目标对象的睫毛。
可选的,上述目标部位在上述两张图像中的颜色信息的不同,是在采集量两张图像时通过颜色显示控制设备的控制实现的。
可选的,在采集上述两张图像时,上述目标部位上涂有隐形荧光剂,颜色显示控制设备开启时产生指定光源,该隐形荧光剂在指定光源的照射下显色。
可选的,上述第一数据集是通过以下方式得到的:
在同一场景下,通过多视角图像采集设备采集目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;
将同一视角下的目标对象的一张第一图像和一张第二图像作为一个图像对,计算各图像对中两张图像之间的差分图像;
基于各图像对和各图像对对应的差分图像,构建所述第一数据集,目标图像为图像对中的第一图像或第二图像。
基于与图10中所示的方法相同的原理,本申请实施例还提供了一种图像处理装置,该装置可以包括待处理数据获取模块和图像处理模块。
待处理数据获取模块,用于获取待处理图像;
图像处理模块,用于基于待处理图像,调用训练好的图像处理模型,得到待处理图像的前景蒙版;其中,该图像处理模型可以是通过以下方式训练得到的:
获取训练数据集,其中,训练数据集是基于本申请任一可选实施例提供的图像处理方法构建得到的,训练数据集中包括多张图像和各图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于训练数据集对神经网络模型进行训练,得到图像处理模型,其中,该神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
本申请实施例的图像处理装置可执行本申请实施例所提供的方法,其实现原理相同,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。其中,各模块功能的实现可以采用软件、硬件或者两种结合的方式实现。
基于与本申请实施例提供的图像处理方法及装置相同的原理,本申请实施例中还提供了一种电子设备(如服务器),该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。
可选的,图12示出了本申请实施例所适用的一种电子设备的结构示意图,如图12所示,该电子设备4000可以包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (17)

1.一种图像处理方法,其特征在于,包括:
获取包括多个第一样本的第一数据集,每个所述第一样本包括目标图像和该目标图像的遮罩图像,所述遮罩图像是于同一场景下采集的同一目标对象的同一目标部位的两张图像之间的差分图像,所述目标部位在两张图像中的颜色信息不同,所述目标图像为所述两张图像中的任一图像;
对于每个所述第一样本,通过调用训练好的神经网络模型对该第一样本执行以下操作,得到该第一样本中的目标图像的前景蒙版:
基于该第一样本中的目标图像和目标图像的遮罩图像,提取该第一样本中的目标图像的透明度特征图,基于该第一样本中的目标图像,提取该目标图像的图像特征图;
将所述图像特征图划分为多个图像特征块,对于每个所述图像特征块,确定该图像特征块与所述多个图像特征块中各图像特征块之间的相关性;
基于所述多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,基于修正后的特征图得到该目标图像的前景蒙版,其中,所述目标特征图为所述透明度特征图,或者是对所述透明度特征图进行特征提取得到的特征图中的至少一个;
基于各所述第一样本中的目标图像和该目标图像的前景蒙版,构建训练数据集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于每个所述图像特征块,确定该目标图像的遮罩图像中位置与该图像特征块在所述图像特征图中的位置相对应的图像区域;
对于每个所述图像特征块,基于该图像特征块对应的图像区域的图像信息,确定该图像特征块对于所述多个图像特征块中各图像特征块的透明度影响力;
所述基于所述多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,包括:
对于每个所述图像特征块,基于该图像特征块对应的透明度影响力,对该图像特征块与所述多个图像特征块中各图像特征块之间的相关性进行修正,得到修正后的相关性;
基于所述多个图像特征块中各图像特征块对应的修正后的相关性,对目标特征图进行修正。
3.根据权利要求2所述的方法,其特征在于,对于每个所述图像特征块,所述确定该目标图像的遮罩图像中位置与该图像特征块在所述图像特征图中的位置相对应的图像区域,包括:
对该目标图像的遮罩图像进行降采样,得到与所述图像特征图相同大小的图像;
确定降采样后的遮罩图像中位置与该图像特征块在所述图像特征图中的位置相对应的图像区域;
所述基于该图像特征块对应的图像区域的图像信息,确定该图像特征块对于所述多个图像特征块中各图像特征块的透明度影响力,包括:
确定所述降采样后的遮罩图像中该图像特征块对应的图像区域的像素均值,将该像素均值确定为该图像特征块对于所述多个图像特征块中各图像特征块的透明度影响力。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,包括:
基于所述多个图像特征块中各图像特征块对应的相关性和所述目标特征图,对各所述图像特征块对应的透明度特征块进行重建,得到重建后的特征图;
将所述目标特征图和所述重建后的特征图进行融合,得到修正后的特征图。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述训练好的神经网络模型是通过以下方式训练得到的:
获取包括多个第二样本的第二数据集,每个所述第二样本包括所述目标部位的样本图像、该样本图像的遮罩图像和该样本图像的真实前景蒙版;
对初始神经网络模型执行至少一次以下操作,将最后一次操作得到的第二模型作为所述训练好的神经网络模型:
基于所述第二数据集对初始神经网络模型进行训练,得到第一模型,其中,所述初始神经网络模型的输入包括一个样本图像和该样本图像的遮罩图像,输出为预测得到的该样本图像的前景蒙版;
通过所述第一模型预测各所述第一样本中的目标图像的前景蒙版;
将各所述第一样本中的目标图像的前景蒙版作为真实前景蒙版,采用所述多个第一样本中的至少部分样本和该部分样本对应的前景蒙版,对所述第二数据集进行扩充,得到中间数据集;
基于所述中间数据集对所述第一模型进行训练,得到第二模型,将所述第二模型作为下一次操作时的初始神经网络模型,将所述中间数据集作为下一次操作时的第二数据集。
6.根据权利要求5所述的方法,其特征在于,所述训练数据集包括所述第二数据集中的样本图像和样本图像的真实前景蒙版,所述第二数据集中的第二样本是通过以下方式获取到的:
通过图像渲染方式创建同一虚拟对象的所述目标部位对应的至少一组图像,每组图像包括至少四张图像,每组图像的各图像中目标部位的颜色信息均不同,每组图像中的各图像的渲染参数中除所述目标部位的颜色信息对应的渲染参数之外的其他渲染参数均相同;
对于每组图像,基于该组图像中的至少四张图像,确定该组图像对应的前景蒙版;
确定每组图像中两张指定图像之间的差分图像;
对于每组图像,构建该组图像对应的至少一个第二样本,其中,所述第二样本中的样本图像为一组图像中所述两张指定图像中的任一图像,该样本图像的遮罩图像为所述两张指定图像之间的差分图像,该样本图像的真实前景蒙版为该组图像对应的前景蒙版。
7.根据权利要求6所述的方法,其特征在于,还包括:
通过图像渲染方式创建每组图像对应的背景图像;
采用一组图像对应的背景图像对另一组图像对应的所述两张指定图像的背景部分进行替换,确定替换后的两张图像之间的差分图像;
将替换后的两张图像中的任一图像、替换后的两张图像之间的差分图像和所述另一组图像对应的前景蒙版,作为一个第二样本。
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标部位为所述目标对象的睫毛。
9.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标部位在所述两张图像中的颜色信息的不同,是在采集所述两张图像时通过颜色显示控制设备的控制实现的;在采集所述两张图像时,所述目标部位上涂有隐形荧光剂,所述颜色显示控制设备开启时产生指定光源,所述隐形荧光剂在所述指定光源的照射下显色。
10.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一数据集是通过以下方式得到的:
在同一场景下,通过多视角图像采集设备采集所述目标对象的同一目标部位的多张第一图像和多张第二图像,任一第一图像和任一第二图像中目标部位的颜色信息不同;
将同一视角下的所述目标对象的一张第一图像和一张第二图像作为一个图像对,计算各所述图像对中两张图像之间的差分图像;
基于各所述图像对和各所述图像对对应的差分图像,构建所述第一数据集,所述目标图像为所述图像对中的第一图像或第二图像。
11.一种图像处理方法,其特征在于,所述方法包括:
获取待处理图像;
基于所述待处理图像,调用训练好的图像处理模型,得到所述待处理图像的前景蒙版;
其中,所述图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,所述训练数据集是基于权利要求1至10中任一项所述的方法构建得到的,所述训练数据集中包括多张图像和各图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于所述训练数据集对神经网络模型进行训练,得到图像处理模型,其中,所述神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
12.一种图像处理系统,其特征在于,包括图像采集设备、颜色显示控制设备和图像处理设备;
所述图像采集设备,用于采集多个图像对,每个所述图像对包括于同一场景下采集的、对应于同一目标对象的同一目标部位的两张图像,其中,所述目标部位在两张图像中的颜色信息不同;
所述颜色显示控制设备,用于在通过所述图像采集设备采集所述图像对时,控制采集得到的所述图像对中的两张图像中上述目标部位的颜色信息的不同;
所述图像处理设备,用于确定所述图像采集设备采集的各图像对中两张图像之间的差分图像,基于各所述图像对和各所述图像对对应的差分图像,构建第一数据集,基于所述第一数据集通过执行权利要求1至10中任一项所述的方法,得到训练数据集。
13.一种图像处理装置,其特征在于,包括:
初始数据集获取模块,用于获取包括多个第一样本的第一数据集,每个所述第一样本包括目标图像和该目标图像的遮罩图像,所述遮罩图像是包含同一目标对象的同一目标部位的两张图像之间的差分图像,所述目标部位在两张图像中的颜色信息不同,所述目标图像为所述两张图像中的任一图像;
前景蒙版预测模块,用于对于每个所述第一样本,通过调用训练好的神经网络模型对该第一样本执行以下操作,得到该第一样本中的目标图像的前景蒙版:
基于该第一样本中的目标图像和目标图像的遮罩图像,提取该第一样本中的目标图像的透明度特征图,基于该第一样本中的目标图像,提取该目标图像的图像特征图;将所述图像特征图划分为多个图像特征块,对于每个所述图像特征块,确定该图像特征块与所述多个图像特征块各图像特征块之间的相关性;基于所述多个图像特征块中各图像特征块对应的相关性,对目标特征图进行修正,基于修正后的特征图得到该目标图像的前景蒙版,其中,所述目标特征图为所述透明度特征图,或者是对所述透明度特征图进行特征提取得到的特征图中的至少一个;
训练数据集构建模块,用于基于各所述第一样本的目标图像和该目标图像的前景蒙版,构建训练数据集。
14.一种图像处理装置,其特征在于,所述装置包括:
待处理数据获取模块,用于获取待处理图像;
图像处理模块,用于基于所述待处理图像,调用训练好的图像处理模型,得到所述待处理图像的前景蒙版;其中,所述图像处理模型是通过以下方式训练得到的:
获取训练数据集,其中,所述训练数据集是基于权利要求1至10中任一项所述的方法构建得到的,所述训练数据集中包括多张图像和各图像对应的前景蒙版;
将每张图像的前景蒙版作为该张图像的真实前景蒙版,基于所述训练数据集对神经网络模型进行训练,得到图像处理模型,其中,所述神经网络模型的输入为各张图像,输出为预测得到的各张图像的前景蒙版。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至10中任一项所述的方法,或者实现权利要求11中所述的方法。
16.一种计算机可读存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法,或者实现权利要求11中所述的方法。
17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法,或者实现权利要求11中所述的方法。
CN202111640189.7A 2021-11-04 2021-12-29 图像处理方法、装置、电子设备、存储介质及计算机产品 Pending CN114219976A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111302167X 2021-11-04
CN202111302167 2021-11-04

Publications (1)

Publication Number Publication Date
CN114219976A true CN114219976A (zh) 2022-03-22

Family

ID=80706780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111640189.7A Pending CN114219976A (zh) 2021-11-04 2021-12-29 图像处理方法、装置、电子设备、存储介质及计算机产品

Country Status (1)

Country Link
CN (1) CN114219976A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782911A (zh) * 2022-06-20 2022-07-22 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN115294224A (zh) * 2022-09-30 2022-11-04 南通市通州区华凯机械有限公司 用于驾驶模拟器的图像数据快速载入方法
CN115331264A (zh) * 2022-10-13 2022-11-11 山东济矿鲁能煤电股份有限公司阳城煤矿 一种基于神经网络的矿山工人安全识别管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961279A (zh) * 2018-06-28 2018-12-07 Oppo(重庆)智能科技有限公司 图像处理方法、装置及移动终端
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法
CN110969602A (zh) * 2019-11-26 2020-04-07 北京奇艺世纪科技有限公司 一种图像清晰程度检测方法及装置
CN111368788A (zh) * 2020-03-17 2020-07-03 北京迈格威科技有限公司 图像识别模型的训练方法、装置及电子设备
WO2020224406A1 (zh) * 2019-05-08 2020-11-12 腾讯科技(深圳)有限公司 图像分类方法、计算机可读存储介质和计算机设备
CN112700444A (zh) * 2021-02-19 2021-04-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961279A (zh) * 2018-06-28 2018-12-07 Oppo(重庆)智能科技有限公司 图像处理方法、装置及移动终端
CN109685067A (zh) * 2018-12-26 2019-04-26 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法
WO2020224406A1 (zh) * 2019-05-08 2020-11-12 腾讯科技(深圳)有限公司 图像分类方法、计算机可读存储介质和计算机设备
CN110969602A (zh) * 2019-11-26 2020-04-07 北京奇艺世纪科技有限公司 一种图像清晰程度检测方法及装置
CN111368788A (zh) * 2020-03-17 2020-07-03 北京迈格威科技有限公司 图像识别模型的训练方法、装置及电子设备
CN112700444A (zh) * 2021-02-19 2021-04-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙巍 等: "基于视觉显著性信息的自然图像抠图算法", 《北京交通大学学报》, vol. 39, no. 02, 15 April 2015 (2015-04-15), pages 22 - 27 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782911A (zh) * 2022-06-20 2022-07-22 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN115294224A (zh) * 2022-09-30 2022-11-04 南通市通州区华凯机械有限公司 用于驾驶模拟器的图像数据快速载入方法
CN115294224B (zh) * 2022-09-30 2022-12-16 南通市通州区华凯机械有限公司 用于驾驶模拟器的图像数据快速载入方法
CN115331264A (zh) * 2022-10-13 2022-11-11 山东济矿鲁能煤电股份有限公司阳城煤矿 一种基于神经网络的矿山工人安全识别管理方法

Similar Documents

Publication Publication Date Title
Tewari et al. Fml: Face model learning from videos
CN109255831B (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
Pandey et al. Total relighting: learning to relight portraits for background replacement.
Philip et al. Multi-view relighting using a geometry-aware network.
Zhou et al. Dance dance generation: Motion transfer for internet videos
CN114219976A (zh) 图像处理方法、装置、电子设备、存储介质及计算机产品
CN110807364B (zh) 三维人脸与眼球运动的建模与捕获方法及系统
CN113301259A (zh) 用来捕获与目标图像模型对准的数字图像的智能指导
Fyffe et al. Multi‐view stereo on consistent face topology
Garrido et al. Corrective 3D reconstruction of lips from monocular video.
CN108876886B (zh) 图像处理方法、装置和计算机设备
JP2023545200A (ja) パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体
CN110246209B (zh) 图像处理方法及装置
CN114120068A (zh) 图像处理方法、装置、电子设备、存储介质及计算机产品
Li et al. Uphdr-gan: Generative adversarial network for high dynamic range imaging with unpaired data
Li et al. Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation
CN117095128A (zh) 一种无先验多视角人体服饰编辑方法
Khan et al. An efficient encoder–decoder model for portrait depth estimation from single images trained on pixel-accurate synthetic data
CN113808005A (zh) 一种基于视频驱动的人脸姿态迁移方法及装置
Xiao et al. Image hazing algorithm based on generative adversarial networks
Hua et al. Background extraction using random walk image fusion
Sial et al. Deep intrinsic decomposition trained on surreal scenes yet with realistic light effects
CN113870404A (zh) 一种3d模型的皮肤渲染方法及设备
Sarkar et al. LitNeRF: Intrinsic Radiance Decomposition for High-Quality View Synthesis and Relighting of Faces
US20210350547A1 (en) Learning apparatus, foreground region estimation apparatus, learning method, foreground region estimation method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination