CN117011416A - 一种图像处理方法、装置、设备、介质及程序产品 - Google Patents
一种图像处理方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN117011416A CN117011416A CN202211513005.5A CN202211513005A CN117011416A CN 117011416 A CN117011416 A CN 117011416A CN 202211513005 A CN202211513005 A CN 202211513005A CN 117011416 A CN117011416 A CN 117011416A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- target
- transparent bottom
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 411
- 238000012545 processing Methods 0.000 claims abstract description 238
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims description 340
- 230000008569 process Effects 0.000 claims description 44
- 230000007246 mechanism Effects 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 16
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000001965 increasing effect Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 description 46
- 238000005516 engineering process Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 16
- 238000003709 image segmentation Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 239000000284 extract Substances 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置、设备、介质和程序产品,其中的方法包括:对待处理的目标图像进行特征提取处理,得到目标图像的特征信息;基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像;根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像,透明底图像是指包含关注对象且图像背景的透明程度为预设值的图像。采用本申请实施例能够实现关注对象的透明度提取,提高透明底背景提取的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种人工智能领域,具体涉及一种图像处理方法、一种图像处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
背景技术
随着图像处理技术的快速发展,用户往往具有从图像中提取对象(如图像中的元素)的需求;例如,在用于具有图像叠加(如多张图像重叠得到新的图像)的需求时,可以从一张图像中提取关注对象,并将关注对象添加至另一张背景图像构成新的图像。
目前,支持采用图像分割技术从图像中分割出关注对象,即将关注对象所处区域从图像中整体分割出来,这种简单的图像分割并未考虑到关注对象的透明属性。如图1所示的关注对象为“水瓶和水花”,该关注对象本身是具有透明属性的,但图像分割出的包含关注对象的非透明底图像的背景仍然是原图像的背景,而不是透明底背景。这使得该非透明底图像与新的背景图像叠加后,新的背景图像的部分信息会被遮挡,导致非透明底图像无法与新的背景图像进行有效结合。因此,如何实现关注对象的透明度的有效提取,成为图像领域的研究热点。
发明内容
本申请实施例提供一种图像处理方法、装置、设备、介质及程序产品,能够实现关注对象的透明度提取,提高透明底背景提取的准确性。
一方面,本申请实施例提供了一种图像处理方法,该方法包括:
对待处理的目标图像进行特征提取处理,得到目标图像的特征信息;目标图像中包含关注对象,关注对象是指目标图像中具备透明属性的元素;目标图像的特征信息中包含关注对象中各像素点的透明度信息;
基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像,目标蒙版图像中标示有关注对象在目标图像中的位置信息;
根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像,透明底图像是指包含关注对象且图像背景的透明程度为预设值的图像。
另一方面,本申请实施例提供了一种图像处理装置,该装置包括:
处理单元,用于对待处理的目标图像进行特征提取处理,得到目标图像的特征信息;目标图像中包含关注对象,关注对象是指目标图像中具备透明属性的元素;目标图像的特征信息中包含关注对象中各像素点的透明度信息;
处理单元,还用于基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像,目标蒙版图像中标示有关注对象在目标图像中的位置信息;
处理单元,还用于根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像,透明底图像是指包含关注对象且图像背景的透明程度为预设值的图像。
在一种实现方式中,处理单元,用于对待处理的目标图像进行特征提取处理,得到目标图像的特征信息时,具体用于:
对待处理的目标图像进行浅层特征提取,得到目标图像的特征信息;
基于局部特征信息对目标图像进行深层特征提取,得到目标图像的全局特征信息;
局部特征信息和全局特征信息组成目标图像的特征信息。
在一种实现方式中,处理单元,用于对待处理的目标图像进行浅层特征提取,得到目标图像的特征信息时,具体用于:
对待处理的目标图像进行多种特征学习尺度的浅层特征提取,得到不同特征学习尺度的标图像的图像特征信息;
将不同特征学习尺度的目标图像的图像特征信息进行融合,以得到目标图像的特征信息。
在一种实现方式中,处理单元,用于基于局部特征信息对目标图像进行深层特征提取,得到目标图像的全局特征信息时,具体用于:
基于注意力机制确定目标图像中的目标检测区域,目标检测区域包含关注对象;
根据局部特征信息对目标图像中的目标检测区域进行深层特征提取,得到目标图像的全局特征信息。
在一种实现方式中,处理单元,用于基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像时,具体用于:
基于特征信息对目标图像进行第一阶对象识别处理,得到初始蒙版图像;
对初始蒙版图像进行第二阶对象识别处理,得到目标蒙版图像;
其中,目标蒙版图像中标示的关注对象的边界清晰度,大于初始蒙版图像中标示的关注对象的边界清晰度。
在一种实现方式中,图像处理方法通过调用训练好的透明底提取模型来执行,透明底提取模型的训练过程包括:
获取训练图像集合,训练图像集合中包含多个样本图像以及每个样本图像对应的训练背景图像、训练前景图像和训练透明底图像;
选择训练图像集合中的第i个样本图像,i为正整数;并调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个样本图像对应的预测背景图像、预测前景图像和预测透明底图像;
基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息;并按照损失信息的减小方向,对透明底提取模型进行训练,得到训练后的透明底提取模型;
重新从训练图像集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的透明底提取模型进行迭代训练,直至透明底提取模型趋于稳定为止。
在一种实现方式中,处理单元,用于获取训练图像集合时,具体用于:
获取初始样本图像和初始样本图像对应的训练背景图像;
对初始样本图像中的关注对象进行对象标注处理,得到初始样本图像对应的训练透明底图像;
对初始样本图像,初始样本图像对应的训练透明底图像,以及初始样本图像对应的训练背景图像进行合成,得到第一样本图像;
将第一样本图像,以及第一样本图像对应的训练背景图像、训练透明底图像和训练前景图像,添加至训练图像集合中;
其中,第一样本图像对应的训练前景图像为初始样本图像。
在一种实现方式中,处理单元,还用于:
对第一样本图像进行目标数据增强处理,得到第二样本图像;
以及,对第一样本图像对应的训练背景图像进行目标数据增强处理,得到第二样本图像对应的训练背景图像;对第一样本图像对应的训练前景图像进行目标数据增强处理,得到第二样本图像对应的训练前景图像;以及,对第一样本图像对应的训练透明底图像进行目标数据增强处理,得到第二样本图像对应的训练透明底图像;
将第二样本图像,以及,第二样本图像对应的训练背景图像、训练前景图像和训练透明底图像,添加至训练图像集合中;
其中,目标数据增强处理包括以下至少一种:随机旋转、增加噪声及图像翻转。
在一种实现方式中,透明底提取模型中包括第一特征提取模块、第二特征提取模块和对象识别模块,处理单元,用于调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个图像对应的预测背景图像、预测前景图像和预测透明底图像时,具体用于:
调用第一特征提取模块对第i个样本图像进行浅层特征提取,以及调用第二特征提取模块基于浅层特征提取所得到的局部特征信息,对第i个样本图像进行深层特征提取,得到第i个样本图像的特征信息;
调用对象识别模块基于特征信息对第i个样本图像进行第一阶对象识别处理,得到预测初始蒙版图像,并对预测初始蒙版图像进行第二阶对象识别处理,得到预测目标蒙版图像;
根据预测目标蒙版图像和特征信息,从第i个样本图像中提取第i个图像对应的预测背景图像、预测前景图像和预测透明底图像。
在一种实现方式中,处理单元,还用于:
获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像;
处理单元,还用于基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息时,具体用于:
基于第一训练蒙版图像和预测初始蒙版图像之间的差异信息,第二训练蒙版图像和预测目标蒙版图像之间的差异信息,预测图像和第i个样本图像之间的差异信息,基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息。
在一种实现方式中,处理单元,用于获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像时,具体用于:
对第i个样本图像对应的训练透明度图像进行第一阶对象识别处理,得到第一训练蒙版图像;对第一训练蒙版图像进行第二阶对象识别处理,得到第二训练蒙版图像;以及,
将第i个样本图像对应的预测透明底图像,和第i个样本图像对应的训练前景图像和训练背景图像进行融合,得到预测图像。
另一方面,本申请实施例提供了一种计算机设备,该设备包括:
处理器,用于加载并执行计算机程序;
计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,实现上述图像处理方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行上述图像处理方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,计算机指令被处理器执行时实现上述的图像处理方法。
本申请实施例中,支持对待处理的目标图像进行特征提取处理,得到目标图像的特征信息,该特征信息中包含目标图像中的关注对象中各像素点的透明度信息;通过对目标图像进行特征提取处理,可以增强对目标图像的语义理解。进一步的,还基于特征提取处理得到的特征信息对目标图像进行对象识别处理(或称为图像分割识别等),得到目标蒙版图像;该目标蒙版图像中标示了关注对象在目标图像中的位置信息,即目标蒙版图像可以理解为是关于关注对象的二值图像,该二值图像中除关注对象所在区域的各像素点取值为0,以提高对关注对象所在区域的关注程度,避免关键区域(即关注对象所在区域)的丢失。最后,根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取出包含关注对象的透明底图像。通过上述方案,能够基于特征提取和对象识别就可以实现关注对象的透明度有效提取,而无需额外的辅助操作,不仅提高透明度提取的简便性和快捷性,而且能够确保关注对象的透明度提取的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种现有技术的非透明底图像进行图像叠加的示意图;
图2a是本申请一个示例性实施例提供的一种图像处理系统的架构示意图;
图2b是本申请一个示例性实施例提供的另一种图像处理系统的架构示意图;
图3是本申请一个示例性实施例提供的一种图像处理方法的流程示意图;
图4是本申请一个示例性实施例提供的一种透明底背景提取的示意图;
图5是本申请一个示例性实施例提供的一种透明底提取模型的模型结构的示意图;
图6是本申请一个示例性实施例提供的另一种图像处理方法的流程示意图;
图7是本申请一个示例性实施例提供的一种通过合成得到第一样本图像的示意图;
图8是本申请一个示例性实施例提供的一种卷积模块的结构示意图;
图9是本申请一个示例性实施例提供的一种Transformer模块的结构示意图;
图10是本申请一个示例性实施例提供的一种对象识别模块的结构示意图;
图11是本申请一个示例性实施例提供的一种图像处理装置的结构示意图;
图12是本申请一个示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,提供了图像处理方案,具体提供了一种图像的透明底背景提取的方案。下面先对本申请实施例提供的图像处理方案所涉及的技术术语和相关概念进行简单介绍,其中:
一、人工智能(Artificial Intelligence,AI)。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的图像处理方案,主要涉及计算机视觉技术和机器学习等人工智能方向。其中:
(1)计算机视觉技术(Computer Vision,CV),是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
进一步的,本申请实施例提供的图像处理方案,具体涉及计算机视觉技术中的图像处理等技术;图像处理旨在处理原始图像以应用某种变换,如变换目标为改进原始图像或将原始图像作为某项特定任务的输入等。图像分割是图像处理的一个重要研究方案,是图像语义理解的重要一环;图像分割可以是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。通过对图像进行图像分割,可实现从图像中提取出部分图像元素(或简称为元素、对象等)。
(2)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习及元学习等技术。
进一步的,本申请实施例提供的图像处理方案,具体涉及机器学习中的人工神经网络。人工神经网络是实现机器学习任务的一种方法,在机器学习领域谈论神经网络,一般是指“神经网络学习”。它是一种由许多简单元组成的网络结构,这种网络结构类似于生物神经系统,用来模拟生物与自然环境之间的交互,并且网络结构越多,神经网络的功能往往越丰富。神经网络是一个比较大的概念,针对语音、文本、图像等不同的学习任务,衍生出了更适用于具体学习任务的神经网络模型,如卷积神经网络(convolutional neuralnetwork,CNN)和Transformer网络。其中:①卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络是受生物学上感受野(Receptive Field)的机制而提出的;卷积神经网络专门用来处理具有类似网格结构的数据的神经网络。②Transformer网络是一个依赖于注意力机制(attention)来计算输入和输出的转换模型;Transformer网络抛弃了卷积模型结构,仅仅通过注意力机制和前向神经网络(Feed Forward NeuralNetwork),不需要使用序列对齐的循环架构就实现了较好的表现。
二、透明底背景提取。
透明底背景提取可以是指从目标图像(如任一图像)中提取包含关注对象的透明底图像的过程。透明底图像是指包含关注对象且图像背景的透明程度(或简称为透明度)为预设值的图像;此处的图像背景的透明程度为预设值可以是指,图像背景中各像素点的透明度数值(即alpha值)为预设值,预设值可以为0;当任一像素点的透明度数值为0时,该像素点呈现的是完全透明的视觉效果。
其中,上述描述中目标图像中的关注对象可以是指,目标图像所包含的多个图像元素中的任一元素,具体可以是指多个图像元素中具备透明属性的元素。所谓元素具备透明属性可以简单理解为,从视觉效果上该元素本身是具备一定透明程度的;例如图1所示的非透明底图像所包含元素“水瓶”,从视觉效果上,视觉可以穿过该元素观察到元素的图像背景的,那么可以成该元素具备透明属性。这类具备透明属性的元素的种类繁多,本申请实施例对目标图像所包含的具备透明属性的关注对象的具体类型和数量不作限定,特在此说明。
考虑到广告场景下的广告图像所包含的广告特效(或简称为特效,即关注对象)是丰富多彩的,且往往不便于进行三分图(Trimap,是对给定图像的一种粗略划分,给定图像划分为前景、背景和待求未知区域)标注;因此,本申请实施例提及的目标图像可以包括广告图像。其中,广告可以是指通过互联网向用户介绍商业、服务业或文体节目等信息的一种宣传方式;例如,在网页界面中可显示关于商品的广告,具体是显示广告图像,该广告图像中包含待推广的商品的信息,可用于向用户介绍该商品的相关信息(如商品的样式、价格以及参数等)。值得注意的是,本申请实施例对提及的目标图像的具体类型不作限定;例如,游戏场景所产生的游戏图像所包含的游戏特效也是复杂且多变的,往往不便于直接进行游戏特效的标注;因此,目标图像除了是上述提及的广告图像外,目标图像还可以包括游戏图像,等等。
由上述描述可知,本申请实施例涉及透明底图像和非透明底图像,且这两种图像的图像背景是完全不同的;透明底图像的图像背景是完全透明的,而非透明底图像的图像背景是完全不透明的。在实际应用中,由于非透明底图像的图像背景不透明,使得非透明底图像所包含的关注对象不能得到较好的应用。例如,在图像叠加场景(如将至少两张图像进行叠加,得到叠加后的新的图像)中,将非透明底图像与新的背景图像进行叠加时,由于非透明底图像的图像背景是完全不透明的,使得非透明底图像叠加至新的背景图像后,该非透明底图像的图像背景会遮挡新的背景图像的图像信息,且叠加效果生硬。因此,如何从目标图像中提取包含关注对象的透明底图像显得尤为重要。
正如前述所描述的,为准确地从目标图像中提取包含关注对象的透明底图像,本申请实施例提出了一种图像处理方案;该图像处理方案的大致流程可以包括:获取待处理的目标图像,该目标图像中包括关注对象,关注对象可以是指目标图像中具备透明属性的元素;然后,对该目标图像进行特征提取处理,提取得到的特征信息中包含关注对象中各像素点的透明度信息。进一步的,基于提取到的特征信息对目标图像进行对象识别处理,以提取到目标图像对应的目标蒙版图像,该目标蒙版图像中标示有关注对象在目标图像中的位置信息;在对象识别处理为图像分割识别处理时,该目标蒙版图像是对目标图像进行图像分割得到的。最后,根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像。
更进一步的,本申请实施例提供的图像处理方案是通过训练好的透明底提取模型来执行的。该透明底提取模型中包括特征提取模块和对象识别模块;其中,特征提取模块用于对输入透明底提取模型的目标图像进行特征提取处理,得到目标图像的特征信息;对象识别模块用于接收特征提取模块输入的特征信息,并基于特征信息对目标图像进行对象识别处理,以得到目标蒙版图像。这样,可以基于目标蒙版图像和特征信息所包含的关注对象中各像素点的透明度信息,从目标图像中提取出透明底图像,该透明底图像包含关注对象。
本申请实施例,一方面通过对待处理的目标图像进行特征提取处理,得到目标图像的特征信息,可以增强对目标图像的语义理解。另一方面基于特征提取处理得到的特征信息对目标图像进行对象识别处理,以提高对关注对象所在区域的关注程度,避免关键区域(即关注对象所在区域)的丢失。由此可见,本申请实施例能够基于特征提取和对象识别就可以实现关注对象的透明度有效提取,而无需额外的辅助操作,不仅提高透明度提取的简便性和快捷性,而且能够确保关注对象的透明度提取的准确性。
为便于理解本申请实施例提供的图像处理方案,下面结合图2a所示的图像处理系统,给出在示例性的图像处理场景(如图像叠加场景)中,提取透明底图像的实施过程。如图2a所示,该图像处理系统中包含终端201和服务器202,本申请实施例对终端和服务器的数量和命名不作限定。
其中,终端201可是指在具有透明底图像的提取需求的任一用户所使用的终端设备。其中,终端设备可以包括但不限于:智能手机(如部署安卓(Android)系统的智能手机,或部署互联网操作系统(Internetworking Operating System,IOS)的智能手机)、平板电脑、便携式个人计算机、移动互联网设备(Mobile Internet Devices,简称MID)、车载设备、头戴设备等设备,本申请实施例并不对终端设备的类型进行限定,在此说明。服务器202是终端201对应的后台服务器,用于与终端201进行交互,以实现为终端201提供计算和应用服务支持。服务器202可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端201以及服务器202之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
具体实现中,模型训练对象(如对透明底提取模型进行训练的开发者)可以通过服务器202对透明底提取模型进行模型训练,以得到透明底提取效果较好的透明底提取模型。然后,将训练好的透明底提取模型部署至终端201中,具体是训练好的透明底提取模型可以部署在应用程序(或系统插件、应用插件等)中,这样在终端201中安装并运行部署有训练好的透明底提取模型的应用程序,就可以通过终端201实现透明底图像的有效提取。进一步的,目标对象(如任一用户)在具有将目标图像中的关注对象,与新的背景图像进行叠加的需求时,该目标对象可以通过终端201将待处理的目标图像输入至训练好的透明底提取模型,并由透明底提取模型对目标图像进行透明底提取,得到包含关注对象的透明底图像。然后,终端201可以输出提取到的包含关注对象的透明底图像,这样目标对象可以将获取到的透明底图像和新的背景图像进行叠加,得到叠加后的新图像(或称为合成图像、叠加图像等)。当然,图像叠加的过程可以是自动化实现的,即图像叠加的过程和透明底提取的过程可以是由终端201自动执行的,目标对象只需将待处理的目标图像和新的背景图像输入至终端201即可;也就是说,终端201在获取到待处理的目标图像和新的背景图像后,可以先调用训练好的透明底图像对目标图像进行透明底提取,得到包含关注对象的透明底图像;进一步的,终端201再将训练好的透明底提取模型输出的透明底图像,与新的背景图像进行叠加,得到叠加后的新图像。本申请实施例对图像叠加的具体实施过程是由终端自动实现,还是由目标对象手动实现不作限定,在此说明。
需要说明的是,本申请实施例提供的图像处理方案涉及透明底提取模型的模型训练和模型应用。上述实现流程是以在服务器202中进行关于透明底提取模型的模型训练,并将训练好的透明底提取模型部署在终端201中,以在终端201中调用训练好的透明底提取模型来实现模型应用为例进行阐述的。但可以理解的是,训练好的透明底提取模型还可以直接部署于服务器202中,在终端201中只部署接口;这样,通过该接口终端201能够将待处理的目标图像发送至服务器202,以便于服务器202调用训练好的透明底提取模型对待处理的目标图像进行透明底提取,并将提到的包含关注对象的透明底图像发送至终端201中;上述流程可以参见图2b。进一步的,关于透明底提取模型的模型训练还可以是由终端201执行的,此时图像处理系统中可以只包含终端201,而不包含服务器202,即只需由一个终端就可以实现模型训练和模型应用。本申请实施例对图像处理系统所包含的设备数量和种类不作限定,图2a和图2b只是本申请实施例提供的一种示例性的图像处理系统。
综上所述,根据图像处理系统的不同,用于执行本申请实施例提供的图像处理方案的计算机设备也有所不同。可选的,在透明底提取模型是在服务器训练,且部署于终端的场景中,计算机设备可以包括终端和服务器,即本申请实施例提供的图像处理方案由终端和服务器共同执行。可选的,在透明底提取模型的训练和应用均由服务器执行的场景中,计算机设备可以是指服务器;可选的,在透明底提取模型的训练和应用均由终端执行的场景中,计算机设备可以是指终端。本申请实施例对计算机设备具体为终端和/或服务器不作限定。
还需说明的是,本申请实施例运用到具体产品或技术中时,如获取待处理的目标图像时,那么需要获得目标对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于上述描述的图像处理方案可知,本申请实施例提供的图像处理方案主要涉及两个方面,一方面是模型训练得到训练好的透明底提取模型,另一方面是采用训练好的透明底提取模型进行透明底图像的提取(即模型应用)。下面结合附图对本申请实施例提出的更为详细的图像处理方法进行介绍,具体对图像处理方法所包含的模型训练过程和模型应用过程进行介绍。
请参见图3,图3示出了本申请一个示例性实施例提供的一种图像处理方法的流程示意图;该图像处理方法可以由上述提及的计算机设备来执行;该方法可包括但不限于步骤S301-S304,其中:
S301、对待处理的目标图像进行特征提取处理,得到目标图像的特征信息。
具体实现中,在目标对象具有从目标图像中提取出关注对象(如从广告图像中提取出广告特效)的需求时,目标对象可以使用终端输入待处理的目标图像,此时终端可以获取该待处理的目标图像,以便于调用训练好的透明底提取模型对待处理的目标图像进行特征提取处理,以理解目标图像的图像语义。
其中,本申请实施例支持从终端的本地存储空间中上传得到待处理的目标图像。例如,训练好的透明底提取模型部署于终端中安装的客户端中,那么目标对象可以使用终端打开并启动该客户端,并基于该客户端提供的图像上传功能从终端的本地存储空间中上传待处理的目标图像。当然,本申请实施例对终端获取待处理的目标图像的获取方式并不作限定;除了如上述描述的通过从终端的本地存储空间中获取待处理的目标图像外,还支持接收其他设备发送的待处理的目标图像。例如,终端与其他设备之间建立有通信连接,那么终端可以直接从其他设置中接收到待处理的目标图像;其中,本申请实施例对终端与其他设备之间建立的通信连接方式不作限定,包括但不限于:近场通讯方式(用于短距离非接触式数据交换的技术;如近场通讯可包括但不限于:近距离无线通信(Near FieldCommunication,NFC)、蓝牙通信或wifi通信等)、数据通信(如邮件、会话、短信等方式)以及有线连接通信。
进一步的,终端通过上述图像获取方式,获取到待处理的目标图像后,可以调用训练好的透明底提取模型对待处理的目标图像进行特征提取处理,得到目标图像的特征信息,此处的特征信息包括目标图像的图像特征;这样可以实现对目标图像的语义理解,从而更好地提取包含关注对象的透明底图像的整体透明度以及纹理细节等信息。其中,图像特征可以是指对目标图像的特点或内容进行表征的属性集合,可以包括目标图像的自然特征(如亮度、颜色、轮廓和纹理等特征)和人为特征(如图像频谱和图像直方图等特征)。图像特征提取(即上述描述的特征提取处理)可以理解为将目标图像从原始属性空间转化到特征属性空间,具体是对目标图像所包含的信息进行处理和分析,并将其中不易受随机因素干扰的信息作为目标图像的图像特征提取处理,进而实现将目标图像的原始特征表示为一组具有明显的物理意义或统计意义的图像特征。
本申请实施例提及的对待处理的目标图像进行特征提取处理(即上述描述的图像特征提取),可以包括对待处理的目标图像进行浅层特征提取和深层特征提取,以得到目标图像的特征信息,该特征信息包含目标图像的局部特征信息和全局特征信息。具体是对目标图像进行浅层特征提取以得到目标图像的局部特征信息,以及对目标图像进行深层特征提取以得到目标图像的全局特征信息。
其中,浅层特征提取关注于目标图像中的细节信息的提取,如关注于目标图像中的某个局部区域的特征信息的提取。具体实现中,支持对待处理的目标图像进行多种特征学习尺度(如被采用不同大小卷积核进行特征提取)的浅层特征提取,得到不同特征学习尺度的目标图像的图像特征信息(如特征图);然后,将不同特征学习尺度的目标图像的图像特征信息进行融合,以得到目标图像的局部特征信息。更为详细地,浅层特征提取所提取的目标图像对应的特征图中每个像素点对应的感受野重叠区域较小,从而确保能够捕获目标图像中丰富的细粒度特征信息;此处的细粒度特征信息或称为局部特征信息,可以包括但不限于颜色特征信息、纹理特征信息、边缘特征信息以及棱角信息特征信息等)。通过对目标图像进行浅层特征提取,能够获取到目标图像的局部特征信息,目标图像的局部特征信息具体包含了目标图像中关注对象的局部特征信息,如关注对象中各像素点的透明度信息(如像素点alpha通道的取值,以表征该像素点的透明程度),从而捕获目标图像中关注对象的位置信息和细节信息等,便于在目标图像中识别到关注对象。
在基于上述描述提取到目标图像的局部特征信息后,还支持基于浅层特征提取到的局部特征信息,对待处理的目标图像进行深层特征提取,得到目标图像的全局特征信息;浅层特征提取到的局部特征信息和深层特征提取到的全局特征信息组成目标图像的特征信息。对目标图像的深层特征提取具体可以包括:基于注意力机制(在后续实施例中详细给出注意力机制的相关内容)确定目标图像中的目标检测区域,目标检测区域包含关注对象;根据局部特征信息对目标图像中的目标检测区域进行深层特征提取,得到目标图像的全局特征信息;其中,全局特征信息是相对于局部特征信息而言的,可以用于描述目标图像或目标图像中的关注对象的颜色和形状等整体特征。
其中,深层特征提取相比于浅层特征提取而言,其更关注于对目标图像的语义信息的提取;深层特征提取所提取的目标图像对应的特征图中每个像素点对应的感受野重叠区域增加,此时像素点代表的信息是一个区域的信息,能够获得目标图像中的一个区域与相邻区域之间的关联性,从而确保能够捕获目标图像中丰富的语义信息,增强对目标图像的语义理解。
综上所述,本申请实施例支持对目标图像进行特征提取处理,包括局部特征提取和全局特征提取,更为准确地提取到目标图像的图像特征,加强对目标图像的语义理解,从而更好地提取目标图像中关注对象的整体透明度以及局部的纹理细节。
S302、基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像。
S303、根据目标蒙版图像和关注对象中像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像。
步骤S302-S303中,对目标图像进行的对象识别处理可以称为图像分割识别,具体是基于前述特征提取处理所提取的特征信息,从目标图像中识别并分割出包含关注对象的目标蒙版图像。该目标蒙版图像是一个二值图像(即图像中每个像素只有黑白两种取值),表现为黑白色或灰度等级的图像。这样,在该目标蒙版图像中通过采用不同灰度等级,来标示出关注对象在目标图像中的位置信息;具体是采用不同灰度等级区分显示关注对象所在区域,和目标蒙版图像中除关注对象所在区域之外的其他区域,以实现对目标图像中的关注对象的位置进行精准定位。
更为详细地,本申请实施例支持多阶段的对象识别处理,这样可以得到不阶段对象识别处理所输出的蒙版图像,随着阶段的提升输出的蒙版图像中关注对象的轮廓(或边界)会更为清晰,以提高对关注对象的位置信息的定位准确性。以多阶段的对象识别处理中包括第一阶对象识别处理(或称为第一阶段对象识别处理)和第二阶对象识别处理(或称为第二阶段对象识别处理)为例,基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像的具体实施过程可以包括:基于特征信息对目标图像进行第一阶对象识别处理,得到初始蒙版图像;然后,对初始蒙版图像进行第二阶对象识别处理,得到目标蒙版图像;其中,目标蒙版图像中标示的关注对象的边界清晰度,大于初始蒙版图像中标示的关注对象的边界清晰度,即第二阶对象识别处理所得到的目标蒙版图像中标示的关注对象的位置,比第一阶对象识别处理所得到的初始蒙版图像中标示的关注对象的位置更为准确和清晰。通过上述描述多阶段的对象识别处理,能够使得透明底提取模型所得到的结果逐渐细化,最终得到高精细度的透明度图像。
进一步的,通过对目标图像的对象识别处理,以定位出目标图像中关注对象所在区域后,可以结合对目标图像进行特征提取处理所提取的特征信息,具体是该特征信息中包含的关注对象中各像素点的透明度信息,从目标图像中提取出透明底图像。其中,透明底图像中包含关注对象,且图像背景中各像素点的透明度信息为预设值(如取值为0,即图像背景是完全透明的);这样将透明底图像与任一背景图像进行图像合成(或叠加)时,透明底图像中的图像背景均不会遮挡该任一背景图像中的内容,提高图像合成的合成效果。
通过上述描述的步骤S301-S303所示的具体实施过程,可通过对目标图像的特征提取处理和对象识别处理,以实现对目标图像中关注对象进行透明底提取,提取到包含关注对象的透明底图像。上述步骤S301-S303所示的完整透明底提取的示意性流程可以参见图4;如图4所示,将待处理的目标图像输入至训练好的透明底提取模型,这样训练好的透明底提取模型可以先对该目标图像进行特征提取处理(如前述描述的局部特征的提取,或者,局部特征和全局特征的提取),得到目标图像的特征信息。进一步的,可以基于提取的特征信息,对目标图像进行对象识别处理,以实现在目标图像中分割出包含关注对象所在区域的目标蒙版图像,该目标蒙版图像通过采用不同灰度等级区分显示了关注对象所在区域和其他区域,实现对关注对象的标示。最后,可以基于目标蒙版图像中标示出的关注对象,和特征提取的特征信息中关注对象中各像素点的透明度信息,从目标图像中提取出包含关注对象的透明底图像。由此可见,本申请实施例提供的图像处理方案中,并不需要额外对目标图像进行其他辅助操作,只需采用训练好的透明底提取模型进行特征提取和图像分割识别即可,在降低透明底提取的难度和成本的基础上,还提高图像处理方案的普适性。
上述图3所示实施例主要给出图像处理方法所包含的模型应用部分的具体实施过程;正如前述所描述的,本申请实施例支持调用训练好的透明底提取模型来执行对目标图像的透明底提取,以提取得到包含目标图像中关注对象的透明底图像。本申请实施例提供的一种示例性的透明底提取模型的模型结构可以参见图5;如图5所示,该透明度提取模型包括特征提取模块和对象识别模块(或称为图像分割模块,如MaskNet网络)。其中,特征提取模块可以包括第一特征提取模块,如该第一特征提取模块可以包括卷积神经网络(Convolutional Ne ural Networks,CNN);通过该卷积神经网络CNN可以实现对图像的浅层特征提取和深层特征提取,以提取到图像的特征信息。进一步的,考虑到卷积神经网络CNN侧重于局部特征提取,即具有较好的局部特征提取效果,但全局特征提取效果较为劣势,因此为增强对图像的全局特征提取,更好地提取图像的语义信息;本申请实施例提供的特征提取模块还可以包括第二特征提取模块,如该第二特征提取模块可以包括Transformer网络;Transformer网络凭借其拥有的注意力机制能够更好地关注到图像中的关注对象,较好地实现图像的全局特征信息的提取。由此可见,本申请实施例提供的透明底提取模型,通过结合卷积神经网络CNN和Transformer网络作为编码(encoder)和解码(decoder),将卷积神经网络CNN较好的局部性以及Transformer网络较好地全局性相结合,以增强对图像的语义理解,从而更好地提取图像的整体透明度以及局部的纹理细节。
下面对本申请实施例提供的透明底提取模型所包含的第一特征提取模块、第二特征提取模块和对象识别模块,分别进行介绍,其中:
(1)卷积神经网络CNN可以用于对目标图像进行特征提取处理,具体是用于对目标图像进行浅层特征提取,以更好地提取到目标图像的局部特征信息。如图5所示的,卷积神经网络CNN可以包括多个卷积模块(或称为局部特征提取模块)CNNblock;卷积模块CNNBlock作为透明底提取模型中encoder编码(即特征提取(backbone))的第一阶段,也是作为decoder解码的最后一个阶段。
需注意的是,卷积模块CNNBlock在encoder编码部分和decoder解码部分是对称的,区别在于encoder编码部分中各卷积模块CNNBlock之间是使用下采样进行连接,而decoder解码部分中各卷积模块CNNBlock之间是使用上采样进行连接。例如,如图5所示的encoder编码部分中,卷积模块501和卷积模块502连接使用的是Pool池化(下采样);卷积模块501和卷积模块502之间进行下采样的具体实现过程可以包括:卷积模块501对输入的目标图像进行特征提取,并将提取到的特征图继续进行下采样,然后,将下采样得到的特征图,作为卷积模块502的输入信息(即输入的特征图),卷积模块502对接收到的输入信息继续进行特征提取。再如,如图5所示的decoder解码部分中,卷积模块503和卷积模块504连接使用的是Upsample上采样;卷积模块503和卷积模块504之间进行上采样的具体实现过程可以包括:卷积模块503对输入的特征图(该特征图是由Transformer网络的decoder解码部分输出的)进行特征提取,并将提取到的特征图继续进行上采样,然后,将上采样得到的特征图,作为卷积模块504的输入信息,以便于卷积模块504对接收到的输入信息和目标蒙版图像继续进行特征提取。
进一步的,卷积神经网络CNN所包含的单个卷积模块的示例性网络结构可以参见图6。如图6所示,卷积模块CNNBlock可以由多个残差模块Resblock连接组成;在图6所示的网络结构中卷积模块CNNBlock可以包括依次连接的3个残差模块Resblock,如残差模块Resblock1→残差模块Resblock2→残差模块Resblock3。每个残差模块Resblock用于对输入的特征图进行卷积运算,并且将当前残差模块Resblock输出的特征图作为相邻下一个残差模块Resblock的输入信息,实现对图像的多次卷积运算,以提取到图像的丰富的特征信息(如每个像素点的灰度值)。
其中,每个残差模块Resblock可以包括多个不同大小的学习特征尺度的卷积核(如残差模块Resblock1包括2个3*3的卷积核,和1个1*1的卷积核),每个卷积核用于对输入的特征图进行相应学习特征尺度(如3*3)的特征提取。针对单个残差模块Resblock而言,支持通过该单个残差模块Resblock所包含的不同学习特征尺度的卷积核,对输入的特征图进行多尺度的特征提取,并将多尺度特征提取的特征信息进行结合,得到单个残差模块Resblock输出的特征图。如图6所示的残差模块Resblock1,该残差模块Resblock1中包括串联的两个学习特征尺度为3*3的卷积核,且该串联的两个学习特征尺度为3*3的卷积核,与一个学习特征尺度为1*1的卷积核并联;那么采用第一个学习特征尺度为3*3的卷积核对输入的特征图进行卷积运算后,可采用第二个学习特征尺度为3*3的卷积核,对第一个学习特征尺度为3*3的卷积核输出的特征图继续进行卷积运算;然后,将第二个学习特征尺度为3*3的卷积核输出的结果与并联的学习特征尺度为1*1的卷积核的输出结果进行结合,以实现对特征图的多学习特征尺度的特征提取。这样,通过充分利用不同大小的卷积核来提取不同学习尺度的第i个样本图像的特征并且进行结合,并且反复融合多尺度的信息,实现在减少信息丢失的同时,模型对于第i个样本图像的局部边缘信息以及纹理信息有更好的感知能力,得到更加准确的特征信息,具体是局部特征信息。
值得说明的是,本申请实施例对第一特征提取模块(如卷积神经网络CNN)所包含的卷积模块CNNBlock的数量,每个卷积模块CNNBlock所包含的残差模块Resblock,以及每个残差模块Resblock所包含的卷积核的大小和连接方式不作限定。图6只是本申请实施例给出一种示例性的卷积模块的网络结构。例如,残差模块Resblock1所包含的不同卷积核之间的连接关系可以发生变化,且残差模块Resblock1所包含的卷积核的数量和大小可以发生变化。
(2)Transformer网络可以用于对目标图像进行特征提取处理,具体是用于对目标图像进行深层特征提取,以更好地捕获目标图像的全局依赖(即全局特征信息)。考虑到卷积神经网络虽然通过池化压缩特征图的大小来扩大了感受野,但是仍然无法有效地将感受野覆盖整个图像,因此支持在透明底提取模型中引入Vision Transformer(简称为Transformer),通过其自注意力机制的全局性来扩大感受野,从而避免通过卷积堆叠来扩大感受野所造成的信息丢失,同时增强透明底提取模型对于图像语义的理解。具体实现中,透明底提取模型中的卷积神经网络CNN(具体是卷积神经网络CNN的encoder编码部分),可以将提取到的局部特征信息输入至Transformer网络;这样,Transformer网络可以进一步对输入的局部特征信息加以提取融合,利用Transformer网络本身的全局注意力机制以更大的感受野提取图像的特征信息,增强对于关注对象的理解以及感知能力。
如图5所示的,透明底提取模型中包括的Transformer网络与卷积神经网络CNN类似,同样是对称组成encoder编码部分和decoder解码部分。具体地,Tr ansformer网络可以包括多个全局特征提取模块(也可以称为Transformer模块);在encoder编码部分,各全局特征提取模块之间使用下采样进行连接,在decod er解码部分,各全局特征提取模块之间使用上采样进行连接;其中,各全局特征提取模型之间上采样或下采样的具体实施过程,可以参见上述对卷积神经网络的相关描述,在此不作赘述。并且,decoder解码部分的任一全局特征提取模块,可以接收decoder解码部分中相邻上一个全局特征提取模型输出的特征图,和encoder解码部分中与该任一全局特征提取模块对称的全局特征提取模块所输出的特征图,这使得通过decoder解码可以获取到关于图像的更为丰富的语义信息。
进一步的,Transformer网络中的单个全局特征提取模块的示例性网络结构可以参见图7。如图7所示,全局特征提取模块是由注意力机制和多层感知机(Multi-LayerPerceptron,MLP)组成的;通过注意力机制和多层感知机的结合,使得Transformer模块能够让透明底提取模型更加关注目标图像中的关注对象所在的区域(即关键区域),从而提高透明底提取的准确性。下面分别对全局特征提取模块中的注意力机制和多层感知机的相关原理进行简单介绍,其中:①注意力机制是模拟人类视觉注意力所产生的,如人眼的视野是比较开阔的,但视野所关注的焦点往往只有一个小范围,即人眼更关注于视野中重要的区域(即感兴趣区域),因此与人类视觉注意力类似的,注意力机制旨在关注图像中的重要区域,忽略不重要区域。注意力机制又可以细分为自注意力机制(self-atte ntion)、多头注意力机制(multi-head self-attention)和全局注意力机制(globa l attention)等。其中,自注意力机制对外部信息的依赖性不强,能够较好地捕捉数据或特征的内部相关性。多头注意力机制可以称为多头自注意力机制,能够将输入数据映射至多个不同的子空间中,然后通过多个不同的子空间寻找最终的关注区域;相比于自注意力机制而言,能够捕捉更加丰富的特征信息,特征提取效果更好。全局注意力机制可以是指所有输入数据均被赋予重要性,会考虑所有的隐藏状态。②多层感知机是包括多个神经元的神经网络,具体地包括至少三层节点的神经网络。该神经网络中包括输入层,一些中间层和输出层,给定层中的每个节点都连接到相邻层中的每个节点;其中,输入层可以用于接收数据,中间层可以用于计算数据以及输出层可以用于输出计算结果。
基于上述对注意力机制和多层感知层的相关原理的大致介绍,下面结合如图7所示的全局特征提取模型的网络结构,对全局特征提取进行深层特征提取的具体实施过程进行介绍。具体实现中,全局特征提取模块接收到输入的特征图后,首先,对该特征图进行归一化处理(如采用LN(Layer Normalizationg)归一化方法),以实现将特征图的所有特征统一到大致相同的数值区间内。
然后,采用注意力机制将归一化后的特征向量(如embedding)转换为三个向量矩阵,分别为Query矩阵(查询)以及Key矩阵(键)和Value矩阵(值);再根据这三个向量矩阵的映射,和d个平行的自注意力机制,得到注意力结果attention(Q,K,V);其中,attention(Q,K,V)的计算公式为:
式中,Q为Query矩阵,K为Key矩阵,V为Value矩阵,d为平行的自注意力机制的数量。
最后,采用多层感知机(或称为多层前馈神经网络(Feed Forward Networ k,FFN))将上述注意力机制的输出结果(如注意力结果)映射至更高维度的空间中;具体是对注意力机制的输出结果进行线性变换,并将线性变换后的结果经过一个激活函数(如Rule函数)后,再进行线性变换,以得到高维度的语义特征信息。其中,在将注意力机制输出的结果输入至多层感知机之前,还可以对该注意力机制的输出结果进行归一化处理,以防止梯度消失或者梯度爆炸,加速模型收敛。
可以理解的是,本申请实施例对Transformer网络的具体网络结构不作限定,图7只是本申请实施例提供的示例性网络结构。
(3)MaskNet模块可以用于对目标图像进行图像分割,以分割得到包含关注对象的蒙版图像。为提高透明底提取模型的分割准确性,本申请实施例支持采用逐步调优的方式引导透明底提取模型更好地学习,具体是采用多阶段的输出(即透明底提取模型的输出过程包括多个阶段的输出),使得透明底提取模型的输出结果逐步细化,引导透明底提取模型的有效学习。
其中,透明底提取模型中可以包括一个或多个相连接的MaskNet模块,如图5所示的透明底提取模型中包括两个相连接的MaskNet模块,且第一个Mas kNet使用的膨胀率(一种形态学处理方法,可以认为就是扩张图像中原有的关注对象)比第二个MaskNet大,得到的mask图像也比第二阶段输出的mask图像更加粗糙,这使得透明底提取模型的输出结果逐步细化,能够引导透明底提取模型实现有效的监督学习。具体实现中,第一个MaskNet模块接收Transfor mer网络输入的特征信息(包括局部特征信息和全局特征信息),并对基于特征信息对目标图像进行图像分割,得到第一阶段输出的初始蒙版图像(即像素值为0或1的二值图像(或称为掩膜图像、mask图像等))。进一步的,第一个MaskNet模块将输出的初始蒙版图像输入到第二个MaskNet模块,这样第二个MaskNet模块根据初始蒙版图像和卷积神经网络输出特征信息,对目标图像进行更为细致的图像分割,得到第二阶段输出的目标蒙版图像。其中,第二阶段输出的目标蒙版图像中关注对象的轮廓清晰度,大于第一阶段输出的初始蒙版图像中关注对象的轮廓清晰度。
一种示例性的MaskNet模块的网络结构可以参见图10;如图10所示,Mas kNet模块的输入信息可以包括两个,对于第一个MaskNet模块而言,其接收到的输入信息包括Transformer网络输出的局部特征信息和全局特征,对于第二个MaskNet模块而言,其接收到的输入信息包括第一个MaskNet模块输出的初始蒙版图像和卷积神经网络输入的特征信息。进一步的,MaskNet模块包括的两个卷积归一化模块(即具有卷积和归一化功能的模块)可以分别对输入的局部特征信息和全局特征信息进行卷积运算和归一化处理,并且结合两个卷积归一化模块所输出的结果;进一步对结合后的结果进行卷积运算和上采样处理,以实现对目标图像的图像分割识别得到蒙版图像(如第一个MaskNet模块输出初始蒙版图像,第二个MaskNet模块输出目标蒙版图像)。其中,上述提及的Mas kNet模块中的卷积可以包括卷积核为3*3的深度可分离卷积(Depthwise separa ble convolutio),采用深度可分离卷积有利于减少透明底提取模型的模型参数,从而加快透明底提取模型的预测速度。不难理解的是,图8只是本申请实施例给出的示例性的MaskNet模块的网络结构;例如,MaskNet模块所包含的卷积核的数量和大小还可以发生变化,本申请实施例对此不作限定。
综上所述,本申请实施例提供的透明底提取模型,一方面,通过结合卷积神经网络较好的局部特征提取效果,和Transformer网络较好地全局特征提取效果,能够有效提取目标图像的透明度,使得透明底提取模型的感受野可以覆盖整个目标图像,更好地提取目标图像的特征信息,加强对目标图像的语义信息理解。另一方面,支持采用逐步调优的方式,即采用多阶段输出的方式,引导透明底提取模型更好地学习,从而训练好的透明底提取模型可以输出更为精准的透明底图像。
不难理解的是,本申请实施例对透明底提取模型的具体模型结构并不作限定,图5所示的模型结构只是本申请实施例给出示例性结构。例如,本申请实施例对透明底提取模型的模型结构所包含的各网络的种类和数量不作限定,如图5所示的编码部分的卷积神经网络的数量为2个,在实际应用还可以根据业务需求更改卷积神经网络的数量。再如,透明底提取模型还可以包括多个子模型,通过各子模型的功能来实现透明底提取;如透明底提取模型可以包括分割模型和透明度提取模型,这样可以通过两阶段策略,达到透明底提取效果,具体是先训练分割模型来得到蒙版图像,再训练透明度提取模型来提取透明度。
基于上述对透明底提取模型的模型结构的相关介绍,下面结合具体实施例对模型训练部分进行详细介绍。请参见图9,图9示出了本申请一个示例性实施例提供的另一种图像处理方法的流程示意图;该图像处理方法可以由上述提及的计算机设备来执行;该方法可包括但不限于步骤S901-S907,其中:
S901、获取训练图像集合。
训练图像集合中包含多个样本图像,以及每个样本图像对应的训练背景图像、训练前景图像和训练透明底图像;如训练图像集合中可以包括20000(或其他数值)个样本图像,这样可以对透明底提取模型进行至少20000次迭代训练。其中,样本图像可以包括第一样本图像和第二样本图像,第二样本图像是对第一样本图像进行数据增强处理所得到的,数据增强可以包括以下至少一种:随机旋转(如对第一样本图像旋转任意角度得到第二样本图像)、增强噪声、图像翻转及图像剪切等。第一样本图像和第二样本图像的分辨率可以为512*512,当然样本图像分辨率也可以为其他分辨率,只要确保模型应用时输入的目标图像的分辨率,与模型训练时输入的样本图像的分辨率一致即可。
值得注意的是,根据透明底提取模型所应用的场景不同,训练图像集合所包含的样本图像的获取方式有所不同。以应用场景为广告场景为例,此时样本图像是与广告相关的图像;考虑到在广告场景中没有足够的用于训练的广告图像(如广告图像对应的训练背景图像、训练前景图像和训练透明底图像往往不容易获得),因此支持采用合成的方式生成用于训练的样本图像,此时该样本图像亦可以称为合成图像,所谓合成图像可以是指将多个图像进行合成或叠加所得到的图像。
下面结合图10示例性地给出合成第一样本图像的具体实施过程,如图10所示,第一样本图像的合成流程可包括但不限于步骤s11-s13:
s11:获取初始样本图像(或称为目标兴趣图像,即想要进行透明底提取的图像),以及为该初始样本图像获取对应的训练背景图像;具体可以是从图像数据集中获取初始样本图像和该初始样本图像对应的训练背景图像,如图像数据集可以包括PASCALVOC数据集,该数据集中包含大量的自然图像;当然,本申请实施例对初始样本图像和该初始样本图像对应的训练背景图像的具体获取方式不作限定,例如,该初始样本图像对应的训练背景图像还可以是纯色背景的任一图像,再如,初始样本图像还可以是从互联网中检索到的任一图像(如广告图像)等。
s12:对初始样本图像中的关注对象进行对象标注处理,得到初始样本图像对应的训练透明底图像。此处的对象标注处理可以包括:采用标注工具从初始样本图像中标注提取出包含关注对象的透明底图像的过程;本申请实施例对标注工具的具体类型不作限定,通过采用标注工具从初始样本图像中准确地标注提取出包含关注对象的训练透明底图像,使得利用该训练透明底图像训练得到的透明底提取模型能够更为精准地进行透明底提取。
s13:对初始样本图像,该初始样本图像对应的训练透明底图像,以及该初始样本图像对应的训练背景图像进行合成,得到第一样本图像;其中,合成上述三个图像的合成方法如下公式:
I=fg*alpha+bg*(1-alpha) (2)
式中,I为合成图像(即第一样本图像);fg为合成图像对应的训练前景图像,具体是将初始样本图像作为合成图像对应的训练前景图像;alpha为对初始样本图像进行标注提取所得到的训练透明底图像,alpha的取值范围为[0,1];bg为合成图像对应的训练背景图像。
基于上述步骤s11-s13,不仅可以合成得到第一样本图像,并且第一样本图像对应的训练背景图像、训练前景图像和训练透明底图像均可以获得。进一步的,可以将合成的第一样本图像,以及该第一样本图像对应的训练背景图像、训练透明底图像和训练前景图像,添加至训练图像集合中,以构建得到训练图像集合。
正如前述所描述的,训练图像集合中的样本图像除包含合成的第一样本图像外,还可以包含对第一样本图像进行数据增强处理所得到的第二样本图像;具体的数据增强处理的类型可以参见前述相关描述,在此不作赘述。在对第一样本图像进行数据增强处理,得到第二样本图像后,可以将第二样本图像,以及,第二样本图像对应的训练背景图像、训练前景图像和训练透明底图像,添加至训练图像集合中,以构建训练图像集合。其中,第二样本图像对应的训练背景图像、训练前景图像和训练透明底图像的确定方式可以包括:对第一样本图像对应的训练背景图像、训练前景图像以及训练透明底图像进行,与对第一样本图像执行的数据增强处理相同的处理,分别得到第二样本图像对应的训练背景图像、训练前景图像以及训练透明底图像。为便于阐述,以对第一样本图像进行的数据增强处理为目标数据增强处理为例,包括以下至少一种:随机旋转、增加噪声及图像翻转,那么支持对第一样本图像对应的训练背景图像进行目标数据增强处理,得到第二样本图像对应的训练背景图像;以及,对第一样本图像对应的训练前景图像进行目标数据增强处理,得到第二样本图像对应的训练前景图像;以及,对第一样本图像对应的训练透明底图像进行目标数据增强处理,得到第二样本图像对应的训练透明底图像。
综上所述,通过上述相关描述,可通过合成和数据增强处理等操作构建训练图像集合,以确保训练图像集合中包含丰富的样本图像,这样基于丰富且充足的样本图像才能训练得到性能较优的透明底提取模型。
S902、选择训练图像集合中的第i个样本图像,i为正整数;并调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个样本图像对应的预测背景图像、预测前景图像和预测透明底图像。
基于步骤S901所示的具体实施过程,构建好用于训练模型的训练图像集合后,可采用训练图像集合对待训练的透明底提取模型进行优化,具体是循环采用训练图像集合中的样本图像对透明底提取模型进行逐步优化,直至得到性能较优的透明底提取模型,或者,训练图像集合所包含的全部样本图像均被执行。为便于阐述,后续以采用训练图像集合中的第i个样本图像进行训练为例,对训练透明底提取模型的训练过程进行介绍,i为正整数,特在此说明。
由前述相关描述可知,本申请实施例提供的透明底提取模型可以包括第一特征提取模块、第二特征提取模块和对象识别模块,那么在从训练图像集合中选择第i个样本图像后,可将该第i个样本图像输入至待训练的透明底提取模型;这样,透明底提取模型对该第i个样本图像进行透明底提取处理,并输出针对第i个样本图像的预测结果(包括预测前景图像、预测背景图像和预测透明底图像)。其中,采用透明底提取模型对该第i个样本图像进行透明底提取处理的具体实施过程可以包括但不限于步骤s21-s23,其中:
s21:调用第一特征提取模块对第i个样本图像进行浅层特征提取,以及,调用第二特征提取模块基于浅层特征提取所得到的局部特征信息,对第i个样本图像进行深层特征提取,得到第i个样本图像的特征信息。
正如前述所描述的,透明底提取模型的第一特征提取模块可以包括卷积神经网络,且卷积神经网络的示例性网络结构可以参见前述图5和图6所示。具体实现中,将第i个样本图像输入至透明底提取模型后,首先,该透明底提取模型所包含的卷积神经网络(即第一特征提取模块)可实现对第i个样本图像的局部特征提取;具体是卷积神经网络所包含的各个相连接的卷积模块,通过下采样的方式不断对输入的第i个样本图像进行浅层特征提取,以得到第i个样本图像的局部特征信息。其中,单个卷积模块进行浅层特征提取时,又是通过该单个卷积特征所包含的多个相同或不同残差模块来提取第i个样本图像的特征图的,每个残差模块是通过所包含的不同学习特征尺度的卷积核实现对输入的特征图进行特征提取,并将提取到的不同学习特征尺度的特征进行结合。通过卷积模块所包含多个残差模块输出的特征信息的反复融合,以及,每个残差模块所包含的不同学习特征尺度的卷积核的特征提取的结合,使得在减少特征信息丢失的同时,能够提高透明底提取模型对第i个样本图像的局部边缘信息和纹理信息的感知能力,从而提取到更加准确的局部特征信息。
然后,该透明底提取模型所包含的Transformer网络可以进一步基于卷积神经网络提取的局部特征信息对第i个样本图像进行深层特征提取,以得到第i个样本图像的全局特征信息;具体是Transformer网络中的Transformer模块通过注意力机制提取第i个样本图像的注意力结果(如标示出第i个样本图像中关注对象所在的大致区域),并采用多层感知机将该注意力结果映射到更高维度的空间,以提取到第i个样本图像的高维度的语义特征信息。
需说明的是,上述只是给出了卷积神经网络和Transformer网络进行特征提取的简单实现过程,更为详细的实现过程可以参见前述图5和图7所示实施例的相关描述,在此不作赘述。本申请实施例通过卷积神经网络的较好的局部性以及Transformer网络(或注意力机制)较好地全局性相结合,使得透明底提取模型的感受野可以覆盖整个第i个样本图像,更好地提取第i个样本图像的特征信息,加强对图像语义的理解。
s22:调用对象识别模块基于特征信息对第i个样本图像进行第一阶对象识别处理,得到预测初始蒙版图像,并对预测初始蒙版图像进行第二阶对象识别处理,得到预测目标蒙版图像。
s23:根据预测目标蒙版图像和特征信息,从第i个样本图像中提取第i个图像对应的预测背景图像、预测前景图像和预测透明底图像。
步骤s22-s23中,正如前述所描述的,本申请实施例提供的透明底提取模型支持多阶段输出,包括但不限于:第一阶段输出、第二阶段输出和第三阶段输出;其中,第一阶段输出和第二阶段输出是由透明底提取模型所包含的对象识别模块(即图像分割模块)输出的,第三阶段输出是透明底提取模型最终输出的。此实现方式下,本申请实施例提供的透明底提取模型可以包括多个对象识别模块,分别包括与第一阶段输出对应的第一阶对象识别模块,以及,与第二阶段输出对应的第二阶对象识别模块。进一步的,通过第一阶对象识别模块实现的第一阶段输出的是预测初始蒙版图像,该预测初始蒙版图像是粗糙的二值图像;具体可以理解为第i个样本图像的整个前景的粗糙蒙版,在该预测初始蒙版图像中将第i个样本图像的前景和背景大致分开。通过第二阶对象识别模块实现的第二阶段输出的目标蒙版图像,该目标蒙版图像是相比于预测初始蒙版图像更为精细的二值图像,即该目标蒙版图像在第一阶段输出的预测初始蒙版图像的基础上进行了细化,目标蒙版图像中标示的关注对象的边界清晰度,大于预测初始蒙版图像中标示的关注对象的边界清晰度。通过整个透明底提取模型可以实现最后一个阶段的输出,该最后一个阶段输出的输出结果可以包括:精确的包含关注对象的透明底图像,预测背景图像,以及预测前景图像。
由此可见,本申请实施例提供的透明底提取模型通过多阶段的输出,使得输出结果逐步细化,具体是包含关注对象的图像逐步细化,引导透明底提取模型更加有效的监督学习,最终得到高精细度的透明底图像。一方面,基于上述第一阶段输出的预测初始蒙版图像和第二阶段输出的预测目标蒙版图像后,可以实现在预测目标蒙版图像中较为清晰地标示出了关注对象所在位置(如关注对象在第i个样本图像中所占区域);也就是说,通过第一阶段和第二阶段输出的蒙版图像可以使得透明底提取模型,对于关注对象所在区域的定位更加准确,避免主体区域的丢失或不明确。另一方面。基于该预测目标蒙版图像和特征信息,从第i个样本图像中提取出第三阶段的输出结果;该第三阶段的输出结果可以包括:精确地包含关注对象的预测透明底图像、预测背景图像和预测前景图像;这样,通过第三阶段的预测前景图像、预测背景图像、预测透明底图像的输出,可以使透明底提取模型进一步理解第i个样本图像的语义信息以及透明底提取任务的本质,提高透明度提取的准确性,使得结果更加鲁棒。值得注意的是,本申请实施例对第三阶段的输出结果不作限定,只需输出结果中至少包括包含关注对象的预测透明底图像即可;但输出结果包括上述的多个预测图像时,能够更好地利用多个预测图像和相应的训练图像进行损失计算,以更好地实现对透明底提取模型的训练;因此,在实际应用中,模型训练人员可以按照业务需求自定义第三阶段的输出结果,对此不作限定。
S903、基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息;并按照损失信息的减小方向,对透明底提取模型进行训练,得到训练后的透明底提取模型。
正如前述所描述的,透明底提取模型的训练目标是能够从图像中精准地提取出包含关注对象的透明底图像;因此,在得到第i个样本图像对应的预测透明底图像、预测背景图像和预测前景图像后,还需要分别计算预测透明底图像与第i个样本图像对应的训练透明底图像之间的差异信息,计算预测前景图像与第i个样本图像对应的训练前景图像之间的差异信息,以及计算预测背景图像与第i个样本图像对应的训练背景图像之间的差异信息,以便于基于三个差异信息计算整个透明底提取模型的损失信息;从而基于损失信息可以对透明底提取模型的模型参数进行优化,通过不断调整透明底提取模型的模型参数,使得最终训练好的透明底提取模型能够准确地从目标图像中提取出包含关注对象的透明底图像。
进一步的,本申请实施例支持多阶段输出,那么本申请实施例在计算透明底提取模型的损失信息时,还支持对透明底提取模型的多阶段输出进行监督学习,使得透明底提取模型更加关注感兴趣区域(即关注对象所在区域),在推理过程逐渐细化,有效地提高了透明底提取模型对于透明底的提取的准确性。具体实现中,支持获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像;其中,第一训练蒙版图像与第一阶段输出的预测初始蒙版图像相对应,第二训练蒙版图像与第二阶段输出的预测目标蒙版图像相对应,预测图像与输入的第i个样本图像相对应。此实现方式下,上述提及的基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息的具体实施过程可以包括:基于第一训练蒙版图像和预测初始蒙版图像之间的差异信息,第二训练蒙版图像和预测目标蒙版图像之间的差异信息,预测图像和第i个样本图像之间的差异信息,基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息。
本申请实施例用于计算透明底提取模型的损失信息的损失函数如下:
L=Lalpha+Lfg+Lbg+Lce+Lcomp (3)
其中:①Lalpha表示透明底提取模型对第i个样本图像预测得到的预测透明底图像,与第i个样本图像的真实透明底图像(即第i个样本图像对应的训练透明底图像)之间的损失(即差异)。②Lfg表示透明底提取模型对第i个样本图像预测得到的预测前景图像与第i个样本图像的真实前景图像(即第i个样本图像对应的训练前景图像)之间的损失。③Lbg透明底提取模型对第i个样本图像预测得到的预测背景图像,与第i个样本图像的真实背景图像(即第i个样本图像对应的训练背景图像)之间的损失。
④Lce表示对象识别模块输出的蒙版图像和训练蒙版图像之间的损失,具体是将对象识别模块输出的蒙版图像与真实透明底图像(即训练透明底图像)形态学后处理得到的二值图像,进行计算所得到交叉熵损失。在多阶段输出场景中,此处的训练蒙版图像可以包括第一训练蒙版图像和第二训练蒙版图像。其中,第一训练蒙版图像和第二训练蒙版图像是对正确的透明底图像(即第i个样本图像对应的训练透明底图像)经过膨胀等形态学处理之后,并将像素值非0区域转化为1得到的二值图像。获取第一训练蒙版图像和第二训练蒙版图像的具体实施过程可以包括:对第i个样本图像对应的训练透明度图像进行第一阶对象识别处理(即采用与第一个MaskNet模块相同膨胀率进行对象识别处理,并将处理结果转换为二值图像的过程),得到第一训练蒙版图像;对第一训练蒙版图像进行第二阶对象识别处理(即采用与第二个MaskNet模块相同膨胀率进行对象识别处理,并将处理结果转换为二值图像的过程),得到第二训练蒙版图像。
⑤Lcomp表示预测图像与第i个样本图像之间的损失。其中,预测图像的生成过程可以包括:将透明底提取模型输出的预测透明底图像,与第i个样本图像对应的训练前景图像和训练背景图像进行融合,得到预测图像。换句话说,Lco mp是透明底提取模型输出的预测透明底图像,与真实前景图像(第i个样本图像对应的训练前景图像)和真实背景图像(第i个样本图像对应的训练背景图像),按照前述给出的公式(1)合成后,与输入的第i个样本图像之间的损失。
综上所述,通过将透明底提取模型中各个阶段的输出均计算损失并累加,使得通过第一阶段输出的粗糙蒙版图像(即预测初始蒙版图像)可以帮助透明底提取模型更好地定位关注对象的位置;通过第二阶段输出的精细蒙版(即预测目标蒙版图像)可以进一步细化关注对象的细节;通过第三阶段输出的预测背景图像、预测前景图像和预测透明底图像,分别与真实结果之间的损失,来对透明底提取模型的模型参数进行优化,从而使得训练好的透明底提取模型能够得到更加准确的预测结果。
S904、重新从训练图像集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的透明底图像进行迭代训练,直至透明底提取模型趋于稳定为止。
可以理解的是,从训练图像集合中选取第i+1个样本图像后,采用第i+1个样本图像对更新后的透明底提取模型进行训练的具体实施过程,是与采用第i个样本图像对透明底提取模型进行训练的具体实施过程相同的;具体可参见前述步骤S902-S903所示的具体实施过程的相关描述,在此不作赘述。
通过前述步骤S901-S904所示的具体实施过程,可以实现采用有监督学习的方式训练得到性能较优的透明底提取模型。在模型训练过程中,本申请实施例支持在模型训练参数初始化方面,透明底提取模型中特征提取模块(如卷积神经网络CNN和Transformer网络)使用在数据集(如ImageNet)上预训练后得到的模型参数,其余模型参数为随机初始化,即相当于有一部分的先验信息;这样通过预训练方式可以帮助透明底提取模型加快收敛,并且可以在有限的数据集下得到更好的训练效果。并且,本申请实施例支持将透明底提取模型的初始学习率设置为1e-4(或其他),且使用CosineAnnealing学习率下降方式,使用Adam优化器等等,本申请实施例对此不作限定。
S905、获取待处理的目标图像,并调用训练好的透明底提取模型对待处理的目标图像进行特征提取处理,得到目标图像的特征信息。
S906、基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像。
S907、根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像。
需要说明的是,步骤S905-S907所示的具体实施过程,可以参见前述图3所示实施例中步骤S301-S303所示的具体实施过程的相关描述,在此不作赘述。
本申请实施例中,一方面通过合成和数据增强处理等操作构建训练图像集合,以确保训练图像集合中包含丰富的样本图像,这样基于丰富且充足的样本图像才能训练得到性能较优的透明底提取模型。另一方面,通过卷积神经网络较好的局部性以及Transformer网络较好的全局性相结合,增强对图像的语义理解,从而更好地提取图像的整体透明度以及局部的纹理细节。又一方面,采用多阶段输出的方式引导透明底提取模型进行监督学习,逐步细化模型输出结果,可以使得透明底提取模型输出的结果更加精确。。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
图11示出了本申请一个示例性实施例提供的一种图像处理装置的结构示意图;该图像处理装置可以用于是运行于计算机设备的一个计算机程序(包括程序代码),例如该图像处理装置可以是计算机设备的应用程序;该图像处理装置可以用于执行图3以及图6所示的方法实施例中的部分或全部步骤。请参见图11,该图像处理装置包括如下单元:
处理单元1101,用于对待处理的目标图像进行特征提取处理,得到目标图像的特征信息;目标图像中包含关注对象,关注对象是指目标图像中具备透明属性的元素;目标图像的特征信息中包含关注对象中各像素点的透明度信息;
处理单元1101,还用于基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像,目标蒙版图像中标示有关注对象在目标图像中的位置信息;
处理单元1101,还用于根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像,透明底图像是指包含关注对象且图像背景的透明程度为预设值的图像。
在一种实现方式中,处理单元1101,用于对待处理的目标图像进行特征提取处理,得到目标图像的特征信息时,具体用于:
对待处理的目标图像进行浅层特征提取,得到目标图像的特征信息;
基于局部特征信息对目标图像进行深层特征提取,得到目标图像的全局特征信息;
局部特征信息和全局特征信息组成目标图像的特征信息。
在一种实现方式中,处理单元1101,用于对待处理的目标图像进行浅层特征提取,得到目标图像的特征信息时,具体用于:
对待处理的目标图像进行多种特征学习尺度的浅层特征提取,得到不同特征学习尺度的标图像的图像特征信息;
将不同特征学习尺度的目标图像的图像特征信息进行融合,以得到目标图像的特征信息。
在一种实现方式中,处理单元1101,用于基于局部特征信息对目标图像进行深层特征提取,得到目标图像的全局特征信息时,具体用于:
基于注意力机制确定目标图像中的目标检测区域,目标检测区域包含关注对象;
根据局部特征信息对目标图像中的目标检测区域进行深层特征提取,得到目标图像的全局特征信息。
在一种实现方式中,处理单元1101,用于基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像时,具体用于:
基于特征信息对目标图像进行第一阶对象识别处理,得到初始蒙版图像;
对初始蒙版图像进行第二阶对象识别处理,得到目标蒙版图像;
其中,目标蒙版图像中标示的关注对象的边界清晰度,大于初始蒙版图像中标示的关注对象的边界清晰度。
在一种实现方式中,图像处理方法通过调用训练好的透明底提取模型来执行,透明底提取模型的训练过程包括:
获取训练图像集合,训练图像集合中包含多个样本图像以及每个样本图像对应的训练背景图像、训练前景图像和训练透明底图像;
选择训练图像集合中的第i个样本图像,i为正整数;并调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个样本图像对应的预测背景图像、预测前景图像和预测透明底图像;
基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息;并按照损失信息的减小方向,对透明底提取模型进行训练,得到训练后的透明底提取模型;
重新从训练图像集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的透明底提取模型进行迭代训练,直至透明底提取模型趋于稳定为止。
在一种实现方式中,处理单元1101,用于获取训练图像集合时,具体用于:
获取初始样本图像和初始样本图像对应的训练背景图像;
对初始样本图像中的关注对象进行对象标注处理,得到初始样本图像对应的训练透明底图像;
对初始样本图像,初始样本图像对应的训练透明底图像,以及初始样本图像对应的训练背景图像进行合成,得到第一样本图像;
将第一样本图像,以及第一样本图像对应的训练背景图像、训练透明底图像和训练前景图像,添加至训练图像集合中;
其中,第一样本图像对应的训练前景图像为初始样本图像。
在一种实现方式中,处理单元1101,还用于:
对第一样本图像进行目标数据增强处理,得到第二样本图像;
以及,对第一样本图像对应的训练背景图像进行目标数据增强处理,得到第二样本图像对应的训练背景图像;对第一样本图像对应的训练前景图像进行目标数据增强处理,得到第二样本图像对应的训练前景图像;以及,对第一样本图像对应的训练透明底图像进行目标数据增强处理,得到第二样本图像对应的训练透明底图像;
将第二样本图像,以及,第二样本图像对应的训练背景图像、训练前景图像和训练透明底图像,添加至训练图像集合中;
其中,目标数据增强处理包括以下至少一种:随机旋转、增加噪声及图像翻转。
在一种实现方式中,透明底提取模型中包括第一特征提取模块、第二特征提取模块和对象识别模块,处理单元1101,用于调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个图像对应的预测背景图像、预测前景图像和预测透明底图像时,具体用于:
调用第一特征提取模块对第i个样本图像进行浅层特征提取,以及调用第二特征提取模块基于浅层特征提取所得到的局部特征信息,对第i个样本图像进行深层特征提取,得到第i个样本图像的特征信息;
调用对象识别模块基于特征信息对第i个样本图像进行第一阶对象识别处理,得到预测初始蒙版图像,并对预测初始蒙版图像进行第二阶对象识别处理,得到预测目标蒙版图像;
根据预测目标蒙版图像和特征信息,从第i个样本图像中提取第i个图像对应的预测背景图像、预测前景图像和预测透明底图像。
在一种实现方式中,处理单元1101,还用于:
获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像;
处理单元1101,还用于基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息时,具体用于:
基于第一训练蒙版图像和预测初始蒙版图像之间的差异信息,第二训练蒙版图像和预测目标蒙版图像之间的差异信息,预测图像和第i个样本图像之间的差异信息,基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息。
在一种实现方式中,处理单元1101,用于获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像时,具体用于:
对第i个样本图像对应的训练透明度图像进行第一阶对象识别处理,得到第一训练蒙版图像;对第一训练蒙版图像进行第二阶对象识别处理,得到第二训练蒙版图像;以及,
将第i个样本图像对应的预测透明底图像,和第i个样本图像对应的训练前景图像和训练背景图像进行融合,得到预测图像。
根据本申请的一个实施例,图11所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该图像处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3以及图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的图像处理装置,以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例中,支持对待处理的目标图像进行特征提取处理,得到目标图像的特征信息,该特征信息中包含目标图像中的关注对象中各像素点的透明度信息;通过对目标图像进行特征提取处理,可以增强对目标图像的语义理解。进一步的,还基于特征提取处理得到的特征信息对目标图像进行对象识别处理(或称为图像分割识别等),得到目标蒙版图像;该目标蒙版图像中标示了关注对象在目标图像中的位置信息,即目标蒙版图像可以理解为是关于关注对象的二值图像,该二值图像中除关注对象所在区域的各像素点取值为0,以提高对关注对象所在区域的关注程度,避免关键区域(即关注对象所在区域)的丢失。最后,根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取出包含关注对象的透明底图像。通过上述方案,能够基于特征提取和对象识别就可以实现关注对象的透明度有效提取,而无需额外的辅助操作,不仅提高透明度提取的简便性和快捷性,而且能够确保关注对象的透明度提取的准确性。
图12示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图12,该计算机设备包括处理器1201、通信接口1202以及计算机可读存储介质1203。其中,处理器1201、通信接口1202以及计算机可读存储介质1203可通过总线或者其它方式连接。其中,通信接口1202用于接收和发送数据。计算机可读存储介质1203可以存储在计算机设备的存储器中,计算机可读存储介质1203用于存储计算机程序,计算机程序包括程序指令,处理器1201用于执行计算机可读存储介质1203存储的程序指令。处理器1201(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的处理系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,该计算机设备可以是前述实施例提到的终端或服务器;该计算机可读存储介质中存储有一条或多条指令;由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现上述图像处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
对待处理的目标图像进行特征提取处理,得到目标图像的特征信息;目标图像中包含关注对象,关注对象是指目标图像中具备透明属性的元素;目标图像的特征信息中包含关注对象中各像素点的透明度信息;
基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像,目标蒙版图像中标示有关注对象在目标图像中的位置信息;
根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取包含关注对象的透明底图像,透明底图像是指包含关注对象且图像背景的透明程度为预设值的图像。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行对待处理的目标图像进行特征提取处理,得到目标图像的特征信息时,具体执行如下步骤:
对待处理的目标图像进行浅层特征提取,得到目标图像的特征信息;
基于局部特征信息对目标图像进行深层特征提取,得到目标图像的全局特征信息;
局部特征信息和全局特征信息组成目标图像的特征信息。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行对待处理的目标图像进行浅层特征提取,得到目标图像的特征信息时,具体执行如下步骤:
对待处理的目标图像进行多种特征学习尺度的浅层特征提取,得到不同特征学习尺度的标图像的图像特征信息;
将不同特征学习尺度的目标图像的图像特征信息进行融合,以得到目标图像的特征信息。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行基于局部特征信息对目标图像进行深层特征提取,得到目标图像的全局特征信息时,具体执行如下步骤:
基于注意力机制确定目标图像中的目标检测区域,目标检测区域包含关注对象;
根据局部特征信息对目标图像中的目标检测区域进行深层特征提取,得到目标图像的全局特征信息。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行基于特征信息对目标图像进行对象识别处理,得到目标蒙版图像时,具体执行如下步骤:
基于特征信息对目标图像进行第一阶对象识别处理,得到初始蒙版图像;
对初始蒙版图像进行第二阶对象识别处理,得到目标蒙版图像;
其中,目标蒙版图像中标示的关注对象的边界清晰度,大于初始蒙版图像中标示的关注对象的边界清晰度。
在一种实现方式中,图像处理方法通过调用训练好的透明底提取模型来执行,透明底提取模型的训练过程包括:
获取训练图像集合,训练图像集合中包含多个样本图像以及每个样本图像对应的训练背景图像、训练前景图像和训练透明底图像;
选择训练图像集合中的第i个样本图像,i为正整数;并调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个样本图像对应的预测背景图像、预测前景图像和预测透明底图像;
基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息;并按照损失信息的减小方向,对透明底提取模型进行训练,得到训练后的透明底提取模型;
重新从训练图像集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的透明底提取模型进行迭代训练,直至透明底提取模型趋于稳定为止。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行获取训练图像集合时,具体执行如下步骤:
获取初始样本图像和初始样本图像对应的训练背景图像;
对初始样本图像中的关注对象进行对象标注处理,得到初始样本图像对应的训练透明底图像;
对初始样本图像,初始样本图像对应的训练透明底图像,以及初始样本图像对应的训练背景图像进行合成,得到第一样本图像;
将第一样本图像,以及第一样本图像对应的训练背景图像、训练透明底图像和训练前景图像,添加至训练图像集合中;
其中,第一样本图像对应的训练前景图像为初始样本图像。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并还执行如下步骤:
对第一样本图像进行目标数据增强处理,得到第二样本图像;
以及,对第一样本图像对应的训练背景图像进行目标数据增强处理,得到第二样本图像对应的训练背景图像;对第一样本图像对应的训练前景图像进行目标数据增强处理,得到第二样本图像对应的训练前景图像;以及,对第一样本图像对应的训练透明底图像进行目标数据增强处理,得到第二样本图像对应的训练透明底图像;
将第二样本图像,以及,第二样本图像对应的训练背景图像、训练前景图像和训练透明底图像,添加至训练图像集合中;
其中,目标数据增强处理包括以下至少一种:随机旋转、增加噪声及图像翻转。
在一种实现方式中,透明底提取模型中包括第一特征提取模块、第二特征提取模块和对象识别模块,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行调用透明底提取模型对第i个样本图像进行透明底提取处理,得到第i个图像对应的预测背景图像、预测前景图像和预测透明底图像时,具体执行如下步骤:
调用第一特征提取模块对第i个样本图像进行浅层特征提取,以及调用第二特征提取模块基于浅层特征提取所得到的局部特征信息,对第i个样本图像进行深层特征提取,得到第i个样本图像的特征信息;
调用对象识别模块基于特征信息对第i个样本图像进行第一阶对象识别处理,得到预测初始蒙版图像,并对预测初始蒙版图像进行第二阶对象识别处理,得到预测目标蒙版图像;
根据预测目标蒙版图像和特征信息,从第i个样本图像中提取第i个图像对应的预测背景图像、预测前景图像和预测透明底图像。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并还执行如下步骤:
获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像;
计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息时,具体执行如下步骤:
基于第一训练蒙版图像和预测初始蒙版图像之间的差异信息,第二训练蒙版图像和预测目标蒙版图像之间的差异信息,预测图像和第i个样本图像之间的差异信息,基于训练背景图像和预测背景图像之间的差异信息,训练前景图像和预测前景图像之间的差异信息,以及,训练透明底图像和预测透明底图像之间的差异信息,计算透明底提取模型的损失信息。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行获取第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像时,具体执行如下步骤:
对第i个样本图像对应的训练透明度图像进行第一阶对象识别处理,得到第一训练蒙版图像;对第一训练蒙版图像进行第二阶对象识别处理,得到第二训练蒙版图像;以及,
将第i个样本图像对应的预测透明底图像,和第i个样本图像对应的训练前景图像和训练背景图像进行融合,得到预测图像。
本申请实施例中,支持对待处理的目标图像进行特征提取处理,得到目标图像的特征信息,该特征信息中包含目标图像中的关注对象中各像素点的透明度信息;通过对目标图像进行特征提取处理,可以增强对目标图像的语义理解。进一步的,还基于特征提取处理得到的特征信息对目标图像进行对象识别处理(或称为图像分割识别等),得到目标蒙版图像;该目标蒙版图像中标示了关注对象在目标图像中的位置信息,即目标蒙版图像可以理解为是关于关注对象的二值图像,该二值图像中除关注对象所在区域的各像素点取值为0,以提高对关注对象所在区域的关注程度,避免关键区域(即关注对象所在区域)的丢失。最后,根据目标蒙版图像和关注对象中各像素点的透明度信息,从目标图像中提取出包含关注对象的透明底图像。通过上述方案,能够基于特征提取和对象识别就可以实现关注对象的透明度有效提取,而无需额外的辅助操作,不仅提高透明度提取的简便性和快捷性,而且能够确保关注对象的透明度提取的准确性。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像处理方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
对待处理的目标图像进行特征提取处理,得到所述目标图像的特征信息;所述目标图像中包含关注对象,所述关注对象是指所述目标图像中具备透明属性的元素;所述目标图像的特征信息中包含所述关注对象中各像素点的透明度信息;
基于所述特征信息对所述目标图像进行对象识别处理,得到目标蒙版图像,所述目标蒙版图像中标示有所述关注对象在所述目标图像中的位置信息;
根据所述目标蒙版图像和所述关注对象中各像素点的透明度信息,从所述目标图像中提取包含所述关注对象的透明底图像,所述透明底图像是指包含所述关注对象且图像背景的透明程度为预设值的图像。
2.如权利要求1所述的方法,其特征在于,所述对待处理的目标图像进行特征提取处理,得到所述目标图像的特征信息,包括:
对待处理的目标图像进行浅层特征提取,得到所述目标图像的特征信息;
基于所述局部特征信息对所述目标图像进行深层特征提取,得到所述目标图像的全局特征信息;
所述局部特征信息和所述全局特征信息组成所述目标图像的特征信息。
3.如权利要求2所述的方法,其特征在于,所述对待处理的目标图像进行浅层特征提取,得到所述目标图像的特征信息,包括:
对待处理的目标图像进行多种特征学习尺度的浅层特征提取,得到不同特征学习尺度的所述目标图像的图像特征信息;
将不同特征学习尺度的所述目标图像的图像特征信息进行融合,以得到所述目标图像的特征信息。
4.如权利要求2所述的方法,其特征在于,所述基于所述局部特征信息对所述目标图像进行深层特征提取,得到所述目标图像的全局特征信息,包括:
基于注意力机制确定所述目标图像中的目标检测区域,所述目标检测区域包含所述关注对象;
根据所述局部特征信息对所述目标图像中的目标检测区域进行深层特征提取,得到所述目标图像的全局特征信息。
5.如权利要求1所述的方法,其特征在于,所述基于所述特征信息对所述目标图像进行对象识别处理,得到目标蒙版图像,包括:
基于所述特征信息对所述目标图像进行第一阶对象识别处理,得到初始蒙版图像;
对所述初始蒙版图像进行第二阶对象识别处理,得到目标蒙版图像;
其中,所述目标蒙版图像中标示的所述关注对象的边界清晰度,大于所述初始蒙版图像中标示的所述关注对象的边界清晰度。
6.如权利要求1所述的方法,其特征在于,所述方法通过调用训练好的透明底提取模型来执行,所述透明底提取模型的训练过程包括:
获取训练图像集合,所述训练图像集合中包含多个样本图像以及每个样本图像对应的训练背景图像、训练前景图像和训练透明底图像;
选择所述训练图像集合中的第i个样本图像,i为正整数;并调用所述透明底提取模型对所述第i个样本图像进行透明底提取处理,得到所述第i个样本图像对应的预测背景图像、预测前景图像和预测透明底图像;
基于所述训练背景图像和所述预测背景图像之间的差异信息,所述训练前景图像和所述预测前景图像之间的差异信息,以及,所述训练透明底图像和所述预测透明底图像之间的差异信息,计算所述透明底提取模型的损失信息;并按照所述损失信息的减小方向,对所述透明底提取模型进行训练,得到训练后的透明底提取模型;
重新从所述训练图像集合中选择第i+1个样本图像,并采用所述第i+1个样本图像对所述训练后的透明底提取模型进行迭代训练,直至透明底提取模型趋于稳定为止。
7.如权利要求6所述的方法,其特征在于,所述获取训练图像集合,包括:
获取初始样本图像和所述初始样本图像对应的训练背景图像;
对所述初始样本图像中的关注对象进行对象标注处理,得到所述初始样本图像对应的训练透明底图像;
对所述初始样本图像,所述初始样本图像对应的训练透明底图像,以及所述初始样本图像对应的训练背景图像进行合成,得到第一样本图像;
将所述第一样本图像,以及所述第一样本图像对应的训练背景图像、训练透明底图像和训练前景图像,添加至训练图像集合中;
其中,所述第一样本图像对应的训练前景图像为所述初始样本图像。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
对所述第一样本图像进行目标数据增强处理,得到第二样本图像;
以及,对所述第一样本图像对应的训练背景图像进行所述目标数据增强处理,得到所述第二样本图像对应的训练背景图像;对所述第一样本图像对应的训练前景图像进行目标数据增强处理,得到所述第二样本图像对应的训练前景图像;以及,对第一样本图像对应的训练透明底图像进行目标数据增强处理,得到所述第二样本图像对应的训练透明底图像;
将所述第二样本图像,以及,所述第二样本图像对应的训练背景图像、训练前景图像和训练透明底图像,添加至所述训练图像集合中;
其中,所述目标数据增强处理包括以下至少一种:随机旋转、增加噪声及图像翻转。
9.如权利要求6所述的方法,其特征在于,所述透明底提取模型中包括第一特征提取模块、第二特征提取模块和对象识别模块,所述调用所述透明底提取模型对所述第i个样本图像进行透明底提取处理,得到所述第i个图像对应的预测背景图像、预测前景图像和预测透明底图像,包括:
调用所述第一特征提取模块对所述第i个样本图像进行浅层特征提取,以及调用所述第二特征提取模块基于浅层特征提取所得到的局部特征信息,对所述第i个样本图像进行深层特征提取,得到所述第i个样本图像的特征信息;
调用所述对象识别模块基于所述特征信息对所述第i个样本图像进行第一阶对象识别处理,得到预测初始蒙版图像,并对所述预测初始蒙版图像进行第二阶对象识别处理,得到预测目标蒙版图像;
根据所述预测目标蒙版图像和所述特征信息,从所述第i个样本图像中提取所述第i个图像对应的预测背景图像、预测前景图像和预测透明底图像。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
获取所述第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像;
所述基于所述训练背景图像和所述预测背景图像之间的差异信息,所述训练前景图像和所述预测前景图像之间的差异信息,以及,所述训练透明底图像和所述预测透明底图像之间的差异信息,计算所述透明底提取模型的损失信息,包括:
基于所述第一训练蒙版图像和所述预测初始蒙版图像之间的差异信息,所述第二训练蒙版图像和所述预测目标蒙版图像之间的差异信息,所述预测图像和所述第i个样本图像之间的差异信息,基于所述训练背景图像和所述预测背景图像之间的差异信息,所述训练前景图像和所述预测前景图像之间的差异信息,以及,所述训练透明底图像和所述预测透明底图像之间的差异信息,计算所述透明底提取模型的损失信息。
11.如权利要求10所述的方法,其特征在于,所述获取所述第i个样本图像对应的第一训练蒙版图像、第二训练蒙版图像和预测图像,包括:
对所述第i个样本图像对应的训练透明度图像进行第一阶对象识别处理,得到第一训练蒙版图像;对所述第一训练蒙版图像进行第二阶对象识别处理,得到第二训练蒙版图像;以及,
将所述第i个样本图像对应的预测透明底图像,和所述第i个样本图像对应的训练前景图像和训练背景图像进行融合,得到预测图像。
12.一种图像处理装置,其特征在于,包括:
处理单元,用于对待处理的目标图像进行特征提取处理,得到所述目标图像的特征信息;所述目标图像中包含关注对象,所述关注对象是指所述目标图像中具备透明属性的元素;所述目标图像的特征信息中包含所述关注对象中各像素点的透明度信息;
所述处理单元,还用于基于所述特征信息对所述目标图像进行对象识别处理,得到目标蒙版图像,所述目标蒙版图像中标示有所述关注对象在所述目标图像中的位置信息;
所述处理单元,还用于根据所述目标蒙版图像和所述关注对象中各像素点的透明度信息,从所述目标图像中提取包含所述关注对象的透明底图像,所述透明底图像是指包含所述关注对象且图像背景的透明程度为预设值的图像。
13.一种计算机设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-11任一项所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机应用程序,所述计算机应用程序被执行时,实现如权利要求1-11任一项所述的图像处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-11任一项所述的基于区块链的进程处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211513005.5A CN117011416A (zh) | 2022-11-25 | 2022-11-25 | 一种图像处理方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211513005.5A CN117011416A (zh) | 2022-11-25 | 2022-11-25 | 一种图像处理方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011416A true CN117011416A (zh) | 2023-11-07 |
Family
ID=88575067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211513005.5A Pending CN117011416A (zh) | 2022-11-25 | 2022-11-25 | 一种图像处理方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011416A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115622A (zh) * | 2024-04-28 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 图像生成模型的处理方法、装置、设备、存储介质及产品 |
-
2022
- 2022-11-25 CN CN202211513005.5A patent/CN117011416A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115622A (zh) * | 2024-04-28 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 图像生成模型的处理方法、装置、设备、存储介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402143B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN111738280A (zh) | 一种图像识别方法、装置、设备及可读存储介质 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN113642585B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112989085A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN114282013A (zh) | 一种数据处理方法、装置及存储介质 | |
US20230153965A1 (en) | Image processing method and related device | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN117011416A (zh) | 一种图像处理方法、装置、设备、介质及程序产品 | |
CN117094362B (zh) | 一种任务处理方法及相关装置 | |
JP7479507B2 (ja) | 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム | |
CN115439726B (zh) | 一种图像检测方法、装置、设备及存储介质 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
CN114282543A (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN116129279B (zh) | 图像处理方法、装置、设备及介质 | |
CN112966569B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
US20230394633A1 (en) | Image processing method and apparatus, computer device, storage medium, and program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |