CN115359088A - 一种图像处理方法及装置 - Google Patents
一种图像处理方法及装置 Download PDFInfo
- Publication number
- CN115359088A CN115359088A CN202211273017.5A CN202211273017A CN115359088A CN 115359088 A CN115359088 A CN 115359088A CN 202211273017 A CN202211273017 A CN 202211273017A CN 115359088 A CN115359088 A CN 115359088A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- matrix
- layer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 176
- 238000000605 extraction Methods 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 105
- 230000011218 segmentation Effects 0.000 claims abstract description 92
- 239000011159 matrix material Substances 0.000 claims description 490
- 230000004913 activation Effects 0.000 claims description 50
- 230000008569 process Effects 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 15
- 238000003491 array Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 16
- 210000004209 hair Anatomy 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000001508 eye Anatomy 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 101100247599 Hordeum vulgare RCAB gene Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像处理方法以及相关装置。本申请实施例可应用于人工智能、智慧交通、辅助驾驶等各种场景。其方法包括:首先,获取包括抠图目标待处理图像;接着,通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像;然后,通过第一目标分割网络对M个特征图像进行处理,得到第一图像;并且,通过第二目标分割网络对M个特征图像进行处理,得到第二图像;最后,根据第一图像及第二图像,生成包括抠图目标的目标抠图图像。本申请提供的方法通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像处理方法及装置。
背景技术
随着计算机视觉的发展,越来越多的场合需要对图像进行分析处理,以实现从图像中获取需要的信息。例如,在人物照片处理时,需要通过抠图的方式,将人物从拍摄得到的人物照片中提取出来,通过抠取出的人物合成新的照片或者更换拍摄照片中人物的背景。
目前,图像抠图(Image matting)分为两类,一类是基于三元图(trimap)的抠图方法,另一类是无三元图(trimap-free)的抠图方法。基于三元图抠图方法所采用的算法需要人为标注来实现精细化抠图,无法实现全自动化的精细化抠图。无三元图的抠图方法包括两个阶段,第一阶段用分割网络产生一个粗糙分割图,第二阶段对分割图进行细化得到抠图结果;然而,在第一阶段产生的错误分割会影响第二阶段的图像细化,降低抠图结果的准确性及抠图结果的精细程度。
发明内容
本申请实施例提供了一种图像处理方法以及相关装置,通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
本申请的一方面提供一种图像处理方法,包括:
获取待处理图像,其中,待处理图像包括抠图目标;
通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像,其中,金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出,M为大于等于1的整数;
通过第一目标分割网络对M个特征图像进行处理,得到第一图像,其中,第一图像包括第一前景区域、第一背景区域及待确认区域,第一前景区域对应于抠图目标所对应的区域,待确认区域为第一前景区域与第一背景区域的交叠区域;
通过第二目标分割网络对M个特征图像进行处理,得到第二图像,其中,第二图像包括第二前景区域及第二背景区域,第二前景区域对应于抠图目标所对应的区域;
根据第一图像及第二图像,生成目标抠图图像,其中,目标抠图图像包括抠图目标。
本申请的另一方面提供了一种图像处理装置,包括:
图像获取模块,用于获取待处理图像,其中,待处理图像包括抠图目标;
特征提取模块,用于通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像,其中,金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出,M为大于等于1的整数;
第一解码模块,用于通过第一目标分割网络对M个特征图像进行处理,得到第一图像,其中,第一图像包括第一前景区域、第一背景区域及待确认区域,第一前景区域对应于抠图目标所对应的区域,待确认区域为第一前景区域与第一背景区域的交叠区域;
第二解码模块,用于通过第二目标分割网络对M个特征图像进行处理,得到第二图像,其中,第二图像包括第二前景区域及第二背景区域,第二前景区域对应于抠图目标所对应的区域;
抠图图像生成模块,用于根据第一图像及第二图像,生成目标抠图图像,其中,目标抠图图像包括抠图目标。
在本申请实施例的另一种实现方式中,第一目标分割网络包括M个残差通道注意力层及特征融合层;第一解码模块,还用于:
通过M个残差通道注意力层对M个特征图像进行处理,输出M个注意力矩阵;
通过特征融合层对M个注意力矩阵中的K个注意力矩阵进行处理,得到第一矩阵,其中,K为小于M的整数;
根据第一矩阵生成第一图像。
在本申请实施例的另一种实现方式中,每个特征图像对应于一个特征矩阵;第一解码模块,还用于:
将第i个特征矩阵及第i-1个特征矩阵作为第i个残差通道注意力层的输入,通过第i个残差通道注意力层输出第i个注意力矩阵,其中,第i个特征矩阵对应于第i个特征图像,第i-1个特征矩阵对应于第i-1个特征图像,i为大于1且小于M的整数;
将第j个特征矩阵作为第j个残差通道注意力层的输入,通过第j个残差通道注意力层输出第j个注意力矩阵,其中,第j个特征矩阵对应于第j个特征图像,j为1或M。
在本申请实施例的另一种实现方式中,第一目标分割网络还包括计数器,计数器用于统计残差通道注意力层对特征图像的处理次数T,T为大于等于1的整数;M个特征图像对应M个特征矩阵;第一解码模块,还用于:
获取计数器统计的处理次数T;
当处理次数小于第一阈值时,
将第一特征矩阵作为第一残差通道注意力层的输入,通过第一残差通道注意力层输出第一注意力矩阵,其中,第一特征矩阵对应于第一特征图像,第一特征图像根据金字塔特征提取网络中的第一特征提取层得到;
将第二特征矩阵及第一注意力矩阵作为第二残差通道注意力层的输入,通过第二残差通道注意力层输出第二注意力矩阵,其中,第二特征矩阵对应于第二特征图像,第二特征图像根据金字塔特征提取网络中的第二特征提取层得到;
将第三特征矩阵及第二注意力矩阵作为第三残差通道注意力层的输入,通过第三残差通道注意力层输出第三注意力矩阵,其中,第三特征矩阵对应于第三特征图像,第三特征图像根据金字塔特征提取网络中的第三特征提取层得到;
将第四特征矩阵作为第四残差通道注意力层的输入,通过第四残差通道注意力层输出第四注意力矩阵,其中,第四特征矩阵对应于第四特征图像,第四特征图像根据金字塔特征提取网络中的第四特征提取层得到。
在本申请实施例的另一种实现方式中,第一解码模块,还用于:
当处理次数T大于等于第一阈值且小于第二阈值时,
将第一特征矩阵及第三注意力矩阵,作为第一残差通道注意力层的输入,通过第一残差通道注意力层输出第五注意力矩阵;
将第二特征矩阵及第五注意力矩阵,作为第二残差通道注意力层的输入,通过第二残差通道注意力层输出第六注意力矩阵;
将第三特征矩阵、第三注意力矩阵及第六注意力矩阵,作为第三残差通道注意力层的输入,通过第三残差通道注意力层输出第七注意力矩阵。
在本申请实施例的另一种实现方式中,第一解码模块,还用于:
当处理次数等于第二阈值时,通过特征融合层对第四注意力矩阵及第七注意力矩阵进行处理,得到第一矩阵。
在本申请实施例的另一种实现方式中,第一解码模块,还用于:
对第四注意力矩阵进行特征提取,得到第一特征向量;
对第一特征向量进行特征值提取,得到第一特征值;
通过激活函数,对第一特征向量进行处理,得到第一激活向量;
对第七注意力矩阵进行特征提取,得到第二特征向量;
对第二特征向量进行特征值提取,得到第二特征值;
通过激活函数,对第二特征向量进行处理,得到第二激活向量;
根据第四注意力矩阵、第一激活向量、第一特征值、第七注意力矩阵、第二激活向量及第二特征值,生成第一矩阵。
在本申请实施例的另一种实现方式中,第二目标分割网络包括M+1个卷积层;M个特征图像对应M个特征矩阵;第二解码模块,还用于:
将第一特征矩阵作为第一卷积层的输入,通过第一卷积层输出第一卷积矩阵,其中,第一特征矩阵对应于第一特征图像,第一特征图像根据金字塔特征提取网络中的第一特征提取层得到;
将第二特征矩阵及第一卷积矩阵作为第二卷积层的输入,通过第二卷积层输出第二卷积矩阵,其中,第二特征矩阵对应于第二特征图像,第二特征图像根据金字塔特征提取网络中的第二特征提取层得到;
将第三特征矩阵及第二卷积矩阵作为第三卷积层的输入,通过第三卷积层输出第三卷积矩阵,其中,第三特征矩阵对应于第三特征图像,第三特征图像根据金字塔特征提取网络中的第三特征提取层得到;
将第四特征矩阵及第三卷积矩阵作为第四卷积层的输入,通过第四卷积层输出第四卷积矩阵,其中,第四特征矩阵对应于第四特征图像,第四特征图像根据金字塔特征提取网络中的第四特征提取层得到;
将第四卷积矩阵作为第五卷积层的输入,通过第五卷积层输出第五卷积矩阵;
根据第五卷积矩阵生成第二图像。
在本申请实施例的另一种实现方式中,待处理图像的分辨率为R,其中,R为大于1的整数,特征提取模块,还用于:
通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像,包括:
根据第四特征提取层对待处理图像进行处理,得到第四特征图像,其中,第四特征图像的分辨率为R/4;
根据第三特征提取层对第四特征图像进行处理,得到第三特征图像,其中,第三特征图像的分辨率为R/8;
根据第二特征提取层对第三特征图像进行处理,得到第二特征图像,其中,第二特征图像的分辨率为R/16;
根据第一特征提取层对第二特征图像进行处理,得到第一特征图像,其中,第一特征图像的分辨率为R/32。
在本申请实施例的另一种实现方式中,抠图图像生成模块,还用于根据第一图像的像素点与第二图像的像素点的乘积,得到目标抠图图像。
本申请的另一方面提供了一种计算机设备,包括:
存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,包括执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供了一种图像处理方法以及相关装置,其方法包括:首先,获取待处理图像,其中,待处理图像包括抠图目标;接着,通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像,其中,金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出;然后,通过第一目标分割网络对M个特征图像进行处理,得到第一图像,其中,第一图像包括第一前景区域、第一背景区域及待确认区域,第一前景区域对应于抠图目标所对应的区域,待确认区域为第一前景区域与第一背景区域的交叠区域;并且,通过第二目标分割网络对M个特征图像进行处理,得到第二图像,其中,第二图像包括第二前景区域及第二背景区域,第二前景区域对应于抠图目标所对应的区域;最后,根据第一图像及第二图像,生成目标抠图图像,其中,目标抠图图像包括抠图目标。本申请实施例提供的方法通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
附图说明
图1为本申请某一实施例提供的图像处理系统的一个架构示意图;
图2为本申请某一实施例提供的图像处理方法的流程图;
图3(a)为本申请某一实施例提供的第一图像的示意图;
图3(b)为本申请某一实施例提供的第二图像的示意图;
图3(c)为本申请某一实施例提供的生成的目标抠图图像的示意图;
图4为本申请另一实施例提供的图像处理方法的流程图;
图5为本申请另一实施例提供的图像处理方法的流程图;
图6为本申请另一实施例提供的图像处理方法的流程图;
图7为本申请另一实施例提供的图像处理方法的流程图;
图8为本申请另一实施例提供的图像处理方法的流程图;
图9为本申请某一实施例提供的根据第一目标分割矩阵进行图像处理的示意图;
图10为本申请另一实施例提供的图像处理方法的流程图;
图11为本申请某一实施例提供的特征融合过程的示意图;
图12为本申请另一实施例提供的图像处理方法的流程图;
图13为本申请某一实施例提供的根据第二目标分割矩阵进行图像处理的示意图;
图14为本申请又一实施例提供的图像处理方法的流程图;
图15为本申请某一实施例提供的通过金字塔特征提取网络对待处理图像进行处理的示意图;
图16为本申请某一实施例提供的图像处理方法的示意图;
图17为本申请某一实施例提供的自适应特征模块的结构的示意图;
图18为本申请某一实施例提供的图像处理方法结果对比图;
图19为本申请某一实施例提供的图像处理装置的结构示意图;
图20为本申请某一实施例提供的服务器结构示意图。
具体实施方式
本申请实施例提供了一种图像处理方法,通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
三元图: 也称三分图(trimap),是指按照像素将图像划分为三种区域,三种区域包括前景区域、背景区域和待确认区域,通常以白色显示前景区域,黑色显示背景区域,灰色显示待确认区域。三元图可以通过牺牲大量劳力,人为精细化标注而获得。
trimap-free:是指无需使用三元图(trimap)的进行图像抠图的过程。
Encoder: 神经网络的特征编码器。
Decoder: 神经网络的特征解码器。
图像抠图是通过预测图像中待抠图的目标对象的像素级透明度来分离前景区域和背景区域。通过牺牲大量劳力地人为精细化标注而获得的抠图算法,存在人工繁琐且耗时耗力的问题。肖像抠图是图像抠图中的一种常见的方式,肖像抠图是指输入图像是肖像的特定图像抠图任务,例如,在影视作品中对人像进行地绿幕抠图,在视频会议中,分离人像与背景以对背景进行更换等场景。
图像抠图可以分为两类,一类是基于三元图(trimap)的抠图方法,另一类是无三元图(trimap-free)的抠图方法。基于三元图(trimap)的抠图方法,是将用户定义的trimap作为辅助输入,为待确认区域提供明确的指导。例如,基于alpha学习任务的人像抠图方法,将待处理的人像图和对应的trimap先验标注信息作为模型的输入数据,模型基于trimap先验标注信息对待确认区域进行进一步的细化,以得到抠图人像,这种方式需要人为标注来实现精细化抠图,无法实现全自动化的精细化抠图。
为了摆脱人为介入,实现全自动人像图抠图,直接通过待处理的人像图以预测前景区域,而不使用任何辅助输入,也称这种方法为无三元图(trimap-free)的抠图方法。无三元图的抠图方法包括两个连续阶段,第一阶段用分割网络产生一个粗糙分割图,第二阶段基于分割图生产细化后的抠图结果。然而,第二阶段对于第一阶段的产生的粗糙分割图的依赖性较高,若在第一阶段产生的语义错误会误导第二阶段(抠图阶段),并且很难纠正,从而导致了抠图结果的错误率较高。
本发明实施例提供一种图像处理方法,基于多任务学习的trimap-free模型在预测时,实现全自动且并行化处理图像分割任务和抠图任务,模型在训练时,分割任务和抠图任务相互促进,提高各自任务的精度,从而提高模型抠图的准确性及精细度。
为了便于理解,请参阅图1,图1为本申请实施例中图像处理方法的应用环境图,如图1所示,本申请实施例中图像处理方法应用于图像处理系统。图像处理系统包括:服务器和终端设备。图像处理装置可以部署在服务器,也可以部署在终端设备,本申请实施例以部署在服务器为例进行介绍,而这不应该理解为对本申请的限定。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
服务器首先,获取待处理图像,其中,待处理图像包括抠图目标;接着,服务器通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像,其中,金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出;然后,服务器通过第一目标分割网络对M个特征图像进行处理,得到第一图像,其中,第一图像包括第一前景区域、第一背景区域及待确认区域,第一前景区域对应于抠图目标所对应的区域,待确认区域为第一前景区域与第一背景区域的交叠区域;并且,服务器通过第二目标分割网络对M个特征图像进行处理,得到第二图像,其中,第二图像包括第二前景区域及第二背景区域,第二前景区域对应于抠图目标所对应的区域;最后,服务器根据第一图像及第二图像,生成目标抠图图像,其中,目标抠图图像包括抠图目标。本申请实施例提供的方法通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
下面将从服务器的角度,对本申请中图像处理方法进行介绍。请参阅图2,本申请实施例提供的图像处理方法包括:步骤S110至步骤S150。需要说明的是,步骤S130与步骤S140为并列步骤,在实际执行时,步骤S130与步骤S140并无先后执行顺序。具体的:
S110、获取待处理图像。
其中,待处理图像包括抠图目标。
可以理解的是,获取到的待处理图像可以是通过有线网络或无线网络接收到的图像,还可以是服务器内本身存储的图像。具体的,待处理图像可以是风景图像、人物图像、医学图像及地理图像。以待处理的图像为人物图像为例,抠图目标可以是人物图像中的头发、嘴巴、眼睛、鼻子、眉毛或耳朵中的一种或多种。以待处理图像为风景图像为例,抠图目标可以是风景图像中的树木、花草或建筑中的一种或多种。以待处理的图像为医学图像为例,抠图目标可以是医学图像中的细胞、骨骼或内脏中的一种或多种。
S120、通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像。
其中,金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出,M为大于等于1的整数。
需要说明的是,金字塔特征提取网络可以理解为是将一副图像经过M次特征提取得到的M副特征提取图像以金字塔形状进行排列,第一次特征提取的输入为原始图像,随后的每次特征提取的输入均为上一次特征提取的输出,即可以理解为,通过梯次向下采样获得,直到达到某个终止条件才会停止采样。金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。本申请实施例将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。
可以理解的是,将一张待处理图像作为金字塔特征提取网络的输入,通过金字塔特征提取网络中的M层特征提取层,输出M张特征提取图像,且M张特征提取图像的分辨率各不相同。
S130、通过第一目标分割网络对M个特征图像进行处理,得到第一图像。
其中,第一图像包括第一前景区域、第一背景区域及待确认区域,第一前景区域对应于抠图目标所对应的区域,待确认区域为第一前景区域与第一背景区域的交叠区域。
可以理解的是,第一目标分割网络可以包括三元图图像分割层,通过三元图图像分割网络对M个特征图像进行处理后,经过特征融合得到第一图像。经过第一目标分割网络得到的第一图像。
为便于理解,请参阅图3(a),图3(a)为本申请实施例提供的第一图像的示意图,其中a1为第一前景区域,a2为第一背景区,a3为待确认区域。本申请实施例以人物作为抠图目标,其中,头发丝是最难进行抠图的特征,将不含或者含有少量头发丝的人物特征作为第一前景区域,将不含人物特征的部分作为第一背景区域,将含有头发丝的且无法将头发丝精细分割的部分作为待确认区域。
S140、通过第二目标分割网络对M个特征图像进行处理,得到第二图像。
其中,第二图像包括第二前景区域及第二背景区域,第二前景区域对应于抠图目标所对应的区域。
可以理解的是,通过将M个特征图像作为第二目标分割网络的输入,通过第二目标分割网络输出第二图像,第二目标分割网络包括M+1个处理层,其中,第一个处理层的输入为一个特征图像,其后的M-1个处理层的输入为上一层的输出和一个特征图像,最后的M+1处理层的输入为第M层的输出。
为便于理解,请参阅图3(b),图3(b)为本申请实施例提供的第二图像的示意图,其中b1为第二前景区域,b2为第二背景区域。本申请实施例以人物作为抠图目标,其中,头发丝是最难进行抠图的特征,将含有人物全部特征的区域集含有部分非人物特征的区域作为第二前景区域,将含有少理想到人物特征及部分不含有人物特征的区域作为第二背景区域。
S150、根据第一图像及第二图像,生成目标抠图图像。
其中,目标抠图图像包括抠图目标。
可以理解的是,将第一图像及第二图像进行合并,生成目标抠图图像,目标抠图图像中包括抠图目标,完成图像处理。
为便于理解,请参阅图3(c),图3(c)为根据图3(a)对应的第一图像及图3(b)对应的第二图像,生成的目标抠图图像的示意图。从图3(c)中可以看出,目标抠图图像中完全且仅仅包括人物的全部特征,并且在头发丝处进行了精细分割。
本申请实施例提供的方法,通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
在本申请的图2对应的实施例提供的图像处理方法的一个可选实施例中,第一目标分割网络包括M个残差通道注意力层及特征融合层;请参阅图4,步骤S130包括子步骤S1301至子步骤S1305。具体的:
S1301、通过M个残差通道注意力层对M个特征图像进行处理,输出M个注意力矩阵。
可以理解的是,将M个特征图像作为M个残差通道注意力层的输入,且保证每个残差通道注意力层输入一个特征图像,每个残差通道注意力层输入的特征图像各不相同,通过M个残差通道注意力层输出M个注意力矩阵,M个注意力矩阵与M个特征图像对应。
S1303、通过特征融合层对M个注意力矩阵中的K个注意力矩阵进行处理,得到第一矩阵。
其中,K为小于M的整数。
可以理解的是,从M个注意力矩阵中确定K个注意力矩阵,将K个注意力矩阵进行特征融合得到第一矩阵,具体的将K个注意力矩阵进行矩阵拼接得到第一矩阵。
S1305、根据第一矩阵生成第一图像。
可以理解的是,矩阵即是图像的一种表示方式。
本申请实施例提供的方法,通过第一目标分割网络包括M个残差通道注意力层对M个特征图像进行处理,并根据得到的M个注意力矩阵中的K个注意力矩阵进行特征融合,生成第一图像,提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度。
在本申请的图4对应的实施例提供的图像处理方法的一个可选实施例中,每个特征图像对应于一个特征矩阵;请参阅图5,子步骤S1301包括子步骤S3011至S3013。具体的:
S3011、将第i个特征矩阵及第i-1个特征矩阵作为第i个残差通道注意力层的输入,通过第i个残差通道注意力层输出第i个注意力矩阵。
其中,第i个特征矩阵对应于第i个特征图像,第i-1个特征矩阵对应于第i-1个特征图像,i为大于1且小于M的整数。
S3013、将第j个特征矩阵作为第j个残差通道注意力层的输入,通过第j个残差通道注意力层输出第j个注意力矩阵。
其中,第j个特征矩阵对应于第j个特征图像,j为1或M。
可以理解的是,图像可以以矩阵的形式进行表示,故每个特征图像对应一个特征矩阵。以M为4为例,由于i大于1且小于M,则i的取值为2或3,j的取值为1或4。当j等于1时,将第一个特征矩阵作为第一个残差通道注意力层的输入,通过第一个残差通道注意力层输出第一个注意力矩阵;当i等于2时,将第二个特征矩阵及第一个特征矩阵作为第二个残差通道注意力层的输入,通过第二个残差通道注意力层输出第二个注意力矩阵;当i等于3时,将第三个特征矩阵及第二个特征矩阵作为第三个残差通道注意力层的输入,通过第三个残差通道注意力层输出第三个注意力矩阵;当j等于4时,将第四个特征矩阵作为第四个残差通道注意力层的输入,通过第四个残差通道注意力层输出第四个注意力矩阵;可见,通过四个残差通道注意力层对四个特征图像进行处理,输出四个注意力矩阵。
本申请实施例提供的方法,根据第一目标分割网络的不同的残差通道注意力层对一个或两个特征矩阵进行处理,得到注意力矩阵,提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度。
在本申请的图4对应的实施例提供的图像处理方法的一个可选实施例中,第一目标分割网络还包括计数器,计数器用于统计残差通道注意力层对特征图像的处理次数T,T为大于等于1的整数;M个特征图像对应M个特征矩阵。请参阅图6,子步骤S1301包括子步骤S13010至子步骤S13015。具体的:
S13010、获取计数器统计的处理次数T。
可以理解的是,计数器用于统计残差通道注意力层对特征图像的处理次数T,每当残差通道注意力层对特征矩阵进行一次处理时,计数增加1。在第一轮的残差通道注意力层对特征矩阵进行处理之前,计数器的数值为0,在完成第一轮的残差通道注意力层对特征矩阵进行处理之后,计数器的数值为1;在第二轮的残差通道注意力层对特征矩阵进行处理之前,计数器的数值为1,在完成第二轮的残差通道注意力层对特征矩阵进行处理之后,计数器的数值为2;在第三轮的残差通道注意力层对特征矩阵进行处理之前,计数器的数值为2,在完成第三轮的残差通道注意力层对特征矩阵进行处理之后,计数器的数值为3;在第四轮的残差通道注意力层对特征矩阵进行处理之前,计数器的数值为3,在完成第三轮的残差通道注意力层对特征矩阵进行处理之后,计数器的数值为4。
S13011、当处理次数小于第一阈值时。
可以理解的是,第一阈值为1,当处理次数小于1,即为开始第一轮残差通道注意力层对特征矩阵进行处理的过程。
S13012、将第一特征矩阵作为第一残差通道注意力层的输入,通过第一残差通道注意力层输出第一注意力矩阵。
其中,第一特征矩阵对应于第一特征图像,第一特征图像根据金字塔特征提取网络中的第一特征提取层得到。
S13013、将第二特征矩阵及第一注意力矩阵作为第二残差通道注意力层的输入,通过第二残差通道注意力层输出第二注意力矩阵。
其中,第二特征矩阵对应于第二特征图像,第二特征图像根据金字塔特征提取网络中的第二特征提取层得到。
S13014、将第三特征矩阵及第二注意力矩阵作为第三残差通道注意力层的输入,通过第三残差通道注意力层输出第三注意力矩阵。
其中,第三特征矩阵对应于第三特征图像,第三特征图像根据金字塔特征提取网络中的第三特征提取层得到。
S13015、将第四特征矩阵作为第四残差通道注意力层的输入,通过第四残差通道注意力层输出第四注意力矩阵。
其中,第四特征矩阵对应于第四特征图像,第四特征图像根据金字塔特征提取网络中的第四特征提取层得到。
可以理解的是,第一轮残差通道注意力层对特征矩阵进行处理的过程如下:首先,第一残差通道注意力层对第一特征矩阵进行处理,得到第一注意力矩阵;其次,第二残差通道注意力层对第二特征矩阵及第一注意力矩阵进行处理,得到第二注意力矩阵;接着,第三残差通道注意力层对第三特征矩阵及第二注意力矩阵进行处理,得到第三注意力矩阵;最后,第四残差通道注意力层对第四特征矩阵进行处理,得到第四注意力矩阵。
本申请实施例提供的方法,在第一轮处理过程中,在第二残差通道注意力层的输入中加入第一残差通道注意力层输出的第一注意力矩阵,通过第一注意力矩阵与第二特征矩阵同时进行处理,生成第二注意力矩阵,同样的,在第三残差通道注意力层的输入中加入第二残差通道注意力层输出的第二注意力矩阵,通过第二注意力矩阵与第三特征矩阵同时进行处理,生成第三注意力矩阵,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图6对应的实施例提供的图像处理方法的一个可选实施例中,请参阅图7,子步骤S13010之后还包括子步骤S13021至子步骤S13024。具体的:
S13021、当处理次数T大于等于第一阈值且小于第二阈值时。
可以理解的是,第二阈值为循环次数,当第一阈值为1且第二阈值为3时,即开始第二轮残差通道注意力层对特征矩阵进行处理的过程;当第一阈值为1且第二阈值为4时,在第二轮残差通道注意力层对特征矩阵进行处理结束后,开始第三轮残差通道注意力层对特征矩阵进行处理的过程。
S13022、将第一特征矩阵及第三注意力矩阵,作为第一残差通道注意力层的输入,通过第一残差通道注意力层输出第五注意力矩阵。
S13023、将第二特征矩阵及第五注意力矩阵,作为第二残差通道注意力层的输入,通过第二残差通道注意力层输出第六注意力矩阵。
S13024、将第三特征矩阵、第三注意力矩阵及第六注意力矩阵,作为第三残差通道注意力层的输入,通过第三残差通道注意力层输出第七注意力矩阵。
可以理解的是,第二轮残差通道注意力层对特征矩阵进行处理的过程如下:首先,第一残差通道注意力层对第一轮中的第三残差通道注意力层的输出的第三注意力矩阵与第一特征矩阵进行处理,得到第五注意力矩阵;接着,第二残差通道注意力层对第二特征矩阵及第五注意力矩阵进行处理,得到第六注意力矩阵;最后,第三残差通道注意力层对第三特征矩阵、第三注意力矩阵及第六注意力矩阵进行处理,得到第七注意力矩阵。
第三轮残差通道注意力层对特征矩阵进行处理的过程如下:首先,第一残差通道注意力层对第二轮中第三残差通道注意力层的输出的第七注意力矩阵及第一特征矩阵进行处理,得到第八注意力矩阵;接着,第二残差通道注意力层对第八注意力矩阵及第二特征矩阵进行处理,得到第九注意力矩阵;最后,第三残差通道注意力层对第三特征矩阵、第七注意力矩阵及第九注意力矩阵进行处理,得到第十注意力矩阵。
本申请实施例提供的方法,在第二轮处理过程中,将上一轮中第三残差通道注意力层的输出作为第二轮第一残差通道注意力层的输入和第三残差通道注意力层的输出,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图7对应的实施例提供的图像处理方法的一个可选实施例中,请参阅图8,子步骤S13010之后还包括子步骤S13031至子步骤S13032。具体的:
S13031、当处理次数等于第二阈值时。
S13032、通过特征融合层对第四注意力矩阵及第七注意力矩阵进行处理,得到第一矩阵。
可以理解的是,当第二阈值为3时,将第一轮处理过程中,第四残差通道注意力层输出的第四注意力矩阵,以及第二轮处理过程中,第三残差通道注意力层输出的第七注意力矩阵进行矩阵拼接,得到第一矩阵。
当第二阈值为4时,将第一轮处理过程中,第四残差通道注意力层输出的第四注意力矩阵,以及第三轮处理过程中,第三残差通道注意力层输出的第十注意力矩阵进行矩阵拼接,得到第一矩阵。
为便于理解,请参阅图9,图9为本申请实施例提供的根据第一目标分割矩阵进行图像处理的示意图。其中,X1、X2、X3及X4为步骤S120中生成的四个特征图像对应的四个特征矩阵,BA1、BA2、BA3、BA4为四个残差通道注意力层,T为计数器,AFT为特征融合层。第一阈值为1,第二阈值为4,即当残差通道注意力层的处理次数为4时,停止循环。
第一轮残差通道注意力层处理过程包括:首先,将第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第一注意力矩阵S1;接着,将第二特征矩阵X2及第一注意力矩阵S1作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第二注意力矩阵S2;然后,将第三特征矩阵X3及第二注意力矩阵S2作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第三注意力矩阵S3;最后,将第四特征矩阵X4作为第四残差通道注意力层BA4的输入,通过第四残差通道注意力层BA4输出第四注意力矩阵S4。完成第一轮残差通道注意力层处理后,计数器T为1。由于计数器T小于第二阈值4,故需要进行第二轮残差通道注意力层处理。
第二轮残差通道注意力层处理过程包括:首先,将第一轮中的第三残差通道注意力层BA3输出第三注意力矩阵S3及第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第五注意力矩阵S5;接着,将第二特征矩阵X2及第五注意力矩阵S5作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第六注意力矩阵S6;然后,将第三特征矩阵X3、第三注意力矩阵S3及第六注意力矩阵S6作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第七注意力矩阵S7。完成第二轮残差通道注意力层处理后,计数器T为2。由于计数器T小于第二阈值4,故需要进行第三轮残差通道注意力层处理。
第三轮残差通道注意力层处理过程包括:首先,将第二轮中的第三残差通道注意力层BA3输出第七注意力矩阵S7及第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第八注意力矩阵S8;接着,将第二特征矩阵X2及第八注意力矩阵S8作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第九注意力矩阵S9;然后,将第三特征矩阵X3、第七注意力矩阵S7及第九注意力矩阵S9作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第十注意力矩阵S10。完成第三轮残差通道注意力层处理后,计数器T为3。由于计数器T小于第二阈值4,故需要进行第四轮残差通道注意力层处理。
第四轮残差通道注意力层处理过程包括:首先,将第三轮中的第三残差通道注意力层BA3输出第十注意力矩阵S10及第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第十一注意力矩阵S11;接着,将第二特征矩阵X2及第十一注意力矩阵S11作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第十二注意力矩阵S12;然后,将第三特征矩阵X3、第十注意力矩阵S10及第十二注意力矩阵S12作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第十三注意力矩阵S13。完成第四轮残差通道注意力层处理后,计数器T为4。由于计数器T等于第二阈值4,故不需要进行第五轮残差通道注意力层处理。
将第一轮中的第四残差通道注意力层BA4输出第四注意力矩阵S4及第四轮中的第三残差通道注意力层BA3输出第十三注意力矩阵S13输入至特征融合层AFT中,生成第一矩阵,根据第一矩阵得到第一图像。
本申请实施例提供的方法,通过不同处理次数的注意力矩阵进行特征融合,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图8对应的实施例提供的图像处理方法的一个可选实施例中,请参阅10,子步骤S13032包括子步骤S30321至子步骤S30327。具体的:
S30321、对第四注意力矩阵进行特征提取,得到第一特征向量。
S30322、对第一特征向量进行特征值提取,得到第一特征值。
S30323、通过激活函数,对第一特征向量进行处理,得到第一激活向量。
S30324、对第七注意力矩阵进行特征提取,得到第二特征向量。
S30325、对第二特征向量进行特征值提取,得到第二特征值。
S30326、通过激活函数,对第二特征向量进行处理,得到第二激活向量。
S30327、根据第四注意力矩阵、第一激活向量、第一特征值、第七注意力矩阵、第二激活向量及第二特征值,生成第一矩阵。
可以理解的是,根据第四注意力矩阵、第一激活向量、第一特征值、第七注意力矩阵、第二激活向量及第二特征值,生成第一矩阵,具体的包括:
根据第四注意力矩阵及第一激活向量,生成第一激活矩阵;
根据第七注意力矩阵及第二激活向量,生成第二激活矩阵;
根据第一激活矩阵、第一特征值、第二激活矩阵及第二特征值进行加权计算,得到第一矩阵。
通过以下公式表示第一矩阵的生成过程:
为便于理解,请参阅图11,图11是特征融合过程的示意图。对于第四注意力矩阵的处理过程包括:首先,将维度为H1×W1×C1的第四注意力矩阵进行特征提取,得到维度为1×1×C1的第一特征向量;其次,对维度为1×1×C1的第一特征向量进行特征值提取,得到第一特征值;同时,通过激活函数,对维度为1×1×C1的第一特征向量进行处理,得到第一激活向量;接着,根据第四注意力矩阵及第一激活向量,生成第一激活矩阵。
对于第七注意力矩阵的处理过程包括:首先,将维度为H2×W2×C2的第七注意力矩阵进行特征提取,得到维度为1×1×C2的第二特征向量;其次,对维度为1×1×C2的第一特征向量进行特征值提取,得到第二特征值;同时,通过激活函数,对维度为1×1×C2的第二特征向量进行处理,得到第二激活向量;接着,根据第七注意力矩阵及第二激活向量,生成第二激活矩阵。
本申请实施例提供的方法,在进行特征融合的过程中,通过对待融合的特征进行特征提取以得到特征值及激活矩阵,进而将特征值及激活矩阵进行加权计算,得到第一矩阵,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图2对应的实施例提供的图像处理方法的一个可选实施例中,请参阅图12,第二目标分割网络包括M+1个卷积层;M个特征图像对应M个特征矩阵;步骤S140包括子步骤S1401至子步骤S1406。具体的:
S1401、将第一特征矩阵作为第一卷积层的输入,通过第一卷积层输出第一卷积矩阵。
其中,第一特征矩阵对应于第一特征图像,第一特征图像根据金字塔特征提取网络中的第一特征提取层得到。
S1402、将第二特征矩阵及第一卷积矩阵作为第二卷积层的输入,通过第二卷积层输出第二卷积矩阵。
其中,第二特征矩阵对应于第二特征图像,第二特征图像根据金字塔特征提取网络中的第二特征提取层得到。
S1403、将第三特征矩阵及第二卷积矩阵作为第三卷积层的输入,通过第三卷积层输出第三卷积矩阵。
其中,第三特征矩阵对应于第三特征图像,第三特征图像根据金字塔特征提取网络中的第三特征提取层得到。
S1404、将第四特征矩阵及第三卷积矩阵作为第四卷积层的输入,通过第四卷积层输出第四卷积矩阵。
其中,第四特征矩阵对应于第四特征图像,第四特征图像根据金字塔特征提取网络中的第四特征提取层得到。
S1405、将第四卷积矩阵作为第五卷积层的输入,通过第五卷积层输出第五卷积矩阵。
S1406、根据第五卷积矩阵生成第二图像。
为便于理解,请参阅图13,图13为根据第二目标分割矩阵进行图像处理的示意图。其中,X1、X2、X3及X4为步骤S120中生成的四个特征图像对应的四个特征矩阵,D1、D2、D3、D4及D5为第二目标分割网络中的五个卷积层,Y1、Y2、Y3、Y4及Y5为第二目标分割网络中五个卷积层生成的五个卷积矩阵。
首先,将第一特征矩阵X1作为第一卷积层D1的输入,通过第一卷积层D1输出第一卷积矩阵Y1;其次,将第二特征矩阵X2及第一卷积矩阵D1作为第二卷积层D2的输入,通过第二卷积层D2输出第二卷积矩阵Y2;再次,将第三特征矩阵X3及第二卷积矩阵Y2作为第三卷积层D3的输入,通过第三卷积层D3输出第三卷积矩阵Y3;接着,将第四特征矩阵X4及第三卷积矩阵Y3作为第四卷积层D4的输入,通过第四卷积层D4输出第四卷积矩阵Y4;然后,将第四卷积矩阵Y4作为第五卷积层D5的输入,通过第五卷积层D5输出第五卷积矩阵Y5。最后,根据第五卷积矩阵Y5生成第二图像。
本申请实施例提供的方法,通过对特征图像进行多层次的卷积,以生成第二图像,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图2对应的实施例提供的图像处理方法的一个可选实施例中,请参阅图14,待处理图像的分辨率为R,其中,R为大于1的整数,步骤S120包括子步骤S1201至子步骤S1204。具体的:
S1201、根据第四特征提取层对待处理图像进行处理,得到第四特征图像。
其中,第四特征图像的分辨率为R/4。
S1202、根据第三特征提取层对第四特征图像进行处理,得到第三特征图像。
其中,第三特征图像的分辨率为R/8。
S1203、根据第二特征提取层对第三特征图像进行处理,得到第二特征图像。
其中,第二特征图像的分辨率为R/16。
S1204、根据第一特征提取层对第二特征图像进行处理,得到第一特征图像。
其中,第一特征图像的分辨率为R/32。
可以理解的是,分辨率随着特征提取的次数,逐层降低。
为便于理解,请参阅图15,图15为本申请实施例提供的通过金字塔特征提取网络对待处理图像进行处理的示意图。其中,P为待处理图像,F4、F3、F2、F1为四个特征提取层,P4、P3、P2、P1为四个特征提取层输出的四个特征图像,X4、X3、X2、X1为四个特征图像对应的特征矩阵。
首先,待处理图像P作为第四特征提取层F4的输入,通过第四特征提取层F4输出第四特征图像P4,第四特征图像P4对应于第四特征矩阵X4;接着,第四特征图像P4作为第三特征提取层F3的输入,通过第三特征提取层F3输出第三特征图像P3,第三特征图像P3对应于第三特征矩阵X3;然后,第三特征图像P3作为第二特征提取层F2的输入,通过第二特征提取层F2输出第二特征图像P2,第二特征图像P2对应于第二特征矩阵X2;最后,第二特征图像P2作为第一特征提取层F1的输入,通过第一特征提取层F1输出第一特征图像P1,第一特征图像P1对应于第一特征矩阵X1。
本申请实施例提供的方法,通过金字塔特征提取网络对待处理图像进行处理,以多张特征图像,将特征图像作为第一目标分割网络和第二目标分割网络的输入,为提高了目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图2对应的实施例提供的图像处理方法的一个可选实施例中,步骤S150包括子步骤S1501。具体的:
S1501、根据第一图像的像素点与第二图像的像素点的乘积,得到目标抠图图像。
可以理解的是,目标抠图图像中每个像素点的值为第一图像的每个像素点与第二图像中对应的像素点的乘积。
本申请实施例提供的方法,通过将第一图像与第二图像的像素点乘积作为目标抠图图像的像素点,将第一图像与第二图像进行融合,提高了目标分割网络的抠图结果的准确性及抠图结果的精细程度。
为了便于理解,下面将介绍一种图像处理方法,图像处理方法包括步骤S11至步骤S51。需要说明的是,步骤S12至步骤S15为金字塔特征提取网络的处理过程,步骤S21至步骤S35为第一目标分割网络的处理过程,步骤S41至步骤S46为第一目标分割网络的处理过程,步骤S21至步骤S35与步骤S41至步骤S46无先后执行的顺序,可以是并列执行的方式,待步骤S21至步骤S35与步骤S41至步骤S46均执行完成后,执行步骤S51。
步骤11、获取待处理图像P。
其中,待处理图像P包括抠图目标。待处理图像的分辨率为R。
可以理解的是,抠图目标为待处理图像中的人像。
步骤12、根据金字塔特征提取网络中的第四特征提取层F4对待处理图像P进行处理,得到第四特征图像P4。
其中,第四特征图像P4的分辨率为R/4。第四特征图像P4对应于第四特征矩阵X4。
步骤13、根据金字塔特征提取网络中的第三特征提取层F3对第四特征图像P4进行处理,得到第三特征图像P3。
其中,第三特征图像P3的分辨率为R/8。第三特征图像P3对应于第三特征矩阵X3。
步骤14、根据金字塔特征提取网络中的第二特征提取层F2对第三特征图像P3进行处理,得到第二特征图像P2。
其中,第二特征图像P2的分辨率为R/16。第二特征图像P2对应于第二特征矩阵X2。
步骤15、根据金字塔特征提取网络中的第一特征提取层F1对第二特征图像P2进行处理,得到第一特征图像P1。
其中,第一特征图像P1的分辨率为R/32。第一特征图像P1对应于第一特征矩阵X1。
步骤21、获取计数器统计的残差通道注意力层对特征图像的处理次数T。
可以理解的是,计数器统计的处理次数T为0,开启第一轮残差通道注意力层对特征图像的处理。
步骤22、将第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第一注意力矩阵S1。
步骤23、将第二特征矩阵X2及第一注意力矩阵S1作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第二注意力矩阵S2。
步骤24、将第三特征矩阵X3及第二注意力矩阵S2作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第三注意力矩阵S3。
步骤25、将第四特征矩阵X4作为第四残差通道注意力层BA4的输入,通过第四残差通道注意力层BA4输出第四注意力矩阵S4。
可以理解的是,完成第一轮残差通道注意力层处理后,计数器T为1。由于计数器T小于第二阈值4,故需要进行第二轮残差通道注意力层处理。
步骤26、将第一轮中的第三残差通道注意力层BA3输出第三注意力矩阵S3及第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第五注意力矩阵S5。
步骤27、将第二特征矩阵X2及第五注意力矩阵S5作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第六注意力矩阵S6。
步骤28、将第三特征矩阵X3、第三注意力矩阵S3及第六注意力矩阵S6作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第七注意力矩阵S7。
可以理解的是,完成第二轮残差通道注意力层处理后,计数器T为2。由于计数器T小于第二阈值4,故需要进行第三轮残差通道注意力层处理。
步骤29、将第二轮中的第三残差通道注意力层BA3输出第七注意力矩阵S7及第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第八注意力矩阵S8。
步骤30、将第二特征矩阵X2及第八注意力矩阵S8作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第九注意力矩阵S9。
步骤31、将第三特征矩阵X3、第七注意力矩阵S7及第九注意力矩阵S9作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第十注意力矩阵S10。
可以理解的是,完成第三轮残差通道注意力层处理后,计数器T为3。由于计数器T小于第二阈值4,故需要进行第四轮残差通道注意力层处理。
步骤32、将第三轮中的第三残差通道注意力层BA3输出第十注意力矩阵S10及第一特征矩阵X1作为第一残差通道注意力层BA1的输入,通过第一残差通道注意力层BA1输出第十一注意力矩阵S11。
步骤33、将第二特征矩阵X2及第十一注意力矩阵S11作为第二残差通道注意力层BA2的输入,通过第二残差通道注意力层BA2输出第十二注意力矩阵S12。
步骤34、将第三特征矩阵X3、第十注意力矩阵S10及第十二注意力矩阵S12作为第三残差通道注意力层BA3的输入,通过第三残差通道注意力层BA3输出第十三注意力矩阵S13。
可以理解的是,完成第四轮残差通道注意力层处理后,计数器T为4。由于计数器T等于第二阈值4,故不需要进行第五轮残差通道注意力层处理。
步骤35、将第一轮中的第四残差通道注意力层BA4输出第四注意力矩阵S4及第四轮中的第三残差通道注意力层BA3输出第十三注意力矩阵S13输入至特征融合层AFT中,生成第一矩阵,根据第一矩阵得到第一图像。
步骤41、将第一特征矩阵X1作为第一卷积层D1的输入,通过第一卷积层D1输出第一卷积矩阵Y1。
步骤42、将第二特征矩阵X2及第一卷积矩阵D1作为第二卷积层D2的输入,通过第二卷积层D2输出第二卷积矩阵Y2。
步骤43、将第三特征矩阵X3及第二卷积矩阵Y2作为第三卷积层D3的输入,通过第三卷积层D3输出第三卷积矩阵Y3。
步骤44、将第四特征矩阵X4及第三卷积矩阵Y3作为第四卷积层D4的输入,通过第四卷积层D4输出第四卷积矩阵Y4。
步骤45、将第四卷积矩阵Y4作为第五卷积层D5的输入,通过第五卷积层D5输出第五卷积矩阵Y5。
步骤46、根据第五卷积矩阵Y5生成第二图像。
步骤51、根据第一图像的像素点与第二图像的像素点的乘积,得到目标抠图图像。
请参阅图16,图16为本申请实施例提供的图像处理方法的示意图,本申请实施例针对人像抠图任务提出了一种图像处理方法框架,该框架是多任务学习的框架。Decoder1为第一目标分割网络,Decoder2为第二目标分割网络,最后将Decoder1与Decoder2的结果进行特征融合,得到精细化抠图结果。
首先,将待处理图像P输入金字塔特征提取网络(Pyramid Vision Transformertransformer backbone,PVT transformer backbone),从而获得四个特征图像P1、P2、P3及P4,四个特征图像的分辨率分别是输入图像的1/32, 1/16 , 1/8 及 1/4,四个特征图像P1、P2、P3及P4对应于四个特征矩阵X1, X2, X3 及X4。
接着,将四个特征矩阵分别输入至Decoder1与Decoder2中。
在Decoder1中,本申请实施例采用迭代循环的结构。当迭代次数in>1时,反馈特征由前一次迭代产生,然后传递到反馈模块。;其中,;其中,为迭代次数,为第个特征矩阵,为第次迭代得到的第个尺度特征,表示上采样,使得和的尺寸一样。是基于channel的特征的Concatenation。是使用卷积层对特征尺寸和channel的压缩从而获得和个 scale相同的特征尺度。当迭代次数时,第一残差通道注意力层的输入是和,第一残差通道注意力层的输出是:;其中,为第轮中第一残差通道注意力层的输出,表示残差通道注意力层(Residual Channel Attention Block,RCAB)。接下来,特征输入到第二残差通道注意力层。;其中,为第轮中第二残差通道注意力层的输出。同理,特征输入到第三残差通道注意力层。;其中,第轮中第三残差通道注意力层的输出。在结束第次迭代之后,第次迭代又重新以相同方式从第一残差通道注意力层到最后一个残差通道注意力层循环。迭代四次之后,退出迭代流程,最后一次输出是。最后一次迭代特征和通过自适应的特征融合模块融合在一起。
请参阅图17,图17为本申请实施例提供的自适应特征模块的结构的示意图,输入特征和,分别通过全局平均池化(Global Average Pooling,GAP),获得1×1×cl尺度的特征图,1×1×cl尺度的特征图经过和操作分别得到特征权重和channel权重,是Linear函数与ReLU函数的叠加组合操作,是Linear函数与Sigmoid函数的叠加组合操作。和分别和对应channel 权重相乘,从而分别获得和。最后融合的特征可以通过学习到的特征权重加权获得,如图17所示,融合的特征。
在Decoder2中,将四个特征矩阵X1, X2, X3 及X4输入到Decoder2中,每一个卷积层由Conv2d函数与 BatchNorm2d函数及 ReLU函数连续堆叠三层组成,且特征X2,X3,X4以Concat 的方式融合到该分支的主干网络。该分支的最后一层是Conv2d输出1个featuremap,之后在经过sigmoid 激活操作。
最后两个分支的特征图用像素点的乘积方式获得最后的结果。
表1展示了本申请实施例提供的方法与其他方法在高精度人像发丝分割数据集人像抠图数据集P3M-10k[5]的各种指标的比较。可以发现,本申请实施例提供的方法在人像发丝高精度抠图上精度是最好的, MSE误差上比排名第二的P3M-Net[5]优化48%,在SAD误差上比P3M-Net[5]优化30%。这个现象说明了本申请实施例提供的方法整体框架更加合理优越。
其中,方法列包括:基于端到端抠图网络(LF)、分层的注意力抠图网络(HAttMatting,HATT)、自动人物抠图算法(Semantic Human Mating,SHM)、扫视-聚焦抠图网络(Glance and Focus Matting,GFM)及单解码器-双解码器的人像抠图模型(P3M-Net)。图像相似性评价指标包括:均方误差(Mean Squared Error,MSE)、绝对误差和算法(Sum ofAbsolute Differences,SAD)、平均绝对差算法(Mean Absolute Differences,MAD)、图像梯度(gradient,GRAD),创建指定类型和维度的连通矩阵(conndef,CONN)。
请参阅图18,从可视化抠图效果来说,本申请实施例提供的方法比SOTA P3M-Net可视化效果更加好,避免了一些分割伪影,且在头发丝细节分割效果上也取得不错的精度。
下面对本申请中的图像处理装置进行详细描述,请参阅图19。图19为本申请实施例中图像处理装置10的一个实施例示意图,图像处理装置10包括:
图像获取模块110,用于获取待处理图像。
其中,待处理图像包括抠图目标。
特征提取模块120,用于通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像。
其中,金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出,M为大于等于1的整数。
第一解码模块130,用于通过第一目标分割网络对M个特征图像进行处理,得到第一图像。
其中,第一图像包括第一前景区域、第一背景区域及待确认区域,第一前景区域对应于抠图目标所对应的区域,待确认区域为第一前景区域与第一背景区域的交叠区域。
第二解码模块140,用于通过第二目标分割网络对M个特征图像进行处理,得到第二图像。
其中,第二图像包括第二前景区域及第二背景区域,第二前景区域对应于抠图目标所对应的区域。
抠图图像生成模块150,用于根据第一图像及第二图像,生成目标抠图图像。
其中,目标抠图图像包括抠图目标。
本申请实施例提供的装置,通过两个不同的目标分割网络对待处理图像的M个特征图像进行目标分割,得到第一图像及第二图像,通过第一图像及第二图像生成目标抠图图像,提高了抠图结果的准确性及抠图结果的精细程度。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中, 第一目标分割网络包括M个残差通道注意力层及特征融合层;第一解码模块130,还用于:
通过M个残差通道注意力层对M个特征图像进行处理,输出M个注意力矩阵;
通过特征融合层对M个注意力矩阵中的K个注意力矩阵进行处理,得到第一矩阵,其中,K为小于M的整数;
根据第一矩阵生成第一图像。
本申请实施例提供的装置,通过第一目标分割网络包括M个残差通道注意力层对M个特征图像进行处理,并根据得到的M个注意力矩阵中的K个注意力矩阵进行特征融合,生成第一图像,提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,每个特征图像对应于一个特征矩阵;第一解码模块130,还用于:
将第i个特征矩阵及第i-1个特征矩阵作为第i个残差通道注意力层的输入,通过第i个残差通道注意力层输出第i个注意力矩阵,其中,第i个特征矩阵对应于第i个特征图像,第i-1个特征矩阵对应于第i-1个特征图像,i为大于1且小于M的整数;
将第j个特征矩阵作为第j个残差通道注意力层的输入,通过第j个残差通道注意力层输出第j个注意力矩阵,其中,第j个特征矩阵对应于第j个特征图像,j为1或M。
本申请实施例提供的装置,根据第一目标分割网络的不同的残差通道注意力层对一个或两个特征矩阵进行处理,得到注意力矩阵,提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,第一目标分割网络还包括计数器,计数器用于统计残差通道注意力层对特征图像的处理次数T,T为大于等于1的整数;M个特征图像对应M个特征矩阵;第一解码模块130,还用于:
获取计数器统计的处理次数T;
当处理次数小于第一阈值时,
将第一特征矩阵作为第一残差通道注意力层的输入,通过第一残差通道注意力层输出第一注意力矩阵,其中,第一特征矩阵对应于第一特征图像,第一特征图像根据金字塔特征提取网络中的第一特征提取层得到;
将第二特征矩阵及第一注意力矩阵作为第二残差通道注意力层的输入,通过第二残差通道注意力层输出第二注意力矩阵,其中,第二特征矩阵对应于第二特征图像,第二特征图像根据金字塔特征提取网络中的第二特征提取层得到;
将第三特征矩阵及第二注意力矩阵作为第三残差通道注意力层的输入,通过第三残差通道注意力层输出第三注意力矩阵,其中,第三特征矩阵对应于第三特征图像,第三特征图像根据金字塔特征提取网络中的第三特征提取层得到;
将第四特征矩阵作为第四残差通道注意力层的输入,通过第四残差通道注意力层输出第四注意力矩阵,其中,第四特征矩阵对应于第四特征图像,第四特征图像根据金字塔特征提取网络中的第四特征提取层得到。
本申请实施例提供的装置,在第一轮处理过程中,在第二残差通道注意力层的输入中加入第一残差通道注意力层输出的第一注意力矩阵,通过第一注意力矩阵与第二特征矩阵同时进行处理,生成第二注意力矩阵,同样的,在第三残差通道注意力层的输入中加入第二残差通道注意力层输出的第二注意力矩阵,通过第二注意力矩阵与第三特征矩阵同时进行处理,生成第三注意力矩阵,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,第一解码模块130,还用于:
当处理次数T大于等于第一阈值且小于第二阈值时,
将第一特征矩阵及第三注意力矩阵,作为第一残差通道注意力层的输入,通过第一残差通道注意力层输出第五注意力矩阵;
将第二特征矩阵及第五注意力矩阵,作为第二残差通道注意力层的输入,通过第二残差通道注意力层输出第六注意力矩阵;
将第三特征矩阵、第三注意力矩阵及第六注意力矩阵,作为第三残差通道注意力层的输入,通过第三残差通道注意力层输出第七注意力矩阵。
本申请实施例提供的装置,在第二轮处理过程中,将上一轮中第三残差通道注意力层的输出作为第二轮第一残差通道注意力层的输入和第三残差通道注意力层的输出,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,第一解码模块130,还用于:
当处理次数等于第二阈值时,通过特征融合层对第四注意力矩阵及第七注意力矩阵进行处理,得到第一矩阵。
本申请实施例提供的装置,通过不同处理次数的注意力矩阵进行特征融合,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,第一解码模块130,还用于:
对第四注意力矩阵进行特征提取,得到第一特征向量;
对第一特征向量进行特征值提取,得到第一特征值;
通过激活函数,对第一特征向量进行处理,得到第一激活向量;
对第七注意力矩阵进行特征提取,得到第二特征向量;
对第二特征向量进行特征值提取,得到第二特征值;
通过激活函数,对第二特征向量进行处理,得到第二激活向量;
根据第四注意力矩阵、第一激活向量、第一特征值、第七注意力矩阵、第二激活向量及第二特征值,生成第一矩阵。
本申请实施例提供的装置,在进行特征融合的过程中,通过对待融合的特征进行特征提取以得到特征值及激活矩阵,进而将特征值及激活矩阵进行加权计算,得到第一矩阵,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,第二目标分割网络包括M+1个卷积层;M个特征图像对应M个特征矩阵;第二解码模块140,还用于:
将第一特征矩阵作为第一卷积层的输入,通过第一卷积层输出第一卷积矩阵,其中,第一特征矩阵对应于第一特征图像,第一特征图像根据金字塔特征提取网络中的第一特征提取层得到;
将第二特征矩阵及第一卷积矩阵作为第二卷积层的输入,通过第二卷积层输出第二卷积矩阵,其中,第二特征矩阵对应于第二特征图像,第二特征图像根据金字塔特征提取网络中的第二特征提取层得到;
将第三特征矩阵及第二卷积矩阵作为第三卷积层的输入,通过第三卷积层输出第三卷积矩阵,其中,第三特征矩阵对应于第三特征图像,第三特征图像根据金字塔特征提取网络中的第三特征提取层得到;
将第四特征矩阵及第三卷积矩阵作为第四卷积层的输入,通过第四卷积层输出第四卷积矩阵,其中,第四特征矩阵对应于第四特征图像,第四特征图像根据金字塔特征提取网络中的第四特征提取层得到;
将第四卷积矩阵作为第五卷积层的输入,通过第五卷积层输出第五卷积矩阵;
根据第五卷积矩阵生成第二图像。
本申请实施例提供的装置,通过对特征图像进行多层次的卷积,以生成第二图像,为提高了第一目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,待处理图像的分辨率为R,其中,R为大于1的整数,特征提取模块120,还用于:
通过金字塔特征提取网络对待处理图像进行处理,得到M个特征图像,包括:
根据第四特征提取层对待处理图像进行处理,得到第四特征图像,其中,第四特征图像的分辨率为R/4;
根据第三特征提取层对第四特征图像进行处理,得到第三特征图像,其中,第三特征图像的分辨率为R/8;
根据第二特征提取层对第三特征图像进行处理,得到第二特征图像,其中,第二特征图像的分辨率为R/16;
根据第一特征提取层对第二特征图像进行处理,得到第一特征图像,其中,第一特征图像的分辨率为R/32。
本申请实施例提供的装置,通过金字塔特征提取网络对待处理图像进行处理,以多张特征图像,将特征图像作为第一目标分割网络和第二目标分割网络的输入,为提高了目标分割网络的抠图结果的准确性及抠图结果的精细程度奠定基础。
在本申请的图19对应的实施例提供的图像处理装置的一个可选实施例中,抠图图像生成模块150,还用于根据第一图像的像素点与第二图像的像素点的乘积,得到目标抠图图像。
本申请实施例提供的装置,通过将第一图像与第二图像的像素点乘积作为目标抠图图像的像素点,将第一图像与第二图像进行融合,提高了目标分割网络的抠图结果的准确性及抠图结果的精细程度。
图20是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图20所示的服务器结构。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像,其中,所述待处理图像包括抠图目标;
通过金字塔特征提取网络对所述待处理图像进行处理,得到M个特征图像,其中,所述金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出,M为大于等于1的整数;
通过第一目标分割网络对所述M个特征图像进行处理,得到第一图像,其中,所述第一图像包括第一前景区域、第一背景区域及待确认区域,所述第一前景区域对应于所述抠图目标所对应的区域,所述待确认区域为所述第一前景区域与所述第一背景区域的交叠区域;
通过第二目标分割网络对所述M个特征图像进行处理,得到第二图像,其中,所述第二图像包括第二前景区域及第二背景区域,所述第二前景区域对应于所述抠图目标所对应的区域;
根据所述第一图像及所述第二图像,生成目标抠图图像,其中,所述目标抠图图像包括所述抠图目标。
2.如权利要求1所述的图像处理方法,其特征在于,所述第一目标分割网络包括M个残差通道注意力层及特征融合层;
所述通过第一目标分割网络对所述M个特征图像进行处理,得到第一图像,包括:
通过所述M个残差通道注意力层对所述M个特征图像进行处理,输出M个注意力矩阵;
通过所述特征融合层对所述M个注意力矩阵中的K个注意力矩阵进行处理,得到第一矩阵,其中,K为小于M的整数;
根据所述第一矩阵生成所述第一图像。
3.如权利要求2所述的图像处理方法,其特征在于,每个所述特征图像对应于一个特征矩阵;
所述通过所述M个残差通道注意力层对所述M个特征图像进行处理,输出M个注意力矩阵,包括:
将第i个特征矩阵及第i-1个特征矩阵作为第i个所述残差通道注意力层的输入,通过所述第i个残差通道注意力层输出第i个注意力矩阵,其中,所述第i个特征矩阵对应于第i个特征图像,所述第i-1个特征矩阵对应于第i-1个特征图像,i为大于1且小于M的整数;
将第j个特征矩阵作为第j个残差通道注意力层的输入,通过所述第j个残差通道注意力层输出第j个注意力矩阵,其中,所述第j个特征矩阵对应于第j个特征图像,j为1或M。
4.如权利要求2所述的图像处理方法,其特征在于,所述第一目标分割网络还包括计数器,所述计数器用于统计所述残差通道注意力层对特征图像的处理次数T,T为大于等于1的整数;所述M个特征图像对应M个特征矩阵;
所述通过所述M个残差通道注意力层对所述M个特征图像进行处理,输出M个注意力矩阵,包括:
获取所述计数器统计的所述处理次数T;
当所述处理次数小于第一阈值时,
将第一特征矩阵作为第一残差通道注意力层的输入,通过所述第一残差通道注意力层输出第一注意力矩阵,其中,所述第一特征矩阵对应于第一特征图像,所述第一特征图像根据所述金字塔特征提取网络中的第一特征提取层得到;
将第二特征矩阵及所述第一注意力矩阵作为第二残差通道注意力层的输入,通过所述第二残差通道注意力层输出第二注意力矩阵,其中,所述第二特征矩阵对应于第二特征图像,所述第二特征图像根据所述金字塔特征提取网络中的第二特征提取层得到;
将第三特征矩阵及所述第二注意力矩阵作为第三残差通道注意力层的输入,通过所述第三残差通道注意力层输出第三注意力矩阵,其中,所述第三特征矩阵对应于第三特征图像,所述第三特征图像根据所述金字塔特征提取网络中的第三特征提取层得到;
将第四特征矩阵作为第四残差通道注意力层的输入,通过所述第四残差通道注意力层输出第四注意力矩阵,其中,所述第四特征矩阵对应于第四特征图像,所述第四特征图像根据所述金字塔特征提取网络中的第四特征提取层得到。
5.如权利要求4所述的图像处理方法,其特征在于,所述获取所述计数器统计的所述处理次数T之后,还包括:
当所述处理次数T大于等于第一阈值且小于第二阈值时,
将所述第一特征矩阵及所述第三注意力矩阵,作为所述第一残差通道注意力层的输入,通过所述第一残差通道注意力层输出第五注意力矩阵;
将所述第二特征矩阵及所述第五注意力矩阵,作为所述第二残差通道注意力层的输入,通过所述第二残差通道注意力层输出第六注意力矩阵;
将所述第三特征矩阵、所述第三注意力矩阵及所述第六注意力矩阵,作为所述第三残差通道注意力层的输入,通过所述第三残差通道注意力层输出第七注意力矩阵。
6.如权利要求5所述的图像处理方法,其特征在于,所述通过所述特征融合层对所述M个注意力矩阵中的K个注意力矩阵进行处理,得到第一矩阵,包括:
当所述处理次数等于所述第二阈值时,通过所述特征融合层对所述第四注意力矩阵及所述第七注意力矩阵进行处理,得到第一矩阵。
7.如权利要求6所述的图像处理方法,其特征在于,所述通过所述特征融合层对所述第四注意力矩阵及所述第七注意力矩阵进行处理,得到第一矩阵,包括:
对所述第四注意力矩阵进行特征提取,得到第一特征向量;
对所述第一特征向量进行特征值提取,得到第一特征值;
通过激活函数,对所述第一特征向量进行处理,得到第一激活向量;
对所述第七注意力矩阵进行特征提取,得到第二特征向量;
对所述第二特征向量进行特征值提取,得到第二特征值;
通过激活函数,对所述第二特征向量进行处理,得到第二激活向量;
根据所述第四注意力矩阵、所述第一激活向量、所述第一特征值、所述第七注意力矩阵、所述第二激活向量及所述第二特征值,生成第一矩阵。
8.如权利要求1所述的图像处理方法,其特征在于,所述第二目标分割网络包括M+1个卷积层;所述M个特征图像对应M个特征矩阵;
所述通过第二目标分割网络对所述M个特征图像进行处理,得到第二图像,包括:
将第一特征矩阵作为第一卷积层的输入,通过所述第一卷积层输出第一卷积矩阵,其中,所述第一特征矩阵对应于第一特征图像,所述第一特征图像根据所述金字塔特征提取网络中的第一特征提取层得到;
将第二特征矩阵及所述第一卷积矩阵作为第二卷积层的输入,通过所述第二卷积层输出第二卷积矩阵,其中,所述第二特征矩阵对应于第二特征图像,所述第二特征图像根据所述金字塔特征提取网络中的第二特征提取层得到;
将第三特征矩阵及所述第二卷积矩阵作为第三卷积层的输入,通过所述第三卷积层输出第三卷积矩阵,其中,所述第三特征矩阵对应于第三特征图像,所述第三特征图像根据所述金字塔特征提取网络中的第三特征提取层得到;
将第四特征矩阵及所述第三卷积矩阵作为第四卷积层的输入,通过所述第四卷积层输出第四卷积矩阵,其中,所述第四特征矩阵对应于第四特征图像,所述第四特征图像根据所述金字塔特征提取网络中的第四特征提取层得到;
将第四卷积矩阵作为第五卷积层的输入,通过所述第五卷积层输出第五卷积矩阵;
根据所述第五卷积矩阵生成所述第二图像。
9.如权利要求1所述的图像处理方法,其特征在于,所述待处理图像的分辨率为R,其中,R为大于1的整数,
所述通过金字塔特征提取网络对所述待处理图像进行处理,得到M个特征图像,包括:
根据第四特征提取层对所述待处理图像进行处理,得到第四特征图像,其中,所述第四特征图像的分辨率为R/4;
根据第三特征提取层对所述第四特征图像进行处理,得到第三特征图像,其中,所述第三特征图像的分辨率为R/8;
根据第二特征提取层对所述第三特征图像进行处理,得到第二特征图像,其中,所述第二特征图像的分辨率为R/16;
根据第一特征提取层对所述第二特征图像进行处理,得到第一特征图像,其中,所述第一特征图像的分辨率为R/32。
10.如权利要求1所述的图像处理方法,其特征在于,所述根据所述第一图像及所述第二图像,生成目标抠图图像,包括:
根据所述第一图像的像素点与所述第二图像的像素点的乘积,得到所述目标抠图图像。
11.一种图像处理装置,其特征在于,包括:
图像获取模块,用于获取待处理图像,其中,所述待处理图像包括抠图目标;
特征提取模块,用于通过金字塔特征提取网络对所述待处理图像进行处理,得到M个特征图像,其中,所述金字塔特征提取网络包括M个特征提取层,每个特征层的输入作为上一个特征层的输出,M为大于等于1的整数;
第一解码模块,用于通过第一目标分割网络对所述M个特征图像进行处理,得到第一图像,其中,所述第一图像包括第一前景区域、第一背景区域及待确认区域,所述第一前景区域对应于所述抠图目标所对应的区域,所述待确认区域为所述第一前景区域与所述第一背景区域的交叠区域;
第二解码模块,用于通过第二目标分割网络对所述M个特征图像进行处理,得到第二图像,其中,所述第二图像包括第二前景区域及第二背景区域,所述第二前景区域对应于所述抠图目标所对应的区域;
抠图图像生成模块,用于根据所述第一图像及所述第二图像,生成目标抠图图像,其中,所述目标抠图图像包括所述抠图目标。
12.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括执行如权利要求1至10中任一项所述的图像处理方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至10中任一项所述的图像处理方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行如权利要求1至10中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211273017.5A CN115359088B (zh) | 2022-10-18 | 2022-10-18 | 一种图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211273017.5A CN115359088B (zh) | 2022-10-18 | 2022-10-18 | 一种图像处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359088A true CN115359088A (zh) | 2022-11-18 |
CN115359088B CN115359088B (zh) | 2023-01-20 |
Family
ID=84008905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211273017.5A Active CN115359088B (zh) | 2022-10-18 | 2022-10-18 | 一种图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359088B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252892A (zh) * | 2023-11-14 | 2023-12-19 | 江西师范大学 | 基于轻量化视觉自注意力网络的双分支人像自动抠图模型 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080656A (zh) * | 2019-12-10 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法、图像合成的方法以及相关装置 |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN113313662A (zh) * | 2021-05-27 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114332458A (zh) * | 2021-11-25 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114549574A (zh) * | 2022-03-01 | 2022-05-27 | 杭州电子科技大学 | 一种基于掩膜传播网络的交互式视频抠图系统 |
-
2022
- 2022-10-18 CN CN202211273017.5A patent/CN115359088B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN111080656A (zh) * | 2019-12-10 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法、图像合成的方法以及相关装置 |
CN113313662A (zh) * | 2021-05-27 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114332458A (zh) * | 2021-11-25 | 2022-04-12 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114549574A (zh) * | 2022-03-01 | 2022-05-27 | 杭州电子科技大学 | 一种基于掩膜传播网络的交互式视频抠图系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252892A (zh) * | 2023-11-14 | 2023-12-19 | 江西师范大学 | 基于轻量化视觉自注意力网络的双分支人像自动抠图模型 |
CN117252892B (zh) * | 2023-11-14 | 2024-03-08 | 江西师范大学 | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115359088B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline | |
Anwar et al. | Image colorization: A survey and dataset | |
Wang et al. | SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT | |
CN111652966B (zh) | 一种基于无人机多视角的三维重建方法及装置 | |
Sigal | Human pose estimation | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN109416727A (zh) | 一种人脸图像中眼镜去除方法及装置 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
Chen et al. | Boundary-aware network for fast and high-accuracy portrait segmentation | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN110852256A (zh) | 时序动作提名的生成方法、装置、设备及存储介质 | |
CN111368943A (zh) | 图像中对象的识别方法和装置、存储介质及电子装置 | |
CN113065402A (zh) | 一种基于变形注意力机制的人脸检测方法 | |
Chang et al. | Pedestrian detection in aerial images using vanishing point transformation and deep learning | |
CN109614933A (zh) | 一种基于确定性拟合的运动分割方法 | |
CN115330947A (zh) | 三维人脸重建方法及其装置、设备、介质、产品 | |
CN113808008A (zh) | 基于Transformer构建生成对抗网络实现妆容迁移的方法 | |
CN115359088B (zh) | 一种图像处理方法及装置 | |
CN114187165A (zh) | 图像处理方法和装置 | |
CN113221770A (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
Liu et al. | Semantic segmentation of high-resolution remote sensing images using an improved transformer | |
CN117094895B (zh) | 图像全景拼接方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |