CN113870283B - 人像抠图方法、装置、计算机设备及可读存储介质 - Google Patents
人像抠图方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN113870283B CN113870283B CN202111153131.XA CN202111153131A CN113870283B CN 113870283 B CN113870283 B CN 113870283B CN 202111153131 A CN202111153131 A CN 202111153131A CN 113870283 B CN113870283 B CN 113870283B
- Authority
- CN
- China
- Prior art keywords
- matrix
- feature
- processing
- target
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 222
- 238000012545 processing Methods 0.000 claims abstract description 122
- 230000004927 fusion Effects 0.000 claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims abstract description 58
- 238000010606 normalization Methods 0.000 claims description 52
- 238000005070 sampling Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007480 spreading Effects 0.000 claims description 7
- 238000003892 spreading Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了人像抠图方法、装置、计算机设备及可读存储介质。该方法包括将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图。该方法相比现有技术中,无需人工干预,自动完成抠图操作,抠图效率更高;通过语义分割网络进行抠图,提高了所生成掩模的精细度,从而使得抠图得到的人像图更加精细。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种人像抠图方法、装置、计算机设备及可读存储介质。
背景技术
随着经济社会与技术的发展,人像抠图已经从电影工业逐步走向大众,在诸如视频编辑、vlog、娱乐、安防、电商等等领域得到了广泛的应用。目前人像抠图可区分为两个大方向:(1)通过Segmentation方法。这类方法遵循传统的语义分割思路,同时针对人像的特点(如边缘、关键点等)做进一步优化,达到了较好的分割效果,但由于语义分割任务的天生局限性,这类人像分割虽然精度高但往往较为粗糙,但是优势在于整体上实现简单,性能提升较为容易;(2)通过Matting的方法做人像分割。这类方法借鉴了图像处理中的ImageMatting问题,并结合深度学习的手段,但目前基于深度学习的抠图技术不够精细,效率较低。
发明内容
本发明实施例提供了一种人像抠图方法、装置、计算机设备及可读存储介质,旨在解决现有技术中现有抠图技术不够精细且效率较低的问题。
第一方面,本发明实施例提供了一种人像抠图方法,其包括:
将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;
通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;
根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;
根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图。
第二方面,本发明实施例提供了一种人像抠图装置,其包括:
语义分割模块,用于将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;
归一化模块,用于通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;
二值化模块,用于根根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;
抠图模块,用于根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的人像抠图方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的人像抠图方法。
本发明实施例提供了一种人像抠图方法、装置、计算机设备及可读存储介质。该方法包括将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;对所述目标融合特征矩阵进行softmax处理,得到所述目标融合特征矩阵中每个像素的目标置信度;根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图。该方法通过预训练的语义分割网络对目标处理图像进行处理,得到目标融合特征矩阵,然后通过softmax得到目标融合特征矩阵中每个像素的目标置信度,接着根据预设置信度阈值及目标置信度对目标融合特征矩阵进行二值化处理,得到掩模后,根据掩模对目标处理图像进行抠图处理,得到目标人像图,相比现有技术中,无需人工干预,自动完成抠图操作,抠图效率更高;通过语义分割网络进行抠图,提高了所生成掩模的精细度,从而使得抠图得到的人像图更加精细。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人像抠图方法一实施例的流程示意图;
图2为本发明实施例提供的人像抠图方法一实施例的另一流程示意图;
图3为图2中步骤S220的子流程示意图;
图4为图2中步骤S230的子流程示意图;
图5为本发明实施例提供的人像抠图装置的示意性框图;
图6为本发明实施例提供的人像抠图方法中语义分割网络的网络结构示意图;
图7为本发明实施例提供的人像抠图方法中注意力特征模块的网络结构示意图;
图8为本发明实施例提供的人像抠图方法中上采样模块的网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1所示,图1为本发明实施例提供的人像抠图方法的流程示意图,该方法包括步骤S110~S140。
步骤S110、将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;
本实施例中,目标处理图像可以是任何图片,图片可以是包含人像的图片,也可以是不包含人像的图片。例如,预先拍摄的人像图片、从视频中获取的至少一帧人像图像等。当该待处理图像为待处理人像图像时,该待处理人像图像内所包含的人像可以是一个,也可以是多个。预训练的语义分割网络包括但不限于卷积模块、特征缩放模块、注意力特征提取模块和全连接模块。该语义分割网络对目标处理图像进行语义分割处理,得到目标处理图像的目标融合特征矩阵。
在一实施例中,如图2所示,步骤S110之前,包括:
步骤S210、将样本图像输入所述语义分割网络,依次经过不同分辨率的所述特征缩放模块进行特征缩放处理,得到不同分辨率的特征矩阵;
步骤S220、将不同分辨率的所述特征矩阵分别输入对应分辨率的自注意力模块进行注意力特征提取,得到不同分辨率的注意力特征矩阵;
步骤S230、通过不同分辨率的所述上采样模块对对应分辨率的所述注意力特征矩阵进行上采样处理,得到多个上采样结果,并对多个所述上采样结果进行特征融合处理,得到特征融合矩阵;
步骤S240、基于所述特征融合矩阵与对应的预置标签矩阵进行损失计算,得到特征损失,并基于所述特征损失对所述语义分割网络进行反向传播,更新整个网络的网络参数,得到最优的语义分割网络。
本实施例中,语义分割网络包括不同分辨率的特征缩放模块和不同分辨率的注意力特征提取模块。为了训练语义分割网络,需要准备样本图像,并制作样本图像对应的真实特征矩阵作为标签矩阵,制作方式不限,可以是通过预训练好的深度学习网络进行特征提取,以得到样本图像的真实特征矩阵。如图6所示为语义分割网络的网络结构。语义分割网络的训练过程具体包括:首先将样本图像输入语义分割网络,依次经过不同分辨率的特征缩放模块进行特征缩放处理,将样本图像的特征缩放成不同分辨率的特征矩阵;接着将不同分辨率的特征矩阵分别输入对应分辨率的自注意力模块进行注意力特征提取,得到不同分辨率的注意力特征矩阵;然后对不同分辨率的注意力特征矩阵进行上采样处理,得到多个上采样结果,并对多个上采样结果进行特征融合处理,得到特征融合矩阵;基于特征融合矩阵与对应样本图像的标签矩阵进行损失计算,得到特征损失;最后基于特征损失对语义分割网络进行反向传播,更新整个网络的网络参数,得到最优的语义分割网络。
进一步的,预设不同分辨率包括第一分辨率、第二分辨率和第三分辨率,将样本图像输入语义分割网络,依次经过不同分辨率的特征缩放模块进行特征缩放处理,将样本图像的特征缩放成不同分辨率的特征矩阵,具体包括:样本图像先经过一次卷积处理后,得到卷积特征矩阵;接着卷积特征矩阵经过第一分辨率的特征缩放模块进行特征缩放,输出第一分辨率的特征矩阵;第一分辨率的特征矩阵进入第二分辨率的特征缩放模块进行特征缩放,输出第二分辨率的特征矩阵;第二分辨率的特征矩阵进入第三分辨率的特征缩放模块进行特征缩放,输出第三分辨率的特征矩阵。
在一实施例中,如图3所示,步骤S220包括:
步骤S310、通过每一所述卷积核模块对对应分辨率的所述特征矩阵进行卷积处理,得到卷积结果,并按照预设形状展开所述卷积结果,得到对应分辨率的矢量化矩阵,所述矢量化矩阵包括查询矩阵、键值矩阵和值项矩阵;
步骤S320、采用L2归一化函数对所述查询矩阵和键值矩阵进行特征归一化处理,得到查询归一矩阵和键值归一矩阵,采用relu激活函数对所述值项矩阵进行线性整流处理,得到值项整流矩阵;
步骤S330、根据预置矩阵函数对所述查询归一矩阵、键值归一矩阵和值项整流矩阵进行乘积计算,得到所述乘积结果;
步骤S340、对所述乘积结果依次进行卷积归一化处理和relu激活函数处理,得到处理结果,将所述处理结果和卷积结果进行拼接,得到所述注意力特征矩阵。
本实施例中,通过不同分辨率的注意力特征提取模块对对应分辨率的特征矩阵进行注意力特征提取,注意力特征提取模块包括三个1×1卷积核的conv+bn层组合的卷积核模块。注意力特征提取过程具体如下:通过每一个卷积核模块对对应分辨率的特征矩阵进行卷积处理,得到卷积结果,并按照预设形状展开卷积结果,得到对应分辨率的矢量化矩阵;然后采用L2归一化函数对查询矩阵和键值矩阵进行特征归一化处理,得到查询归一矩阵和键值归一矩阵;采用relu激活函数对值项矩阵进行线性整流处理,得到值项整流矩阵;接着根据预置矩阵函数对查询归一矩阵、键值归一矩阵和值项整流矩阵进行乘积计算,得到乘积结果;对乘积结果依次进行卷积归一化处理和relu激活函数处理,得到处理结果后,将处理结果和卷积结果进行拼接,得到所述注意力特征矩阵。
需要知道的是,矢量化矩阵为注意力机制中的查询Q(query)矩阵、键值K(key)矩阵和值项V(value)矩阵,如图7所示为注意力特征提取模块的网络结构,其中,按形状展开方式C×HW展开卷积结果得到查询Q(query)矩阵和键值K(key)矩阵,按HW×C得到值项V(value)矩阵,C表示特征的通道数(层数),H表示特征的高,W表示特征的宽。以L2归一化函数对查询Q(query)矩阵、键值K(key)矩阵进行特征归一化处理,替换原有注意力特征提取模块中的relu层,使得同语义像素之间具有更大的关联性,提升语义分割网络的分割效果。注意力特征矩阵的矩阵函数没有按照传统计算方式,而是定义矩阵函数的表达式如下:
式中,表示查询归一矩阵,/>表示键值归一矩阵,V表示值项整流矩阵,n表示特征的长和宽之间的乘积,T表示转置矩阵。即是键值归一矩阵的转置矩阵率先与值项整流矩阵相乘后,再与查询归一矩阵相乘。经过注意力计算机制的改进的改进,整个注意力特征提取模块的计算复杂度降低为o(nC2),是原来的C/n,在实际的计算中n>C。
在一实施例中,如图4所示,步骤S230包括:
步骤S410、对第一分辨率的注意力特征矩阵进行上采样处理,得到第一上采样结果;
步骤S420、将所述第一上采样结果与第二分辨率的注意力特征矩阵进行拼接,得到第二分辨率的新注意力特征矩阵;
步骤S430、将第二分辨率的新注意力特征矩阵进行上采样处理,得到第二上采样结果;
步骤S440、将所述第二上采样结果与第三分辨率的注意力特征矩阵进行拼接,得到第三分辨率的新注意力特征矩阵;
步骤S450、对第三分辨率的新注意力特征矩阵依次进行上采样处理及全连接处理,得到所述特征融合矩阵。
本实施例中,不同分辨率至少包括第一分辨率、第二分辨率和第三分辨率。特征融合过程具体如下:首先对第一分辨率的注意力特征矩阵进行上采样处理,得到第一上采样结果;接着将第一上采样结果与第二分辨率的注意力特征矩阵进行拼接,得到第二分辨率的新注意力特征矩阵;然后将第二分辨率的新注意力特征矩阵进行上采样处理,得到第二上采样结果;再将第二上采样结果与第三分辨率的注意力特征矩阵进行拼接,得到第三分辨率的新注意力特征矩阵;最后对第三分辨率的新注意力特征矩阵依次进行上采样处理及全连接处理,得到特征融合矩阵。
例如,预设分辨率为8×8、16×16、32×32,对分辨率32×32的注意力特征矩阵进行上采样处理,得到分辨率16×16的第一上采样结果后,将分辨率16×16的第一上采样结果与分辨率16×16的注意力特征矩阵进行拼接,得到分辨率16×16的新注意力特征矩阵;再将分辨率16×16的新注意力特征矩阵进行上采样处理,得到8×8的第二上采样结果;将分辨率8×8的第二上采样结果与分辨率8×8的注意力特征矩阵进行拼接,得到分辨率8×8的新注意力特征矩阵;最后对分辨率8×8的新注意力特征矩阵依次进行上采样处理和全连接处理(平滑处理),得到特征融合矩阵。其中,上采样模块的网络结构如图8所示,上一级分辨率的注意力特征矩阵经过Up上采样处理后,再经过Relu激活函数进行非线性处理后,与本级分辨率的注意力特征矩阵进行拼接。
步骤S120、通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;
步骤S130、根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;
步骤S140、根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图。
本实施例中,为了确定目标融合特征矩阵中每个像素的目标置信度,利用softmax函数对目标融合特征矩阵进行归一化处理,将像素缩放到0-1之间,以得到目标融合特征矩阵中每个像素的目标置信度;然后根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到目标处理图像的掩模;最后通过掩模定位目标处理图像中的人像位置,对目标处理图像进行抠图处理,得到目标处理图像对应的人像图。
该方法中使用语义分割网络获取目标处理图像的目标融合特征矩阵,接着通过softmax函数对目标融合特征矩阵进行归一化处理,以确定目标融合特征矩阵中每个像素的目标置信度,最后根据预设置信度和目标置信度对目标融合特征矩阵进行二值化处理,得到目标处理图像的掩模,基于掩模对目标处理图像进行抠图处理,得到目标人像图,提高了掩模的精细度,从而使得抠图得到的人像图更加精细,相比现有技术中,无需人工干预,自动完成抠图操作,抠图效率更高。
本发明实施例还提供一种人像抠图装置,该人像抠图装置用于执行前述人像抠图方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的人像抠图装置的示意性框图。该人像抠图装置100可以配置于服务器中。
如图5所示,人像抠图装置100包括语义分割模块110、归一化模块120、二值化模块130、抠图模块140。
语义分割模块110,用于将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;
归一化模块120,用于通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;
二值化模块130,用于根根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;
抠图模块140,用于根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图。
在一实施例中,人像抠图装置还包括:
特征缩放模块,用于将样本图像输入所述语义分割网络,依次经过不同分辨率的所述特征缩放模块进行特征缩放处理,得到不同分辨率的特征矩阵;
注意力特征提取模块,用于将不同分辨率的所述特征矩阵分别输入对应分辨率的自注意力模块进行注意力特征提取,得到不同分辨率的注意力特征矩阵;
特征融合模块,用于对不同分辨率的所述注意力特征矩阵进行上采样处理,得到多个上采样结果,并对多个所述上采样结果进行特征融合处理,得到特征融合矩阵;
参数更新模块,用于基于所述特征融合矩阵与对应的预置标签矩阵进行损失计算,得到特征损失,并基于所述特征损失对所述语义分割网络进行反向传播,更新整个网络的网络参数,得到最优的语义分割网络。
在一实施例中,注意力特征提取模块包括:
形状展开单元,用于通过每一所述卷积核模块对对应分辨率的所述特征矩阵进行卷积处理,得到卷积结果,并按照预设形状展开所述卷积结果,得到对应分辨率的矢量化矩阵,所述矢量化矩阵包括查询矩阵、键值矩阵和值项矩阵;
特征归一化单元,用于采用L2归一化函数对所述查询矩阵和键值矩阵进行特征归一化处理,得到查询归一矩阵和键值归一矩阵,采用relu激活函数对所述值项矩阵进行线性整流处理,得到值项整流矩阵;
特征整流单元,用于根据预置矩阵函数对所述查询归一矩阵、键值归一矩阵和值项整流矩阵进行乘积计算,得到所述乘积结果;
乘积计算单元,用于对所述乘积结果依次进行卷积归一化处理和relu激活函数处理,得到处理结果,将所述处理结果和卷积结果进行拼接,得到所述注意力特征矩阵。
在一实施例中,特征融合模块包括:
第一上采样单元,用于对第一分辨率的注意力特征矩阵进行上采样处理,得到第一上采样结果;
第一拼接单元,用于将所述第一上采样结果与第二分辨率的注意力特征矩阵进行拼接,得到第二分辨率的新注意力特征矩阵;
第二上采样单元,用于将第二分辨率的新注意力特征矩阵进行上采样处理,得到第二上采样结果;
第二拼接单元,用于将所述第二上采样结果与第三分辨率的注意力特征矩阵进行拼接,得到第三分辨率的新注意力特征矩阵;
第三上采样单元,用于对第三分辨率的新注意力特征矩阵依次进行上采样处理及全连接处理,得到所述特征融合矩阵。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的人像抠图方法。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于人像抠图方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种人像抠图方法,其特征在于,包括:
将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;
通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;
根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;
根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图;
所述语义分割网络包括不同分辨率的特征缩放模块、注意力特征提取模块和上采样模块,在所述将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标特征融合图之前,包括:
将样本图像输入所述语义分割网络,依次经过不同分辨率的所述特征缩放模块进行特征缩放处理,得到不同分辨率的特征矩阵;
将不同分辨率的所述特征矩阵分别输入对应分辨率的自注意力模块进行注意力特征提取,得到不同分辨率的注意力特征矩阵;
通过不同分辨率的所述上采样模块对对应分辨率的所述注意力特征矩阵进行上采样处理,得到多个上采样结果,并对多个所述上采样结果进行特征融合处理,得到特征融合矩阵;
基于所述特征融合矩阵与对应的预置标签矩阵进行损失计算,得到特征损失,并基于所述特征损失对所述语义分割网络进行反向传播,更新整个网络的网络参数,得到最优的语义分割网络。
2.根据权利要求1所述的人像抠图方法,其特征在于,所述自注意力模块包括三个1×1卷积核的conv+bn层组合的卷积核模块,所述将不同分辨率的所述特征矩阵分别输入对应分辨率的自注意力模块进行注意力特征提取,得到不同分辨率的注意力特征矩阵,包括:
通过每一所述卷积核模块对对应分辨率的所述特征矩阵进行卷积处理,得到卷积结果,并按照预设形状展开所述卷积结果,得到对应分辨率的矢量化矩阵,所述矢量化矩阵包括查询矩阵、键值矩阵和值项矩阵;
采用L2归一化函数对所述查询矩阵和键值矩阵进行特征归一化处理,得到查询归一矩阵和键值归一矩阵,采用relu激活函数对所述值项矩阵进行线性整流处理,得到值项整流矩阵;
根据预置矩阵函数对所述查询归一矩阵、键值归一矩阵和值项整流矩阵进行乘积计算,得到所述乘积结果;
对所述乘积结果依次进行卷积归一化处理和relu激活函数处理,得到处理结果,将所述处理结果和卷积结果进行拼接,得到所述注意力特征矩阵。
3.根据权利要求2所述的人像抠图方法,其特征在于,所述矩阵函数的表达式如下:
;
其中,表示查询归一矩阵,/>表示键值归一矩阵,V表示值项整流矩阵,n表示特征的长和宽之间的乘积,T表示转置矩阵。
4.根据权利要求1所述的人像抠图方法,其特征在于,所述不同分辨率至少包括第一分辨率、第二分辨率和第三分辨率,所述对不同分辨率的所述注意力特征矩阵进行上采样处理,得到多个上采样结果,并对多个所述上采样结果进行特征融合处理,得到特征融合矩阵,包括:
对第一分辨率的注意力特征矩阵进行上采样处理,得到第一上采样结果;
将所述第一上采样结果与第二分辨率的注意力特征矩阵进行拼接,得到第二分辨率的新注意力特征矩阵;
将第二分辨率的新注意力特征矩阵进行上采样处理,得到第二上采样结果;
将所述第二上采样结果与第三分辨率的注意力特征矩阵进行拼接,得到第三分辨率的新注意力特征矩阵;
对第三分辨率的新注意力特征矩阵依次进行上采样处理及全连接处理,得到所述特征融合矩阵。
5.一种人像抠图装置,其特征在于,包括:
语义分割模块,用于将目标处理图像输入预训练的语义分割网络进行语义分割处理,得到目标融合特征矩阵;
归一化模块,用于通过softmax函数对所述目标融合特征矩阵进行归一化处理,得到所述目标融合特征矩阵中每个像素的目标置信度;
二值化模块,用于根根据预设置信度阈值及目标置信度对所述目标融合特征矩阵中每个像素进行二值化处理,得到掩模;
抠图模块,用于根据所述掩模对所述目标处理图像进行抠图处理,得到目标人像图;
所述人像抠图装置还包括:
特征缩放模块,用于将样本图像输入所述语义分割网络,通过所述特征缩放模块对所述样本图像进行特征缩放处理,得到不同分辨率的特征矩阵;
注意力特征提取模块,用于将不同分辨率的所述特征矩阵分别输入对应分辨率的自注意力模块进行注意力特征提取,得到不同分辨率的注意力特征矩阵;
特征融合模块,用于对不同分辨率的所述注意力特征矩阵进行上采样处理,得到多个上采样结果,并对多个所述上采样结果进行特征融合处理,得到特征融合矩阵;
参数更新模块,用于基于所述特征融合矩阵与对应的预置标签矩阵进行损失计算,得到图像损失,并基于所述图像损失对所述语义分割网络进行反向传播,更新整个网络的网络参数,得到最优的语义分割网络。
6.根据权利要求5所述的人像抠图装置,其特征在于,所述自注意力模块包括三个1×1卷积核的conv+bn层组合的卷积核模块,所述注意力特征提取模块包括:
形状展开单元,用于通过每一所述卷积核模块对对应分辨率的所述特征矩阵进行卷积处理,得到卷积结果,并按照预设形状展开所述卷积结果,得到对应分辨率的矢量化矩阵,所述矢量化矩阵包括查询矩阵、键值矩阵和值项矩阵;
特征归一化单元,用于采用L2归一化函数对所述查询矩阵和键值矩阵进行特征归一化处理,得到查询归一矩阵和键值归一矩阵,采用relu激活函数对所述值项矩阵进行线性整流处理,得到值项整流矩阵;
特征整流单元,用于根据预置矩阵函数对所述查询归一矩阵、键值归一矩阵和值项整流矩阵进行乘积计算,得到所述乘积结果;
乘积计算单元,用于对所述乘积结果依次进行卷积归一化处理和relu激活函数处理,得到处理结果,将所述处理结果和卷积结果进行拼接,得到所述注意力特征矩阵。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的人像抠图方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序, 所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的人像抠图方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111153131.XA CN113870283B (zh) | 2021-09-29 | 2021-09-29 | 人像抠图方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111153131.XA CN113870283B (zh) | 2021-09-29 | 2021-09-29 | 人像抠图方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870283A CN113870283A (zh) | 2021-12-31 |
CN113870283B true CN113870283B (zh) | 2024-05-28 |
Family
ID=79000640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111153131.XA Active CN113870283B (zh) | 2021-09-29 | 2021-09-29 | 人像抠图方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870283B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565755B (zh) * | 2022-01-17 | 2023-04-18 | 北京新氧科技有限公司 | 图像分割方法、装置、设备及存储介质 |
CN114529574B (zh) * | 2022-02-23 | 2024-07-12 | 平安科技(深圳)有限公司 | 基于图像分割的图像抠图方法、装置、计算机设备及介质 |
CN114596370A (zh) * | 2022-03-04 | 2022-06-07 | 深圳万兴软件有限公司 | 视频色彩转换方法、装置、计算机设备及存储介质 |
CN116206114B (zh) * | 2023-04-28 | 2023-08-01 | 成都云栈科技有限公司 | 一种复杂背景下人像提取方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020917A (zh) * | 2012-12-29 | 2013-04-03 | 中南大学 | 一种基于显著性检测的中国古代书法绘画图像复原方法 |
CN103942794A (zh) * | 2014-04-16 | 2014-07-23 | 南京大学 | 一种基于置信度的图像协同抠图方法 |
CN111383232A (zh) * | 2018-12-29 | 2020-07-07 | Tcl集团股份有限公司 | 抠图方法、装置、终端设备及计算机可读存储介质 |
CN112215100A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种不平衡训练样本下针对退化图像的目标检测方法 |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN112991377A (zh) * | 2021-04-22 | 2021-06-18 | 辽宁向日葵教育科技有限公司 | 一种基于opencv和shader融合技术的抠像算法 |
CN113313662A (zh) * | 2021-05-27 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113379786A (zh) * | 2021-06-30 | 2021-09-10 | 深圳市斯博科技有限公司 | 图像抠图方法、装置、计算机设备及存储介质 |
-
2021
- 2021-09-29 CN CN202111153131.XA patent/CN113870283B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020917A (zh) * | 2012-12-29 | 2013-04-03 | 中南大学 | 一种基于显著性检测的中国古代书法绘画图像复原方法 |
CN103942794A (zh) * | 2014-04-16 | 2014-07-23 | 南京大学 | 一种基于置信度的图像协同抠图方法 |
CN111383232A (zh) * | 2018-12-29 | 2020-07-07 | Tcl集团股份有限公司 | 抠图方法、装置、终端设备及计算机可读存储介质 |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN112215100A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种不平衡训练样本下针对退化图像的目标检测方法 |
CN112991377A (zh) * | 2021-04-22 | 2021-06-18 | 辽宁向日葵教育科技有限公司 | 一种基于opencv和shader融合技术的抠像算法 |
CN113313662A (zh) * | 2021-05-27 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113379786A (zh) * | 2021-06-30 | 2021-09-10 | 深圳市斯博科技有限公司 | 图像抠图方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113870283A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113870283B (zh) | 人像抠图方法、装置、计算机设备及可读存储介质 | |
CN109493350B (zh) | 人像分割方法及装置 | |
Kim et al. | Representative color transform for image enhancement | |
CN111768432B (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
Dong et al. | Learning a deep convolutional network for image super-resolution | |
CN113221869B (zh) | 医疗发票结构化信息提取方法、装置设备及存储介质 | |
Agarwal et al. | Image forgery detection and deep learning techniques: A review | |
US8995782B2 (en) | System and method for enhancing the legibility of degraded images | |
Liang et al. | Improved non-local iterative back-projection method for image super-resolution | |
CN113592776A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
US20200364878A1 (en) | Patch expansion for segmentation network training | |
CN114926342A (zh) | 图像超分辨率重建模型构建方法、装置、设备及存储介质 | |
CN112700460A (zh) | 图像分割方法及系统 | |
Rana et al. | MSRD-CNN: Multi-scale residual deep CNN for general-purpose image manipulation detection | |
JP5199349B2 (ja) | 高性能画像識別 | |
Frantc et al. | Machine learning approach for objective inpainting quality assessment | |
Kunbaz et al. | Fake image detection using DCT and local binary pattern | |
Chen et al. | Eigen-patch: Position-patch based face hallucination using eigen transformation | |
Fattal et al. | Edge-based image coarsening | |
Safar et al. | Learning shape priors for object segmentation via neural networks | |
He et al. | A support-denoiser-driven framework for single image restoration | |
CN112734655B (zh) | 一种基于卷积神经网络图像对crm增强的低光图像增强方法 | |
CN115376022A (zh) | 基于神经网络的小目标检测算法在无人机航拍中的应用 | |
Murguia | Document segmentation using texture variance and low resolution images | |
Lai et al. | Image super-resolution based on segmentation and classification with sparsity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |