CN111627038A - 一种背景去除方法、装置、设备及可读存储介质 - Google Patents
一种背景去除方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111627038A CN111627038A CN202010460912.2A CN202010460912A CN111627038A CN 111627038 A CN111627038 A CN 111627038A CN 202010460912 A CN202010460912 A CN 202010460912A CN 111627038 A CN111627038 A CN 111627038A
- Authority
- CN
- China
- Prior art keywords
- attention
- feature
- sampling
- image
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例提供的背景去除方法、装置、设备及可读存储介质,对目标图像进行多次下采样,并依据相邻两次下采样的结果得到第一注意力特征,进一步,对第一注意力特征进行多次上采样,并依据第一注意力特征以及前一次上采样的结果,得到本次上采样的结果,并将最后一次上采样的结果作为第二注意力特征。进一步,依据该第二注意力特征以及目标图像,确定待去除背景的图像中的前景像素。综上,本方法通过构建下采样注意力机制,获取多个第一注意力特征,并通过构建上采样注意力机制对获取第二注意力特征。可见,在提取重要的图像信息的同时保留上采样和下采样得到的共有图像信息,因此提高了待去除背景的图像中的前景像素的准确度。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种背景去除方法、装置、设备及可读存储介质。
背景技术
图像去除背景常被用在电影制作和数字图像编辑领域,常见的做法是提前布置好纯色背景的场地,如绿色的幕布,拍摄后利用人工交互方式进行背景去除。但现实生活中几乎不存在纯色背景,导致抠图应用的场景受限,并且,人工交互的方式导致时间成本较高,所以效率较低。
因此,自动背景去除方式应运而生。但现有的背景去除算法的效果有待提高。
发明内容
申请人在研究的过程中发现,现有的背景去除算法的效果不好的原因至少包括:连续的下采样以及上采样会造成特征丢失。有鉴于此,本申请提供了一种背景去除方法、装置、设备及可读存储介质,目的在于解决上述特征丢失的问题,如下:
一种背景去除方法,包括:
获取目标图像,所述目标图像通过叠加待去除背景的图像、以及所述待去除背景的图像的三分图得到;
对所述目标图像进行N次下采样,第i次所述下采样的输出作为第i+1次所述下采样的输入,其中,1≤i≤N-1;
获取N-1个第一注意力特征,其中,第i个所述第一注意力特征依据第i次所述下采样的结果以及第i+1次所述下采样的结果确定;
通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,第j次所述上采样依据第i个所述第一注意力特征、以及第j-1次所述上采样的结果,确定第j次所述上采样的结果,最后一次所述上采样的结果为所述第二注意力特征,其中,j+i=N;
依据所述第二注意力特征以及所述目标图像,确定所述待去除背景的图像中的前景像素。
可选地,依据所述第二注意力特征,确定所述待去除背景的图像中的前景像素,包括:
通过进行多次运算,确定所述待去除背景的图像中的前景像素;
其中,所述运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果;第一次所述运算输入的所述特征图由所述第二注意力特征以及所述目标图像叠加得到,其它所述运算输入的所述特征图由前一次所述运算的输出结果以及所述目标图像叠加得到,最后一次所述运算的输出为所述前景像素。
可选地,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果,包括:
依据输入的所述特征图、以及所述特征图的通道注意力运算结果,生成第一特征图,并依据所述第一特征图、以及所述第一特征图的空间注意力运算结果,生成第二特征图,所述第二特征图为所述输出结果。
可选地,对所述目标图像进行N次下采样,获取N-1个第一注意力特征,对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,依据所述第二注意力特征,确定所述待去除背景的图像中的前景像素,包括:
将所述目标图像输入预设的卷积神经网络模型,得到所述卷积神经网络模型输出的所述待去除背景的图像中的前景像素;
其中,所述卷积神经网络模型包括:
对所述目标图像进行N次下采样的编码单元;
获取N-1个第一注意力特征的下采样注意力单元;
通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征的解码单元。
可选地,卷积神经网络模型还包括:
通过进行多次运算,确定所述待去除背景的图像中的前景像素的精调注意力模块。
可选地,卷积神经网络模型的损失函数包括:
遵循高斯分布的连续性权重函数。
一种背景去除装置,包括:
获取单元,用于获取目标图像,所述目标图像通过叠加待去除背景的图像、以及所述待去除背景的图像的三分图得到;
编码单元,用于对所述目标图像进行N次下采样,第i次所述下采样的输出作为第i+1次所述下采样的输入;
下采样注意力单元,用于获取N-1个第一注意力特征,其中,第i个所述第一注意力特征依据第i次所述下采样的结果以及第i+1次所述下采样的结果确定;
解码单元,用于通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,第j次所述上采样依据第i个所述第一注意力特征、以及第j-1次所述上采样的结果,确定第j次所述上采样的结果,最后一次所述上采样的结果为所述第二注意力特征,其中,j+i=N;
确定单元,用于依据所述第二注意力特征以及所述目标图像,确定所述待去除背景的图像中的前景像素。
可选地,所述编码单元、所述下采样注意力单元、所述解码单元和所述确定单元,属于预设的卷积神经网络模型;
所述确定单元为所述卷积神经网络模型中的前景像素的精调注意力模块,用于通过进行多次运算,确定所述待去除背景的图像中的前景像素的精调注意力模块,所述运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果;第一次所述运算输入的所述特征图由所述第二注意力特征以及所述目标图像叠加得到,其它所述运算输入的所述特征图由前一次所述运算的输出结果以及所述目标图像叠加得到,最后一次所述运算的输出为所述前景像素。
一种背景去除设备,包括存储器和处理器;
所述存储器用于存储程序;所述处理器用于运行所述程序,以实现如上所述的背景去除方法的各个步骤。
一种可读存储介质,所述可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上所述的背景去除方法的各个步骤。
由上述技术方案可以看出,本申请所述的背景去除方法、装置、设备及可读存储介质,对目标图像进行多次下采样,并依据相邻两次下采样的结果得到第一注意力特征,进一步,对第一注意力特征进行多次上采样,并依据第一注意力特征以及前一次上采样的结果,得到本次上采样的结果,并将最后一次上采样的结果作为第二注意力特征。进一步,依据该第二注意力特征以及目标图像,确定待去除背景的图像中的前景像素。综上,本方法通过构建下采样注意力机制,获取多个第一注意力特征,并通过构建上采样注意力机制获取第二注意力特征。可见,通过构建两种注意力机制,即上采样注意力机制和下采样注意力机制,本方法在提取重要的图像信息的同时保留上采样和下采样得到的共有图像信息,因此提高了待去除背景的图像中的前景像素的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种背景去除方法的流程示意图;
图2为本申请实施例提供的一种背景去除模型的结构示意图;
图3为本申请实施例提供的下采样注意力模块的结构示意图;
图4为本申请实施例提供的上采样注意力模块的结构示意图;
图5为本申请实施例提供的一种全注意力模块的结构示意图;
图6为本申请实施例提供的连续性权重函数的函数示意图;
图7为本申请实施例提供的一种背景去除装置的结构示意图;
图8为本申请实施例提供的一种背景去除设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种背景去除方法的流程示意图,如图1所示,本方法可以包括以下步骤:
S101、叠加待去除背景的图像、以及待去除背景的图像的三分图得到目标图像。
具体地,待去除背景的图像的三分图指的是该待去除背景的图像的灰度图,需要说明的是,待去除背景的图像的像素可以分为前景像素,背景像素和透明像素三种类别,本实施例使用待去除背景的图像的三分图中像素的灰度,区分待去除背景的图像的像素的类别,即区别前景像素,背景像素和透明像素。
本实施例中,得到待去除背景的图像的三分图以及叠加得到目标图像的具体实现方式可以包括多种,具体可以参见现有技术。
S102、对目标图像进行多次下采样,得到每一次下采样的下采样结果。
具体地,本实施例中,记N为下采样的次数,N的取值可以依据实际应用进行预设。本实施例中,第一次下采样的输入为目标图像,第一次下采样的输出为该目标图像的特征图,进一步,将第一次下采样之后的每一次下采样的输出作为低级特征图输入至下一次下采样,由此得到每一次下采样输出的特征图。也即,本实施将第i次(1≤i≤N-1)的下采样的输出作为第i+1次下采样的输入,由此得到第i+1次下采样的输出。
需要说明的是,每一次的下采样的过程为依据输入的初级特征图编码得到较高级特征图的过程,因此,每一次下采样均得到能够表征目标图像的原始信息的特征图。其中,原始信息可以包括多种,例如边缘信息、前景信息、以及背景信息。
进一步需要说明的是,每一次下采样输出的特征图表征的原始信息有差别,一般地,连续的下采样使得每一次下采样输出的特征图相较于该次下采样输入的特征图具有更高的置信度,并且在丢失部分边缘信息的同时突出前景信息。
S103、获取多个第一注意力特征。
由上可知,相较于第i次下采样输出的特征图,第i+1次下采样输出的特征图会丢失部分边缘信息,但是更加突出前景信息。所以,本实施例引入注意力机制,依据相邻两次下采样输出的特征图,编码得到一个第一注意力特征,本实施例可以获取N-1个第一注意力特征,可以理解的是,任一第一注意力特征即为目标图像的一个特征图,不同的第一注意力特征所突出的图像信息不同。
具体地,第i个第一注意力特征依据第i次下采样的结果以及第i+1次下采样的结果确定。
以第i个第一注意力特征的获取方法为例,将第i次下采样的结果与第i+1次下采样的结果相乘,得到第i个第一注意力特征。其中,第i次下采样的结果即为第i次下采样输出的特征图,第i+1次下采样的结果为第i+1次下采样输出的特征图,经过进一步处理得到的特征图,本实施例中,处理方法为:将第i+1次下采样输出的特征图放大,得到尺寸与第i次下采样输出的特征图一致的特征图。具体可以参照下述公式(1)。
F(i) encoder=Flow*T(Fhigh) (1)
式(1)中,F(i) encoder为第i个第一注意力特征,Flow为第i次下采样的结果,即第i次下采样得到的特征图,Fhigh为第i+1次下采样的结果,即第i+1次下采样得到的特征图,T()表示对Fhigh所进行的放大运算。具体的编码实现方法可以参照现有技术,可以理解的是,将相邻两次下采样的结果相乘得到的第一注意力特征,提取并保留了相邻两次下采样结果共有的特征信息。
S104、通过对第一注意力特征进行多次上采样,获取第二注意力特征。
需要说明的是,上采样的过程为依据输入的特征图解码得到输出的特征图的过程,并且,多次的上采样会导致特征图分辨率降低,所以本实施例中,引入上采样注意力机制,记任一次上采样为第j次上采样,当j=1时,依据第N-1个第一注意力特征、以及第N次下采样结果,确定第1次上采样的结果。当j≥2时,依据第i个第一注意力特征、以及第j-1次上采样的结果,确定第j次上采样的结果。需要说明的是,根据上采样解码与下采样编码的关系,本实施例中上采样的次数为下采样次数减1,也即N-1次,并且,j+i=N。
以第j次(j≥2)上采样为例,确定第j次上采样的结果的方法为,将第i个第一注意力特征与第j-1次上采样的结果相加,并将相加的结果与第j-1次上采样的结果相乘,得到第j次上采样的结果。具体可以参照下述公式(2)。
F(j) decoder=(F(i) encoder+F(j-1) decoder)*F(j-1) decoder (2)
式(2)中,F(j) decoder为第j次上采样的结果,也即第j次上采样解码得到的特征图,F(i) encoder为第i个第一注意力特征,F(j-1) decoder为第j-1次上采样的结果,也即第j-1次上采样解码得到的特征图。需要说明的是,该特征图为经过放大运算的特征图,即F(i) encoder和F(j) decoder的尺寸相同。
可以理解的是,本实施中,将下采样编码得到的第一注意力特征以及上采样解码得到的特征图同时作为上采样过程的输入,可以实现将编码和解码的特征信息进行融合,并提取最有效的特征。因此,将最后一次上采样的结果作为第二注意力特征,也即,本实施例中将第N-1次的上采样的结果F(N-1) decode作为第二注意力特征,记为Fout。
需要说明的是,下采样编码过程或者上采样解码过程输入的特征图(尺寸为H*W)表现形式为一个R*H*W*C的特征矩阵,其中R代表样本批次,H代表矩阵的高,W代表矩阵的宽,C代表矩阵的层数(通道数)。
S105、依据第二注意力特征以及目标图像,确定待去除背景的图像中的前景像素。
本实施例中,通过进行多次运算,确定待去除背景的图像中的前景像素。其中,每一次运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果。
具体地,第一次运算输入的特征图由第二注意力特征以及目标图像叠加得到,其它运算输入的特征图由前一次运算的输出结果以及目标图像叠加得到。叠加得到特征图的方法参见现有技术。本实施例中,将运算的次数记为M,则,第k次(2≤k≤M)运算的输入为第k-1次运算的输出结果以及目标图像叠加得到的特征图。需要说明的是,M的取值依据实际要求预设。
本实施例中,任一次运算的具体实现方式可以包括:
A1、对输入的特征图进行通道注意力运算,得到通道注意力运算结果。
其中,通道注意力运算至少包括去除特征图中的冗余信息,实现方式可以参照现有技术。
A2、依据特征图以及特征图的通道注意力运算结果,生成第一特征图。
本实施例中,可以将特征图与通道注意力运算结果相乘得到第一特征图。
A3、对第一特征图进行空间注意力运算,得到第一特征图的空间注意力运算结果。
A4、依据第一特征图、以及第一特征图的空间注意力运算结果,生成第二特征图,第二特征图即为运算的为输出结果。
本实施例中,可以将第一特征图与第一特征图的空间注意力运算结果相乘得到第二特征图。
需要说明的是,每一次运算都引入通道注意力机制以及空间注意力机制,所以可以增强目标图像的空间信息,并且可以去除特征图中的冗余信息。因此,本实施例将最后一次运算的输出结果作为前景像素。
由上述技术方案可以看出,本申请实施例提供的背景去除方法,对目标图像进行多次下采样,并依据相邻两次下采样的结果得到第一注意力特征,进一步,对第一注意力特征进行多次上采样,并依据第一注意力特征以及前一次上采样的结果,得到本次上采样的结果,并将最后一次上采样的结果作为第二注意力特征。进一步,依据该第二注意力特征以及目标图像,确定待去除背景的图像中的前景像素。综上,本方法通过构建下采样注意力机制,获取多个第一注意力特征,并通过构建上采样注意力机制对获取第二注意力特征。可见,避免了连续下采样和上采样导致的特征丢失以及分辨度下降的问题,实现了在提取重要的图像信息的同时保留上采样和下采样得到的共有图像信息,因此提高了待去除背景的图像中的前景像素的准确度。
进一步,本申请实施例依据第二注意力特征以及目标图像,确定待去除背景的图像中的前景像素的过程中,引入通道注意力机制以及空间注意力机制,通过通道注意力运算去除大量的冗余信息,通过空间注意力机制增加对空间信息的提取,相比于现有技术中普通的卷积运算,本方法能够更充分的提取待去除背景的图像的全局信息,从而保证了背景去除的效果。
进一步,图1所示的背景去除方法可以应用于背景去除模型,本实施例中,背景去除模型为预设的卷积神经网络模型,该卷积神经网络模型的输入为目标图像,输出为待去除背景的图像中的前景像素,其中,目标图像通过叠加待去除背景的图像以及该图像的三分图得到。
图2为本申请实施例提供的一种背景去除模型的结构示意图,如图2所示,该模型至少包括:对目标图像进行多次下采样的编码单元201、获取多个第一注意力特征的下采样注意力单元202、通过对第一注意力特征进行多次上采样,获取第二注意力特征的解码单元203。
本实施例中,背景去除模型还可以包括:通过进行多次运算,确定待去除背景的图像中的前景像素的精调注意力模块204。
需要说明的是,以图2所示的背景去除模型结构为例,背景去除模型每一单元的结构及执行方式可以参照下述B1~B4。
B1、编码单元201包括N个编码模块,每一编码模块用于对输入的特征图完成一次下采样,得到编码后的输出。
如图2所示,编码单元包括:编码模块h1、编码模块h2、......、以及编码模块hN。其中,编码模块h1的输入为目标图像,编码模块h1可以对目标图像进行编码,得到第一次下采样输出的特征图F1。编码模块hi(i≥2)的输入为编码模块hi-1输出的特征图Fi-1,输入为第i次下采样输出的特征图Fi。
由此,编码单元可以完成对目标图像的N次下采样,得到每一次下采样的输出,每一次下采样的输出即为目标图像的一个特征图。可以理解的是,相邻两个编码模块得到的特征图均能表征目标图像的图像信息。
需要说明的是,每一编码模块的结构可以参见现有技术。
B2、下采样注意力单元包括N-1个下采样注意力模块,如图2所示的E1、E2、......以及EN-1。其中,每一下采样注意力模块用于获取一个第一注意力特征。
具体地,第i个(1≤i≤N-1)下采样注意力模块Ei的输入为第i个编码模块hi编码输出的特征图Fi以及第i+1个编码模块hi+1编码输出的特征图Fi+1,第i个下采样注意力模块Ei的输出为第i个第一注意力特征。
图3为本申请实施例提供的下采样注意力模块的结构示意图。如图3所示,每一下采样注意力模块中包括第一特征处理模块C1、第二特征处理模块C2、以及第三特征处理模块C3。
以第i个下采样注意力模块Ei为例,第一特征处理模块C1用于依据第i次下采样输出的特征图得到第i次下采样的结果,第二特征处理模块C2用于依据第i+1次下采样输出的特征图得到第i+1次下采样的结果。可以理解的是,经过处理后的第i次下采样的结果以及第i+1次下采样的结果的尺寸相同。第三特征处理模块C3用于将第i次下采样的结果与第i+1次下采样的结果相乘,得到第i个第一注意力特征。
因此,下采样注意力单元依据多个下采样注意力模块可以获取N-1个第一注意力特征。需要说明的是,每一下采样注意力模块的执行过程可以参见上述S103。
B3、解码单元包括N-1个上采样注意力模块,如图2所示的D1、D2、......以及DN-1,其中,每一解码模块用于进行一次上采样解码,得到上采样的输出,可以理解的是,每一上采样的输出为特征图。
具体地,第1个上采样注意力模块D1的输入为第N-1个下采样注意力模块EN-1输出的第一注意力特征以及第N个编码模块hN输出的特征图,第1个上采样注意力模块D1的输出为上采样得到的特征图。
进一步地,第j个(j=N-i)上采样注意力模块Dj的输入为第i个下采样注意力模块输出的第一注意力特征以及第j-1上采样注意力模块的输出,第j个上采样注意力模块Dj的输出为第j次上采样得到的特征图。
图4为本申请实施例提供的上采样注意力模块的结构示意图。
如图4所示,每一上采样注意力模块中包括第一特征处理模块G1、第二特征处理模块G2、以及第三特征处理模块G3。
以第j个上采样注意力模块Dj为例,第一特征处理模块G1用于依据第j-1个上采样注意力模块Dj-1的输出,得到第j-1次上采样的结果,一般地,第一特征处理模块G1的处理特征图的方式为将特征图的尺寸放大2倍。需要说明的是,经过处理后的第j-1次上采样的结果以及第i个下采样注意力模块输出的第一注意力特征的尺寸相同。
第二特征处理模块G2将第i个下采样注意力模块输出的第一注意力特征以及第一特征处理模块G1输出的第j-1次上采样的结果相加,并输出相加结果。
第三特征处理模块G3将第二特征处理模块G2输出的相加结果与第一特征处理模块G1输出的第j-1次上采样的结果相乘,并输出第j次上采样的结果。
综上,上采样注意力模块通过N-1个上采样注意力模块,对第一注意力特征进行N-1次上采样,得到上采样的结果,本实施例将最后一个上采样注意力模块输出的上采样的结果作为第二注意力特征。
需要说明的是,每一上采样注意力模块的执行过程可以参见上述S104。
B4、精调注意力模块包括多个全注意力模块,本实施例中全注意力模块的数量为M,如图2所示的Q1、Q2、......、以及QM。需要说明的是,M的取值依据实际需要进行预设。
每一全注意力模块Qm用于依据输入的特征图,运算得到输出结果。需要说明的是,第1个全注意力模块输入的特征图由为第二注意力特征以及目标图像叠加得到,其他全注意力模块输入的特征图由上一个全注意力模块的输出结果以及目标图像叠加得到。
图5为本申请实施例提供的一种全注意力模块的结构示意图,如图5所示,每一全注意力模块包括通道注意力模块T、第一相乘模块X1、空间注意力模块S、以及第二相乘模块X2。
以第m个全注意力模块Qm为例,通道注意力模块T对输入的特征图Finput进行进行通道注意力运算,得到特征图Finput的通道注意力运算结果。其中,输入的特征图Finput由第m-1个全注意力模块Qm-1的输出结果以及目标图像叠加得到。
第一相乘模块X1将特征图Finput的通道注意力运算结果与特征图Finput相乘,得到第一特征图。
空间注意力模块S对第一特征图进行空间注意力运算,得到第一特征图的空间注意力运算结果。
第一相乘模块X2将第一特征图的空间注意力运算结果与第一特征图相乘,得到全注意力模块Qm的输出结果,即第二特征图Frefind。
由此,精调注意力模块通过多个通道及空间注意力模块进行多次运算,得到多个第二特征图,本实施例中,将最后一次运算得到的第二特征图作为待去除背景的图像中的前景像素。
综上,本申请实施例提供的背景去除模型包括对目标图像进行多次下采样的编码单元、获取多个第一注意力特征的下采样注意力单元、通过对第一注意力特征进行多次上采样,获取第二注意力特征的解码单元,还包括通过进行多次运算,确定待去除背景的图像中的前景像素的精调注意力模块。
其中,下采样注意力单元通过多个下采样注意力模块得到的第一注意力特征,避免由于连续下采样和下采样导致的特征丢失问题,例如,下采样导致的边缘信息丢失。下采样注意力单元通过多个上采样注意力模块得到的第二注意力特征,避免由于连续上采样导致的特征分辨率降低的问题。精调注意力模块通过多个全注意力模块,避免传统全卷积神经网络对特征图的信息聚合导致的信息冗余。
综上,本申请实施例提供的背景去除模型,以目标图像为输入,可以输出待去除背景的图像的前景像素,实现了端到端的自动背景去除。并且,该模型通过构建三种不同注意力机制(即上采样注意力模块、下采样注意力模块、以及全注意力模块),避免现有技术中由于连续下采样或上采样导致的特征丢失、分辨率降低、以及特征信息冗余等问题。由此,本模型在提取重要的图像信息的同时保留上采样和下采样得到的共有图像信息,提高了待去除背景的图像中的前景像素的准确度,以保证良好的背景去除效果。
需要说明的是,本申请实施例提供的背景去除模型为预先训练得到的卷积神经网络模型。本实施例中,卷积神经网络模型的训练数据为带标注的样本目标图像,其中,目标图像由样本图像和样本图像的三分图叠加得到,每一样本目标图像的标注值为样本图像的真实样本值,也即样本图像实际的α值(即像素的透明度)。
需要说明的是,目标样本图像中前景像素,背景像素和透明像素的训练难易程度不同,因此,本实施例中,模型训练过程中的损失函数包括:遵循高斯分布的连续性权重函数。函数表达式可以参见下述公式(3)。
图6为公式(3)所示的遵循高斯分布的连续性权重函数的函数示意图,图6中,横坐标代表样本目标图像的标注值,即图6中标识的real alpha value,阴影区域代表α(即像素的透明度)取值范围,即α为取值范围为[0,1],纵坐标代表权重系数,即图6中标识的weightcoefficient。图6中,曲线L1的μ=0.5且σ=0.25,曲线L2的μ=0.5且σ=0.5,曲线L2的μ=0.5且σ=0.75。
由图6可知,随着训练推移,模型针对三种像素的权重系数的差异程度会逐渐缩小。
需要说明的是,具体的模型训练过程可以参照现有技术。
由上述模型的训练方法可以看出,本申请实施例基于L1损失函数提出了一种遵循高斯分布的连续性权重函数。相比于现有技术中的分段式权重函数,连续性权重函数可以针对不同像素值赋给不同的权重,同时高斯分布的形状天然满足背景去除任务,即在透明像素处权重最大,向前景像素和背景像素过度逐渐减小。由此,遵循高斯分布的连续性权重函数可以使模型在训练时关注透明像素,从而进行样本挖掘。并且,在训练时,本方法同时设置了基于训练轮次动态的调整权重函数的参数,随着训练的推移,连续性权重函数对应的曲线越来越扁平,使得训练初期着重学习透明像素,训练后期可以保证模型不偏重于透明像素的学习,而是兼顾到前景像素和背景像素的学习。
图7为本申请实施例提供的一种背景去除装置的结构示意图,如图7所示,本装置包括:
获取单元,用于获取目标图像,所述目标图像通过叠加待去除背景的图像、以及所述待去除背景的图像的三分图得到;
编码单元,用于对所述目标图像进行N次下采样,第i次所述下采样的输出作为第i+1次所述下采样的输入;
下采样注意力单元,用于获取N-1个第一注意力特征,其中,第i个所述第一注意力特征依据第i次所述下采样的结果以及第i+1次所述下采样的结果确定;
解码单元,用于通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,第j次所述上采样依据第i个所述第一注意力特征、以及第j-1次所述上采样的结果,确定第j次所述上采样的结果,最后一次所述上采样的结果为所述第二注意力特征,其中,j+i=N;
确定单元,用于依据所述第二注意力特征以及所述目标图像,确定所述待去除背景的图像中的前景像素。
可选地,确定单元用于依据所述第二注意力特征,确定所述待去除背景的图像中的前景像素时,具体用于:
通过进行多次运算,确定所述待去除背景的图像中的前景像素;
其中,所述运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果;第一次所述运算输入的所述特征图由所述第二注意力特征以及所述目标图像叠加得到,其它所述运算输入的所述特征图由前一次所述运算的输出结果以及所述目标图像叠加得到,最后一次所述运算的输出为所述前景像素。
可选地,确定单元用于依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果时,具体用于:
依据输入的所述特征图、以及所述特征图的通道注意力运算结果,生成第一特征图,并依据所述第一特征图、以及所述第一特征图的空间注意力运算结果,生成第二特征图,所述第二特征图为所述输出结果。
可选地,本装置具体还可以用于:
将所述目标图像输入预设的卷积神经网络模型,得到所述卷积神经网络模型输出的所述待去除背景的图像中的前景像素;
可选地,所述编码单元、所述下采样注意力单元、所述解码单元和所述确定单元,属于预设的卷积神经网络模型;
所述确定单元为所述卷积神经网络模型中的前景像素的精调注意力模块,用于通过进行多次运算,确定所述待去除背景的图像中的前景像素的精调注意力模块,所述运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果;第一次所述运算输入的所述特征图由所述第二注意力特征以及所述目标图像叠加得到,其它所述运算输入的所述特征图由前一次所述运算的输出结果以及所述目标图像叠加得到,最后一次所述运算的输出为所述前景像素。
可选地,卷积神经网络模型的损失函数包括:遵循高斯分布的连续性权重函数。
图8为本申请实施例提供的一种背景去除设备的结构示意图,如图8所示,该设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现上述的背景去除方法的各个步骤。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现上述的背景去除方法的各个步骤。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种背景去除方法,其特征在于,包括:
获取目标图像,所述目标图像通过叠加待去除背景的图像、以及所述待去除背景的图像的三分图得到;
对所述目标图像进行N次下采样,第i次所述下采样的输出作为第i+1次所述下采样的输入,其中,1≤i≤N-1;
获取N-1个第一注意力特征,其中,第i个所述第一注意力特征依据第i次所述下采样的结果以及第i+1次所述下采样的结果确定;
通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,第j次所述上采样依据第i个所述第一注意力特征、以及第j-1次所述上采样的结果,确定第j次所述上采样的结果,最后一次所述上采样的结果为所述第二注意力特征,其中,j+i=N;
依据所述第二注意力特征以及所述目标图像,确定所述待去除背景的图像中的前景像素。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第二注意力特征,确定所述待去除背景的图像中的前景像素,包括:
通过进行多次运算,确定所述待去除背景的图像中的前景像素;
其中,所述运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果;第一次所述运算输入的所述特征图由所述第二注意力特征以及所述目标图像叠加得到,其它所述运算输入的所述特征图由前一次所述运算的输出结果以及所述目标图像叠加得到,最后一次所述运算的输出为所述前景像素。
3.根据权利要求2所述的方法,其特征在于,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果,包括:
依据输入的所述特征图、以及所述特征图的通道注意力运算结果,生成第一特征图,并依据所述第一特征图、以及所述第一特征图的空间注意力运算结果,生成第二特征图,所述第二特征图为所述输出结果。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述目标图像进行N次下采样,获取N-1个第一注意力特征,对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,依据所述第二注意力特征,确定所述待去除背景的图像中的前景像素,包括:
将所述目标图像输入预设的卷积神经网络模型,得到所述卷积神经网络模型输出的所述待去除背景的图像中的前景像素;
其中,所述卷积神经网络模型包括:
对所述目标图像进行N次下采样的编码单元;
获取N-1个第一注意力特征的下采样注意力单元;
通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征的解码单元。
5.根据权利要求4所述的方法,其特征在于,所述卷积神经网络模型还包括:
通过进行多次运算,确定所述待去除背景的图像中的前景像素的精调注意力模块。
6.根据权利要求4所述的方法,其特征在于,所述卷积神经网络模型的损失函数包括:
遵循高斯分布的连续性权重函数。
7.一种背景去除装置,其特征在于,包括:
获取单元,用于获取目标图像,所述目标图像通过叠加待去除背景的图像、以及所述待去除背景的图像的三分图得到;
编码单元,用于对所述目标图像进行N次下采样,第i次所述下采样的输出作为第i+1次所述下采样的输入;
下采样注意力单元,用于获取N-1个第一注意力特征,其中,第i个所述第一注意力特征依据第i次所述下采样的结果以及第i+1次所述下采样的结果确定;
解码单元,用于通过对所述第一注意力特征进行N-1次上采样,获取第二注意力特征,第j次所述上采样依据第i个所述第一注意力特征、以及第j-1次所述上采样的结果,确定第j次所述上采样的结果,最后一次所述上采样的结果为所述第二注意力特征,其中,j+i=N;
确定单元,用于依据所述第二注意力特征以及所述目标图像,确定所述待去除背景的图像中的前景像素。
8.根据权利要求7所述的装置,其特征在于,所述编码单元、所述下采样注意力单元、所述解码单元和所述确定单元,属于预设的卷积神经网络模型;
所述确定单元为所述卷积神经网络模型中的前景像素的精调注意力模块,用于通过进行多次运算,确定所述待去除背景的图像中的前景像素的精调注意力模块,所述运算为,依据输入的特征图、使用通道注意力运算以及空间注意力运算,生成输出结果;第一次所述运算输入的所述特征图由所述第二注意力特征以及所述目标图像叠加得到,其它所述运算输入的所述特征图由前一次所述运算的输出结果以及所述目标图像叠加得到,最后一次所述运算的输出为所述前景像素。
9.一种背景去除设备,其特征在于,包括存储器和处理器;
所述存储器用于存储程序;所述处理器用于运行所述程序,以实现权利要求1-6任一项所述的背景去除方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求1-6任一项所述的背景去除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010460912.2A CN111627038B (zh) | 2020-05-27 | 2020-05-27 | 一种背景去除方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010460912.2A CN111627038B (zh) | 2020-05-27 | 2020-05-27 | 一种背景去除方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627038A true CN111627038A (zh) | 2020-09-04 |
CN111627038B CN111627038B (zh) | 2021-05-11 |
Family
ID=72271926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010460912.2A Active CN111627038B (zh) | 2020-05-27 | 2020-05-27 | 一种背景去除方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627038B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386531A (zh) * | 2022-01-25 | 2022-04-22 | 山东力聚机器人科技股份有限公司 | 基于双级注意力的图像识别方法及装置 |
CN115035135A (zh) * | 2022-07-06 | 2022-09-09 | 杭州王道控股有限公司 | 图像抠图方法、装置、电子设备及存储介质 |
EP4216161A1 (en) * | 2022-01-24 | 2023-07-26 | Leica Microsystems CMS GmbH | Apparatus, method and machine learning product for computing a baseline estimate |
CN116612142A (zh) * | 2023-07-19 | 2023-08-18 | 青岛市中心医院 | 一种肺癌ct样本数据智能分割方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN109493364A (zh) * | 2018-09-26 | 2019-03-19 | 重庆邮电大学 | 一种结合残差注意力和上下文信息的目标跟踪算法 |
CN109858419A (zh) * | 2019-01-23 | 2019-06-07 | 广州智慧城市发展研究院 | 一种自下而上-自上而下的行为识别系统 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN110781893A (zh) * | 2019-09-24 | 2020-02-11 | 浙江大华技术股份有限公司 | 特征图的处理方法、图像处理方法、装置以及存储介质 |
-
2020
- 2020-05-27 CN CN202010460912.2A patent/CN111627038B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN106934397A (zh) * | 2017-03-13 | 2017-07-07 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN109493364A (zh) * | 2018-09-26 | 2019-03-19 | 重庆邮电大学 | 一种结合残差注意力和上下文信息的目标跟踪算法 |
CN109858419A (zh) * | 2019-01-23 | 2019-06-07 | 广州智慧城市发展研究院 | 一种自下而上-自上而下的行为识别系统 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN110781893A (zh) * | 2019-09-24 | 2020-02-11 | 浙江大华技术股份有限公司 | 特征图的处理方法、图像处理方法、装置以及存储介质 |
Non-Patent Citations (2)
Title |
---|
L.PALETTA ET AL: "Reinforcement Learning of Informative Attention Patterns for Object Recognition", 《PROCEEDINGS OF 2005 4TH IEEE INTERNATIONAL CONFERENCE ON DEVELOPMENT AND LEARNING》 * |
余帅等: "基于多级通道注意力的遥感图像分割方法", 《激光与光电子学进展》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4216161A1 (en) * | 2022-01-24 | 2023-07-26 | Leica Microsystems CMS GmbH | Apparatus, method and machine learning product for computing a baseline estimate |
CN114386531A (zh) * | 2022-01-25 | 2022-04-22 | 山东力聚机器人科技股份有限公司 | 基于双级注意力的图像识别方法及装置 |
CN114386531B (zh) * | 2022-01-25 | 2023-02-14 | 山东力聚机器人科技股份有限公司 | 基于双级注意力的图像识别方法及装置 |
CN115035135A (zh) * | 2022-07-06 | 2022-09-09 | 杭州王道控股有限公司 | 图像抠图方法、装置、电子设备及存储介质 |
CN116612142A (zh) * | 2023-07-19 | 2023-08-18 | 青岛市中心医院 | 一种肺癌ct样本数据智能分割方法及装置 |
CN116612142B (zh) * | 2023-07-19 | 2023-09-22 | 青岛市中心医院 | 一种肺癌ct样本数据智能分割方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111627038B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627038B (zh) | 一种背景去除方法、装置、设备及可读存储介质 | |
KR102640237B1 (ko) | 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 | |
CN111127346B (zh) | 基于部分到整体注意力机制的多层次图像修复方法 | |
CN109101975B (zh) | 基于全卷积神经网络的图像语义分割方法 | |
CN107403415B (zh) | 基于全卷积神经网络的压缩深度图质量增强方法及装置 | |
CN109087273B (zh) | 基于增强的神经网络的图像复原方法、存储介质及系统 | |
US11301965B2 (en) | Method and image processing device for image super resolution, image enhancement, and convolutional neural network model training | |
CN108596841B (zh) | 一种并行实现图像超分辨率及去模糊的方法 | |
JP7143529B2 (ja) | 画像復元方法及びその装置、電子機器並びに記憶媒体 | |
CN109949221B (zh) | 一种图像处理方法及电子设备 | |
CN111316316A (zh) | 用于图像复原的神经网络及其训练与使用方法 | |
CN114820341A (zh) | 一种基于增强Transformer的图像盲去噪方法及系统 | |
CN111738952B (zh) | 一种图像修复的方法、装置及电子设备 | |
CN112381716A (zh) | 一种基于生成式对抗网络的图像增强方法 | |
CN113705575B (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN115731132A (zh) | 图像修复方法、装置、设备及介质 | |
CN111667401B (zh) | 多层次渐变图像风格迁移方法及系统 | |
CN113096032B (zh) | 一种基于图像区域划分的非均匀一致模糊去除方法 | |
CN111145103B (zh) | 基于细节保留神经网络模型的蒙特卡洛去噪方法 | |
CN116895037A (zh) | 基于边缘信息和多尺度交叉融合网络的帧插入方法及系统 | |
CN115170807B (zh) | 一种图像分割、模型训练方法、装置、设备及介质 | |
CN116862795A (zh) | 一种基于逐像素退化预测网络的多级去运动模糊方法 | |
CN114943655A (zh) | 基于循环深度卷积生成对抗网络结构的图像修复系统 | |
CN112668619B (zh) | 图像处理方法、装置、终端及存储介质 | |
CN115423697A (zh) | 图像修复方法、终端及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |