CN113592893B - 一种确定主体和精准化边缘相结合的图像前景分割方法 - Google Patents

一种确定主体和精准化边缘相结合的图像前景分割方法 Download PDF

Info

Publication number
CN113592893B
CN113592893B CN202110999574.4A CN202110999574A CN113592893B CN 113592893 B CN113592893 B CN 113592893B CN 202110999574 A CN202110999574 A CN 202110999574A CN 113592893 B CN113592893 B CN 113592893B
Authority
CN
China
Prior art keywords
image
features
matrix
value
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110999574.4A
Other languages
English (en)
Other versions
CN113592893A (zh
Inventor
陆佳炜
朱冰倩
陈纬鉴
姜钦凯
董振兴
朱明杰
程振波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110999574.4A priority Critical patent/CN113592893B/zh
Publication of CN113592893A publication Critical patent/CN113592893A/zh
Application granted granted Critical
Publication of CN113592893B publication Critical patent/CN113592893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种确定主体和精准化边缘相结合的图像前景分割方法,将用于定位显著性区域的确定主体过程和精准分割目标的边缘精准化过程相结合,首先确定主体部分设计了上下文感知金字塔特征提取模块得丰富的上下文特征,结合上下文感知金字塔特征提取模块特征映射后的通道注意机制CA模块和低层次特征映射后的空间注意机制SA模块,用一种使用交叉熵损失来监督显著边界定位信息的生成从而得到定位信息;然后精准化边缘过程,以光谱消光技术为基础获取图像中非局部颜色特征,用ResNet‑101深度残差网络获取高级语义特征,用拉普拉斯矩阵结合两者以对图像中的像素点进行分类,达到目标精准分割的效果;最后,在将两个过程的结果相融合。

Description

一种确定主体和精准化边缘相结合的图像前景分割方法
技术领域
本发明涉及信息技术领域,具体涉及一种确定主体和精准化边缘相结合的图像前景分割方法。
背景技术
当人们在获得一张图像时,更引入注目的部分往往为显著的主体区域,这部分区域称为前景。前景部分的某些空间信息(颜色、轮廓、纹理、灰度等)与周围环境存在差别。前景分割就是基于这些差异,将把图像具有独特性质的前景区域进行分割和提取的技术。该技术如Fasr R-CNN、Mask R-CNN、MaskLab在人们的实际生活中有广泛的应用:医学领域中的测量图像中组织大小、在遥感领域中的提取云图中的云系、在交通领域对车辆轮廓特征提取与行人检测等。虽然前景分割技术已为人们提供便利,但是至今仍未存在一种通用的前景分割方法适用于所有应用场景,且对图像的低层特征信息和高层特征信息很难达到合理且平衡的使用。
图像的低层特征信息是在早期经典的图像分割方法中(如基于边缘检测的图像分割、基于阂值的图像分割、基于区域分割方法)经常使用的信息,利用图像的纹理与灰度等图像信息完成前景分割。但是基于低层特征信息的分割方法有很大的局限性:图像同一区域内需具有相似性和连续性,分割效果的优劣对相似性条件很强的依赖性,分割结果极易出现过分割的情况。近年来,研究者逐渐将研究重点转移到高层特征信息,利用人工神经网络技术或遗传算法获取上下文特征信息或高级语义信息,为图像分割提供了新的思路。但基于高层特征信息的分割方法发展还未成熟,其普适性和速率仍有待加强。因此,在现阶段,更好的将发展相对成熟的提取低层特征信息方法和有利于边缘处理精确化的提取高层特征信息方法相结合,是推进前景分割方法取得突破的途径之一。
前景分割技术作为图像处理和分析环节的关键技术,在未来将更加广泛被应用到人们的生活中。前景分割技术上的进步和突破会给计算机图像视觉处理的分支,如图像语义分割、图像目标检测提供更好的思路和图像处理方法。
发明内容
为了克服现有技术的不足,本发明提出了一种确定主体和精准化边缘相结合的图像前景分割方法。确定主体分割方法使用低层特征信息与高层特征信息相结合来确认图像前景主体,再使用交叉熵损失来监督显著边界定位信息的生成。而精准化边缘分割方法,结合光谱消光的所得图像信息和卷积神经网络所得的高级语义信息,通过图结构形成拉普拉斯矩阵得到特征向量,更加注重边缘的细节和特点。最后,将主体分割得到的边界信息与拉普拉斯矩阵的特征向量点乘,得到结果图像层。该发明可以在确认主体轮廓的基础上,更加精准化边缘细节特征,提升了前景分割的准确性。引入高层特征信息,增加图像分割应用场景的普适性的同时,也更容易处理复杂背景的图像前景分割。
本发明提供如下的技术方案:
一种确定主体和精准化边缘相结合的图像前景分割方法,包括如下步骤:
1)确定主体;
1.1)输入图像,采用上下文感知金字塔特征提取模块CPFE用于多尺度高层次特征映射,以获得丰富的上下文特征;CPFE将VGG-16网络架构中的Conv3-3、Conv4-3和Conv5-3作为基本的高层特征;
1.2)在上下文感知金字塔特征提取后,添加并使用通道注意力机制CA模型,通过使用CA对上下文感知金字塔特征进行加权,输出的新的高层特征;
1.3)获取自然图像的低层特征,将VGG-16网络架构中的Conv1-2和Conv2-2作为基本的低层特征作为输入;采用空间注意力机制SA模型更多地关注显著性物体和背景之间的边界,助于生成用于包含更多边界信息的有效低层特征;
1.4)将通过通道注意机制CA加权后的高层特征和通过空间注意机制SA加权后的低层特征输出融合在一起,使用交叉熵损失来监督显著边界定位信息的生成;根据定位信息,输出图像前景轮廓的灰度图;
2)边缘精准化;
2.1)首先是输入图像后,进行收集图像信息特征;图像的信息特征主要来自两个方面:一是基于光谱消光,从谱分析的角度,得到来自输入图像的非局部的颜色关系信息;二是使用用于场景分析的卷积神经网络,生成的高级语义关系信息;
2.2)随后将图像的非局部的颜色关系信息和高级语义关系信息相结合,建立图像层,在拉普拉斯矩阵L的特征向量中揭示语义对象以及语义对象之间的软过渡关系;
2.3)接着提取L矩阵的100个最小特征值对应的特征向量,再使用k-means聚类处理特征向量;边缘精准化处理过程完毕,将输出由拉普拉斯矩阵构成的图像图层;
3)确定主体结果与边缘精准化结果的融合;
3.1)首先,处理确定主体部分的结果:通过步骤1.4)的输出结果所得到灰度图进行二值化处理,保留主体轮廓以及明显的主体白色区域;
3.2)接着,处理边缘精准化部分的结果:遍历整个矩阵集合,找到每个像素点所属的最大透明度的类所在的矩阵,认为是其属于的类,除了该类外其他矩阵中的透明度均设置为0;
3.3)最后,将3.2)步骤中输出的拉普拉斯矩阵集合分别和显著性检测结果的灰度图进行点乘,再确定所需保留以及保留类之间交集部分,将所有保留记录的部分结合起来就是最终所需前景主体部分;
3.4)确定主体结果与边缘精准化结果的融合过程处理完毕,输出图像的前景部分。
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述步骤1.1)具体过程如下:
1.1.1)为了使得最终提取的高层特征满足尺度不变性和形状不变性特征,采用不同扩张率的多孔卷积,并进一步分别设置扩张率为3、5和7来捕捉上下文信息;多孔卷积向卷积层引入了扩张率参数,该参数定义了卷积核处理数据时各值的间距,多孔卷积的优势在于可以得到更大的感受野,获得更加密集的数据且提高小物体识别分割的的效果;
1.1.2)通过跨通道连接,将来自不同多孔卷积层的特征图与1×1降维特征进行拼接,然后,利用上下文感知信息得到三种不同尺度的特征,三种不同尺度的特征两两组合,将每两个较小的尺度特征上采样得到较大的尺度特征,因此输出三个尺度的高级特征;其中,上采样又称图像插值,即在原有图像像素的基础上在像素点之间采用插值算法插入新的元素,从而放大原图像。
1.1.3)最后,通过跨通道连接将上采样得到的高级特征组合起来,作为上下文感知金字塔特征提取模块的输出。
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述步骤1.2)具体过程如下:
1.2.1)首先将进行上下文感知金字塔特征提取后高层特征fh∈RW×H×C展开为其中/>表示表示高层特征fh的第i层,R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数;随后平均池化高级特征每层的/>以获得通道特征向量vh,其中平均池化的目的是减小因邻域大小受限造成估计值方差增大的误差,从而有利于保留图像更多的背景信息,平均池化的结果Sj通过下述公式求得:
其中,T表示选择参与池化的激活值的序位阈值,Rj表示在第j个特征图内的池化域,i表示在这个池化域内激活值的索引值,ri和ai分别表示激活值i的序位和激活数值;
1.2.2)然后,将上一步获得的通道特征向量vh,通过全连接FC层,输出到ReLU层;
1.2.3)随后,通道特征向量通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到ca值,即高层特征每层的权重矩阵;因此ca=F(vh,W)=σ1(fc2(δ(fc1(vh,W1)),W2)),其中W1、W2为通道注意力机制的参数,σ1指的是sigmoid操作,fc指的是全连接层,δ指的是ReLU函数;全连接层是卷积神经网络中起到分类器作用的计算层。ReLU层指包含ReLU函数的计算层,ReLU函数是一种人工神经网络中常用的激活函数。
1.2.4)最后,输出对上下文感知金字塔特征进行加权后的高层特征其中·表示点乘;
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述步骤1.3)具体过程如下:
1.3.1)输入对上下文感知金字塔特征进行加权后的高层特征来捕获空间关注点;为了获得全局信息而不增加参数,采用了两个卷积层,一个核为1×k,另一个核为k×1;两个卷积层并行处理输入的/>核为1×k的卷积层输出值设为C1,核为1×k的卷积层输出值设为C2;因此C1和C2满足如下表达式:
其中,指的是空间注意机制的参数,conv1和conv2分别指的是核为1×k和k×1的卷积层;
1.3.2)将核为1×k的卷积层输出值C1和核为1×k的卷积层输出值C2相加后,通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到sa值;因此其中σ2表示当前步骤的sigmoid操作。
1.3.3)低层特征fl∈RW×H×C,其中R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数;通过用sa加权fl获得最终加权后的低层特征:
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述步骤1.4)具体过程如下:
首先使用拉普拉斯算子得到网络输出的真实边界和显著图,然后使用交叉熵损失LB来监督显著对象边界的生成;
其中拉普拉斯算子是n维欧氏空间中的二阶微分算子,定义为梯度的散度Δf;因为二阶导数可以用来检测边缘,所以使用拉普拉斯算子来得到显著的对象边界;拉普拉斯算子由下面公式给出,其中x和y是xy平面的标准笛卡尔坐标,f表示曲线函数:
因此,通过使用拉普拉斯算子可以得到网络输出的真实边界ΔY和显著图ΔP;
交叉熵损失公式如下:
其中,Y表示真实边界图组成的集合,size(Y)表示真实边界图集合的总数,i表示第i组,ΔYi为使用拉普拉斯算子表示的第i组的真实边界图,ΔPi为用拉普拉斯算子表示的第i组网络输出的显著图。
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述步骤2.1)具体过程如下:
2.1.1)获得非局部的颜色关系:为了表示较大范围的像素对之间的关系,构建低层次的非局部的颜色关系;构建过程有两个关键点:一是使用超像素分割SLIC生成2500个超像素;二是评估每个超像素和对应于图像20%尺寸半径内,所有超像素的仿射关系;对于两个由小于20%的图像尺寸的距离分割的超像素s和t,定义它们质心的非局部颜色关系其中,cs,ct∈[0,1]是超像素的均值颜色值,erf是高斯误差函数,ac,bc是放射关系项控制下降的速率和变为0的阈值。
2.1.2)获得高级语义关系信息:语义关系表达的含义是鼓励对属于同一场景对象的像素进行分组,并且阻止来自不同对象的像素进行分组;采用DeepLab-ResNet-101作为特征提取器,在COCO-Stuff数据集上进行语义分割网络的训练;DeepLab-ResNet-101由具有ResNet-101主干的DeepLab模型构成;COCO-Stuff是基于DeepLab训练的公开数据集,图像包括91类目标,该数据集主要解决3个问题:目标检测,目标之间的上下文关系;应用两个超像素s,t的特征向量,表示超像素之间的高级语义关系其中,/>表示s和t的均值特征向量,erf是高斯误差函数,as和bs参数控制函数下降的速率以及变为负值的阈值。
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述步骤2.2)中具体形成拉普拉斯矩阵的过程如下:
通过之前获取的两组像素之间关系非局部颜色关系和高级语义关系/>结合最小二乘优化问题的原理,构建拉普拉斯矩阵L;
其中,WL是包含所有像素对近似关系的矩阵,Wc是包含非局部颜色关系的矩阵,Ws是包含语义关系的矩阵,σS、σC是控制相应矩阵影响力的参数,全部设置为0.01,D则是一个是对角矩阵。
所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述所述步骤3.3)具体步骤如下:
3.3.1)处理边缘精准化部分的结果为二维矩阵集合,分别记录了类的像素点数值情况;若处理后结果为属于该类的像素点,则有数值;若不属于该类的像素点,则赋值为0;而具体判断像素是否属于该类,由透明度所决定;
3.3.2)随后,将二维矩阵集合内的矩阵分别和确定主体部分结果的灰度图进行点乘,结果中交集有数值,非交集则为0;遍历点乘后的矩阵获得有数值的像素点的数量,即可视为交集的面积大小,标注为m;同时遍历得到类的面积大小为small,灰度图前景主体的面积大小为big;
设bl表示为交集面积与类面积的比值,即有表达式:
设BL表示为交集面积与前景主体面积的比值,即由表达式:因此,如果bl的值较大则认为该类基本属于前景的一部分,将该类全部记录保留;反之就判断BL的值,BL的值超过一定范围就保留交集部分;将所有保留记录的部分结合起来就是最后的结果。
与现有方法相比,本发明所述的方法的主要优点是:
1)大程度上提高前景分割边缘处理的精确度;2)兼顾图像的底层特征和高层特征,采用不同尺度的特征融合,考虑到它们对显著性的贡献度大小,提高检测准确度;3)自动化抠取图像中的主体部分;
具体实施方式
以下结合具体实施例,对本发明作进一步描述。
本发明为一种确定主体和精准化边缘相结合的图像前景分割方法,将用于定位显著性区域的确定主体过程和精准分割目标的边缘精准化过程相结合,首先确定主体部分设计了上下文感知金字塔特征提取模块得丰富的上下文特征,结合上下文感知金字塔特征提取模块特征映射后的通道注意机制(CA)模块和低层次特征映射后的空间注意机制(SA)模块,用一种使用交叉熵损失来监督显著边界定位信息的生成从而得到定位信息;然后精准化边缘过程,以光谱消光技术为基础获取图像中非局部颜色特征,用ResNet-101深度残差网络获取高级语义特征,用拉普拉斯矩阵结合两者以对图像中的像素点进行分类,达到目标精准分割的效果。最后,在将两个过程的结果相融合。
实施例:
一种确定主体和精准化边缘相结合的图像前景分割方法,包括确定主体过程、边缘精准化过程和两者相结合的过程。
1)确定主体过程如下:
1.1)输入图像,采用上下文感知金字塔特征提取模块(CPFE)用于多尺度高层次特征映射,以获得丰富的上下文特征。(其中CPFE模型为现有模型,在CVPR2019大会上中被提出)。CPFE将VGG-16网络架构中的Conv3-3、Conv4-3和Conv5-3作为基本的高层特征,其中VGG-16是牛津大学计算机视觉组和Google公司的研究员一起研发的16层深度卷积神经网络,VGG-16包含有13个卷积层(五个卷积块,每个卷积块包含2-3个卷积层)和三个全连接层。Conv3-3表示第三个卷积块中里面的第三个卷积层,同理Conv4-3和Conv5-3分别表示第四个卷积块中里面的第三个卷积层和第五个卷积块中里面的第三个卷积层。
具体过程如下:
a)为了使得最终提取的高层特征满足尺度不变性和形状不变性特征,采用不同扩张率的多孔卷积(Atrous Convolution),并进一步分别设置扩张率为3、5和7来捕捉上下文信息。多孔卷积向卷积层引入了“扩张率”参数,这个参数定义了卷积核处理数据时各值的间距。多孔卷积的优势在于可以得到更大的感受野,获得更加密集的数据且提高小物体识别分割的的效果。
b)通过跨通道连接,将来自不同多孔卷积层的特征图与1×1降维特征进行拼接。然后,利用上下文感知信息(VGG-16网络的侧边输出的特征信息)得到三种不同尺度的特征(Conv3-3、Conv4-3和Conv5-3为基本高层特征),三种不同尺度的特征两两组合,将每两个较小的尺度特征上采样得到较大的尺度特征,因此输出三个尺度的高级特征。其中,上采样又称图像插值,即在原有图像像素的基础上在像素点之间采用插值算法插入新的元素,从而放大原图像。
c)最后,通过跨通道连接将上采样得到的高级特征组合起来,作为上下文感知金字塔特征提取模块的输出。
1.2)在上下文感知金字塔特征提取后,添加并使用通道注意力机制(CA)模型,从而对显着对象表现出高响应的通道分配更大的权重。通过使用CA对上下文感知金字塔特征进行加权,输出新的高层特征。
其中CA通道注意力机制模型,过程如下:
a)首先将进行上下文感知金字塔特征提取后高层特征fh∈RW×H×C展开为其中/>表示表示高层特征fh的第i层,R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数。随后平均池化高级特征每层的/>以获得通道特征向量vh,其中平均池化的目的是减小因邻域大小受限造成估计值方差增大的误差,从而有利于保留图像更多的背景信息,平均池化的结果Sj通过下述公式求得:
其中,T表示选择参与池化的激活值的序位阈值。Rj表示在第j个特征图内的池化域,i表示在这个池化域内激活值的索引值。ri和ai分别表示激活值i的序位和激活数值。
b)然后,将上一步获得的通道特征向量vh,通过全连接(FC)层,输出到ReLU层;全连接(FC)层是卷积神经网络中起到分类器作用的计算层。ReLU层指包含ReLU函数的计算层,ReLU函数是一种人工神经网络中常用的激活函数。
c)随后,通道特征向量通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到ca值(即高层特征每层的权重矩阵)。因此ca=F(vh,W)=σ1(fc2(δ(fc1(vh,W1)),W2)),其中W1、W2为通道注意力机制的参数,σ1指的是sigmoid操作,fc指的是FC层,δ指的是ReLU函数。
d)最后,输出对上下文感知金字塔特征进行加权后的高层特征其中·表示点乘。
1.3)获取自然图像的低层特征,将VGG-16网络架构中的Conv1-2和Conv2-2(Conv1-2表示第一个卷积块中里面的第二个卷积层,Conv2-2表示第二个卷积块中里面的第二个卷积层,)作为基本的低层特征作为输入。一般自然图像的低层特征中通常包含丰富的前景和复杂背景的细节,但过多的细节信息会带来噪声。因此采用空间注意力机制(SA)模型更多地关注显著性物体和背景之间的边界,助于生成用于包含更多边界信息的有效低层特征。
其中SA空间注意力机制模型,过程如下:
a)输入对上下文感知金字塔特征进行加权后的高层特征来捕获空间关注点。为了获得全局信息而不增加参数,采用了两个卷积层,一个核为1×k,另一个核为k×1。两个卷积层并行处理输入的/>核为1×k的卷积层输出值设为C1,核为1×k的卷积层输出值设为C2。因此C1和C2满足如下表达式:
其中,指的是空间注意机制的参数,conv1和conv2分别指的是核为1×k和k×1的卷积层。
b)将核为1×k的卷积层输出值C1和核为1×k的卷积层输出值C2相加后,通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到sa值。因此其中σ2表示当前步骤的sigmoid操作。
c)低层特征fl∈RW×H×C,其中R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数。通过用sa加权fl获得最终加权后的低层特征。
1.4)将通过通道注意机制(CA)加权后的高层特征和通过空间注意机制(SA)加权后的低层特征输出融合在一起,使用交叉熵损失来监督显著边界定位信息的生成。根据定位信息,输出图像前景轮廓的灰度图。
首先使用拉普拉斯算子得到网络输出的真实边界和显著图,然后使用交叉熵损失LB来监督显著对象边界的生成。
其中拉普拉斯算子是n维欧氏空间中的二阶微分算子,定义为梯度的散度(Δf)。因为二阶导数可以用来检测边缘,所以使用拉普拉斯算子来得到显著的对象边界。拉普拉斯算子由下面公式给出,其中x和y是xy平面的标准笛卡尔坐标,f表示曲线函数。
因此,通过使用拉普拉斯算子可以得到网络输出的真实边界(用ΔY表示)和显著图(用ΔP表示)。
交叉熵损失公式如下:
其中,Y表示真实边界图组成的集合,size(Y)表示真实边界图集合的总数,i表示第i组,ΔYi为使用拉普拉斯算子表示的第i组的真实边界图,ΔPi为用拉普拉斯算子表示的第i组网络输出的显著图。
2)边缘精准化过程如下:
2.1)首先是输入图像后,进行收集图像信息特征。图像的信息特征主要来自两个方面:一是基于光谱消光,从谱分析的角度,得到来自输入图像的非局部的颜色关系信息(纹理和颜色信息);二是使用用于场景分析的卷积神经网络,生成的高级语义关系信息。
2.1.1)获得非局部的颜色关系。为了表示较大范围的像素对之间的关系,构建低层次的非局部的颜色关系。构建过程主要有两个关键点:一是使用超像素分割(SLIC)生成2500个超像素(其中超像素分割是2003年提出的图像分割技术,它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征,很大程度上降低了图像后处理的复杂度);二是评估每个超像素和对应于图像20%尺寸半径内,所有超像素的仿射关系。对于两个由小于20%的图像尺寸的距离分割的超像素s和t,定义它们质心的非局部颜色关系 其中,cs,ct∈[0,1]是超像素的均值颜色值,erf是是高斯误差函数,ac,bc是放射关系项控制下降的速率和变为0的阈值。
2.1.2)获得高级语义关系信息。语义关系表达的含义是鼓励对属于同一场景对象的像素进行分组,并且阻止来自不同对象的像素进行分组。采用DeepLab-ResNet-101作为特征提取器,在COCO-Stuff数据集上进行语义分割网络的训练。其中ResNet-101,全名为深度残差网络,参考了VGG-19网络,在其基础上进行修改,并通过短路机制加入了残差单元,从而降低深度网络复杂度和训练的难度。DeepLab-ResNet-101由具有ResNet-101主干的DeepLab模型构成。COCO-Stuff是基于DeepLab训练的公开数据集,图像包括91类目标,该数据集主要解决3个问题:目标检测,目标之间的上下文关系。应用两个超像素s,t的特征向量,表示超像素之间的高级语义关系其中,/>表示s和t的均值特征向量,erf是高斯误差函数,as和bs参数控制函数下降的速率以及变为负值的阈值。
2.2)随后将图像的非局部的颜色关系信息和高级语义关系信息相结合,建立图像层,在拉普拉斯矩阵的特征向量中揭示语义对象以及语义对象之间的软过渡关系。
具体形成拉普拉斯矩阵的过程如下:
通过之前获取的两组像素之间关系非局部颜色关系和高级语义关系/>结合最小二乘优化问题的原理,构建拉普拉斯矩阵L。
其中,WL是包含所有像素对近似关系的矩阵,Wc是包含非局部颜色关系的矩阵,Ws是包含语义关系的矩阵,σS、σC是控制相应矩阵影响力的参数,全部设置为0.01,D则是一个是对角矩阵。
2.3)接着提取L矩阵的100个最小特征值对应的特征向量,再使用k-means聚类处理特征向量。k-means聚类算法是一种基于划分的聚类算法,它以k为参数,把多个数据对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。边缘精准化处理过程完毕,将输出由拉普拉斯矩阵构成的图像图层。
3)确定主体结果与边缘精准化结果的融合过程如下:
3.1)首先,处理确定主体部分的结果。因为确定主体部分的输出为主体轮廓边框,这无法与边缘精准化部分的结果相结合。因此通过步骤1.4的输出结果所得到灰度图进行二值化处理,保留明显的主体白色区域,而不仅仅是一个主体轮廓。其中图像二值化是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓。
3.2)接着,处理边缘精准化部分的结果。因为边缘精准化部分的输出为由拉普拉斯矩阵构成的图像图层,其表示形式为一批二维矩阵的集合。其中图层上的一个像素点有多个透明度,即分属于多个类,这无法边缘精准化部分的结果相结合。所以需确定每个像素点只属于一个类,确定方式通过遍历进行。遍历过程为:遍历整个矩阵集合,找到每个像素点所属的最大透明度的类所在的矩阵,认为是其属于的类,除了该类外其他矩阵中的透明度均设置为0。
3.3)最后,将3.2)步骤中输出的拉普拉斯矩阵集合分别和显著性检测结果的灰度图进行点乘,再确定所需保留以及保留类之间交集部分。将所有保留记录的部分结合起来就是最终所需前景主体部分。包括以下步骤:
3.3.1)处理边缘精准化部分的结果为二维矩阵集合,分别记录了类的像素点数值情况。若处理后结果为属于该类的像素点,则有数值;若不属于该类的像素点,则赋值为0。而具体判断像素是否属于该类,由透明度所决定。
3.3.2)随后,将二维矩阵集合内的矩阵分别和确定主体部分结果的灰度图进行点乘,结果中交集有数值,非交集则为0。遍历点乘后的矩阵获得有数值的像素点的数量,即可视为交集的面积大小,标注为m。同时遍历得到类的面积大小为small,灰度图前景主体的面积大小为big。
设bl表示为交集面积与类面积的比值,即有表达式:
设BL表示为交集面积与前景主体面积的比值,即由表达式:
因此,如果bl的值较大则认为该类基本属于前景的一部分,将该类全部记录保留;反之就判断BL的值,BL的值超过一定范围就保留交集部分。将所有保留记录的部分结合起来就是最后的结果。
3.4)确定主体结果与边缘精准化结果的融合过程处理完毕,输出图像的前景部分。

Claims (8)

1.一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,包括如下步骤:
1)确定主体;
1.1)输入图像,采用上下文感知金字塔特征提取模块CPFE用于多尺度高层次特征映射,以获得丰富的上下文特征;CPFE将VGG-16网络架构中的Conv3-3、Conv4-3和Conv5-3作为基本的高层特征;
1.2)在上下文感知金字塔特征提取后,添加并使用通道注意力机制CA模型,通过使用CA对上下文感知金字塔特征进行加权,输出的新的高层特征;
1.3)获取自然图像的低层特征,将VGG-16网络架构中的Conv1-2和Conv2-2作为基本的低层特征作为输入;采用空间注意力机制SA模型关注显著性物体和背景之间的边界,助于生成用于包含边界信息的有效低层特征;
1.4)将通过通道注意机制CA加权后的高层特征和通过空间注意机制SA加权后的低层特征输出融合在一起,使用交叉熵损失来监督显著边界定位信息的生成;根据定位信息,输出图像前景轮廓的灰度图;
2)边缘精准化;
2.1)首先是输入图像后,进行收集图像信息特征;图像的信息特征主要来自两个方面:一是基于光谱消光,从谱分析的角度,得到来自输入图像的非局部的颜色关系信息;二是使用用于场景分析的卷积神经网络,生成的高级语义关系信息;
2.2)随后将图像的非局部的颜色关系信息和高级语义关系信息相结合,建立图像层,在拉普拉斯矩阵L的特征向量中揭示语义对象以及语义对象之间的软过渡关系;
2.3)接着提取L矩阵的100个最小特征值对应的特征向量,再使用k-means聚类处理特征向量;边缘精准化处理过程完毕,将输出由拉普拉斯矩阵构成的图像图层;
3)确定主体结果与边缘精准化结果的融合;
3.1)首先,处理确定主体部分的结果:通过步骤1.4)的输出结果所得到灰度图进行二值化处理,保留主体轮廓以及明显的主体白色区域;
3.2)接着,处理边缘精准化部分的结果:遍历整个矩阵集合,找到每个像素点所属的最大透明度的类所在的矩阵,认为是其属于的类,除了该类外其他矩阵中的透明度均设置为0;
3.3)最后,将3.2)步骤中输出的拉普拉斯矩阵集合分别和显著性检测结果的灰度图进行点乘,再确定所需保留以及保留类之间交集部分,将所有保留记录的部分结合起来就是最终所需前景主体部分;
3.4)确定主体结果与边缘精准化结果的融合过程处理完毕,输出图像的前景部分。
2.根据权利要求1所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述1.1)具体过程如下:
1.1.1)为了使得最终提取的高层特征满足尺度不变性和形状不变性特征,采用不同扩张率的多孔卷积,并进一步分别设置扩张率为3、5和7来捕捉上下文信息;
1.1.2)通过跨通道连接,将来自不同多孔卷积层的特征图与1×1降维特征进行拼接,然后,利用上下文感知信息得到三种不同尺度的特征,三种不同尺度的特征两两组合,将每两个较小的尺度特征上采样得到较大的尺度特征,因此输出三个尺度的高级特征;其中,上采样又称图像插值,即在原有图像像素的基础上在像素点之间采用插值算法插入新的元素,从而放大原图像;
1.1.3)最后,通过跨通道连接将上采样得到的高级特征组合起来,作为上下文感知金字塔特征提取模块的输出。
3.根据权利要求1所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述1.2)具体过程如下:
1.2.1)首先将进行上下文感知金字塔特征提取后高层特征fh∈RW×H×C展开为其中/>表示表示高层特征fh的第i层,R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数;随后平均池化高级特征每层的/>以获得通道特征向量vh,其中平均池化的目的是减小因邻域大小受限造成估计值方差增大的误差,从而有利于保留图像更多的背景信息,平均池化的结果Sj通过下述公式求得:
其中,T表示选择参与池化的激活值的序位阈值,Rj表示在第j个特征图内的池化域,i表示在这个池化域内激活值的索引值,ri和ai分别表示激活值i的序位和激活数值;
1.2.2)然后,将上一步获得的通道特征向量vh,通过全连接层FC,输出到ReLU层;
1.2.3)随后,通道特征向量通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到ca值,即高层特征每层的权重矩阵;因此ca=F(vh,W)=σ1(fc2(δ(fc1(vh,W1)),W2)),其中W1、W2为通道注意力机制的参数,σ1指的是sigmoid操作,fc指的是全连接层,δ指的是ReLU函数;
1.2.4)最后,输出对上下文感知金字塔特征进行加权后的高层特征其中·表示点乘;
4.根据权利要求3所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述1.3)具体过程如下:
1.3.1)输入对上下文感知金字塔特征进行加权后的高层特征来捕获空间关注点;为了获得全局信息而不增加参数,采用了两个卷积层,一个核为1×k,另一个核为k×1;两个卷积层并行处理输入的/>核为1×k的卷积层输出值设为C1,核为1×k的卷积层输出值设为C2;因此C1和C2满足如下表达式:
其中,指的是空间注意机制的参数,conv1和conv2分别指的是核为1×k和k×1的卷积层;
1.3.2)将核为1×k的卷积层输出值C1和核为1×k的卷积层输出值C2相加后,通过使用Sigmoid运算,映射到[0,1]之间,完成归一化处理并得到sa值;因此其中σ2表示当前步骤的sigmoid操作;
1.3.3)低层特征fl∈RW×H×C,其中R表示空间位置集合,W表示尺寸的宽度,H表示尺寸的高度,C表示总通道数;通过用sa加权fl获得最终加权后的低层特征:
5.根据权利要求1所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述1.4)具体过程如下:
首先使用拉普拉斯算子得到网络输出的真实边界和显著图,然后使用交叉熵损失LB来监督显著对象边界的生成;
其中拉普拉斯算子是n维欧氏空间中的二阶微分算子,定义为梯度的散度Δf;拉普拉斯算子由下面公式给出,其中x和y是xy平面的标准笛卡尔坐标,f表示曲线函数:
因此,通过使用拉普拉斯算子可以得到网络输出的真实边界ΔY和显著图ΔP;
交叉熵损失公式如下:
其中,Y表示真实边界图组成的集合,size(Y)表示真实边界图集合的总数,i表示第i组,ΔYi为使用拉普拉斯算子表示的第i组的真实边界图,ΔPi为用拉普拉斯算子表示的第i组网络输出的显著图。
6.根据权利要求1所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述2.1)具体过程如下:
2.1.1)获得非局部的颜色关系:为了表示较大范围的像素对之间的关系,构建低层次的非局部的颜色关系;构建过程:一是使用超像素分割SLIC生成2500个超像素;二是评估每个超像素和对应于图像20%尺寸半径内,所有超像素的仿射关系;对于两个由小于20%的图像尺寸的距离分割的超像素s和t,定义它们质心的非局部颜色关系其中,cs,ct∈[0,1]是超像素的均值颜色值,erf是高斯误差函数,ac,bc是放射关系项控制下降的速率和变为0的阈值;
2.1.2)获得高级语义关系信息:语义关系表达的含义是鼓励对属于同一场景对象的像素进行分组,并且阻止来自不同对象的像素进行分组;采用DeepLab-ResNet-101作为特征提取器,在COCO-Stuff数据集上进行语义分割网络的训练;DeepLab-ResNet-101由具有ResNet-101主干的DeepLab模型构成;COCO-Stuff是基于DeepLab训练的公开数据集,图像包括91类目标;应用两个超像素s,t的特征向量,表示超像素之间的高级语义关系 其中,/>表示s和t的均值特征向量,erf是高斯误差函数,as和bs参数控制函数下降的速率以及变为负值的阈值。
7.根据权利要求6所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述2.2)中具体形成拉普拉斯矩阵的过程如下:
通过之前获取的两组像素之间关系非局部颜色关系和高级语义关系/>结合最小二乘优化问题的原理,构建拉普拉斯矩阵L;
其中,WL是包含所有像素对近似关系的矩阵,Wc是包含非局部颜色关系的矩阵,Ws是包含语义关系的矩阵,σS、σC是控制相应矩阵影响力的参数,全部设置为0.01,D则是一个是对角矩阵。
8.根据权利要求1所述的一种确定主体和精准化边缘相结合的图像前景分割方法,其特征在于,所述3.3)具体步骤如下:
3.3.1)处理边缘精准化部分的结果为二维矩阵集合,分别记录了类的像素点数值情况;若处理后结果为属于该类的像素点,则有数值;若不属于该类的像素点,则赋值为0;而具体判断像素是否属于该类,由透明度所决定;
3.3.2)随后,将二维矩阵集合内的矩阵分别和确定主体部分结果的灰度图进行点乘,结果中交集有数值,非交集则为0;遍历点乘后的矩阵获得有数值的像素点的数量,即可视为交集的面积大小,标注为m;同时遍历得到类的面积大小为small,灰度图前景主体的面积大小为big;
设bl表示为交集面积与类面积的比值,即有表达式:
设BL表示为交集面积与前景主体面积的比值,即由表达式:
因此,如果bl的值较大则认为该类基本属于前景的一部分,将该类全部记录保留;反之就判断BL的值,BL的值超过一定范围就保留交集部分;将所有保留记录的部分结合起来就是最后的结果。
CN202110999574.4A 2021-08-29 2021-08-29 一种确定主体和精准化边缘相结合的图像前景分割方法 Active CN113592893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110999574.4A CN113592893B (zh) 2021-08-29 2021-08-29 一种确定主体和精准化边缘相结合的图像前景分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110999574.4A CN113592893B (zh) 2021-08-29 2021-08-29 一种确定主体和精准化边缘相结合的图像前景分割方法

Publications (2)

Publication Number Publication Date
CN113592893A CN113592893A (zh) 2021-11-02
CN113592893B true CN113592893B (zh) 2024-03-05

Family

ID=78240142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110999574.4A Active CN113592893B (zh) 2021-08-29 2021-08-29 一种确定主体和精准化边缘相结合的图像前景分割方法

Country Status (1)

Country Link
CN (1) CN113592893B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219980A (zh) * 2021-12-08 2022-03-22 厦门市美亚柏科信息股份有限公司 一种基于多尺度的车型识别算法
CN114973305B (zh) * 2021-12-30 2023-03-28 昆明理工大学 一种针对拥挤人群的精确人体解析方法
CN116630820B (zh) * 2023-05-11 2024-02-06 北京卫星信息工程研究所 光学遥感数据星上并行处理方法与装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732534A (zh) * 2015-03-18 2015-06-24 中国人民公安大学 一种图像中显著目标的抠取方法及系统
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732534A (zh) * 2015-03-18 2015-06-24 中国人民公安大学 一种图像中显著目标的抠取方法及系统
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Also Published As

Publication number Publication date
CN113592893A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113592893B (zh) 一种确定主体和精准化边缘相结合的图像前景分割方法
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
JP7026826B2 (ja) 画像処理方法、電子機器および記憶媒体
Zhu et al. A three-pathway psychobiological framework of salient object detection using stereoscopic technology
CN113592894B (zh) 一种基于边界框和同现特征预测的图像分割方法
CN108537239B (zh) 一种图像显著性目标检测的方法
CN110866896B (zh) 基于k-means与水平集超像素分割的图像显著性目标检测方法
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN111161317A (zh) 一种基于多重网络的单目标跟踪方法
CN109886128B (zh) 一种低分辨率下的人脸检测方法
CN105139004A (zh) 基于视频序列的人脸表情识别方法
JP4098021B2 (ja) シーン識別方法および装置ならびにプログラム
CN110188763B (zh) 一种基于改进图模型的图像显著性检测方法
CN114492619B (zh) 一种基于统计和凹凸性的点云数据集构建方法及装置
CN107369158A (zh) 基于rgb‑d图像的室内场景布局估计及目标区域提取方法
CN114998890B (zh) 一种基于图神经网络的三维点云目标检测算法
CN113516126A (zh) 一种基于注意力特征融合的自适应阈值场景文本检测方法
CN112883941A (zh) 一种基于并行神经网络的人脸表情识别方法
CN113936309A (zh) 一种基于面部分块的表情识别方法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN112926667B (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN113591545B (zh) 一种基于深度学习的多级特征提取网络行人再识别方法
CN113435315A (zh) 一种基于双路神经网络特征聚合的表情识别方法
Khan et al. Image segmentation via multi dimensional color transform and consensus based region merging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant