CN107122713B

CN107122713B - 一种基于深度学习的似物性检测方法

Info

Publication number: CN107122713B
Application number: CN201710187970.0A
Authority: CN
Inventors: 张见威; 周子健
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2020-07-28
Anticipated expiration: 2037-03-27
Also published as: CN107122713A

Abstract

本发明公开了一种基于深度学习的似物性检测方法，包括先对输入图像进行超像素分割以及深度学习的特征图提取，然后结合特征图和标记矩阵获取所有超像素的特征，根据所提取的超像素的特征进行超像素的合并操作，判断是否需要继续下一轮合并；若需要合并，则将新的标记矩阵将更新后的标签矩阵重新与特征图相结合，提取新的超像素特征，继续新的一轮合并；若合并已经结束，则将所包含的超像素信息送入训练好的网络进行似物性评估；之后根据所得到的似物性分数进行排序，最后将排序的结果输出。

Description

一种基于深度学习的似物性检测方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度学习的似物性检测方法。

背景技术

对象检测在计算机视觉研究领域中起着重要的作用，是对象识别的前提。

似物性即为一般物体(Class-independent object or Generic objects)，或者Objectness，其意为于类别无关的一切物体。而似物性检测的任务便是从图片中定位出一般物体的位置，并提供该物体的形状或大小信息。

似物性检测常用作为一系列图像处理算法的预处理步骤，为之后的图像处理工作提供了可能的物体存在的位置，大小等一系列信息，使得例如目标识别，目标跟踪，协同分割等图像处理工作能够更加便利的进行。

目前的似物性检测方法主要分为三类，一是利用聚合的思路，主要方法是将图像进行过分割，再进行聚合。二是先生成海量的候选框，然后根据定义的分数进行排序来过滤掉无用的候选框，三是近年来出现了较多基于深度学习的似物性检测方法，提出了一种框架，通过CNN提取的顶层特征，训练了网络对输入图像中的像素进行分类，在计算出objectmask的同时，训练另一个网络对输入图像的似物性做出评估。该方法的能够较好定位一般物体的位置，并将其分割出来；但该方法存在的假设，输入的图像的中心必须包含有一个物体，使得该方法在开始依旧需要去筛选出一些图像块作为输入；并且分割的结果并不是十分精细。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于深度学习的似物性检测方法。

本发明包括如下技术方案：

一种基于深度学习的似物性检测方法，包括如下步骤：

S1对输入图像进行超像素分割，为图像中的每个超像素赋予标记值，通过标记矩阵L保存分割信息；

S2通过深度学习模型和标记矩阵L提取每个超像素的特征；

S3建立合并矩阵M，具体为：

在输入图像中随机选取超像素作为中心，计算中心超像素与周围超像素的特征的距离与阈值，并根据阈值筛选出需合并的超像素，构成的合并集合C，并将合并集合C的信息存入合并矩阵M中；

继续选取超像素作为中心，计算合并集合C，直到输入图像中所有的超像素均已被合并或作为过中心，则停止选取，并将每次合并集合信息存入合并矩阵M；

S4根据S3得到的合并矩阵，得到输入图像的超像素合并为多个区域，将区域信息存入区域标记矩阵R,并将R加入候选区域集合{R_f}；

S5判定候选区域是否提取完毕，若为否，则将S4结果的候选区域集合视为超像素，依据区域标记矩阵R，重复S2,S3,S4，并改变S3中计算合并超像素的距离权重系数；若为是，停止重复步骤；

S6训练用于近似物分数评估的深度学习网络；

S7根据候选区域集合{R_f}，将所有区域送入网络计算似物性分数；按似物性分数进行排序，输出结果。

所述S2中，通过深度学习模型和标记矩阵L提取每个超像素的特征，具体为：将原始图像输入VGG16网络中，提取出网络中所有卷积层(共13层)的特征图(feature map)；超像素分割获得的标记矩阵L，标记矩阵大小与输入图像一致，且矩阵中每个像素位置赋值为该像素所属超像素的标记；根据特征图和标记矩阵L，将特征图按照超像素区域进行均值池化，所有特征图的池化后的数值拼接后得到的1*4224维向量作为该超像素的特征。

所述S3中，在输入图像中随机选取超像素作为中心，计算中心超像素与周围超像素的特征的距离与阈值，并根据阈值筛选出需合并的超像素，构成的合并集合C，具体为：

计算中心超像素s_i与邻接超像素A_i＝{s₁,s₂....s_k}的距离集合D_i＝{d₁,d₂....d_k}，根据D_i计算出阈值σ并通过σ筛选出与s_i合并的超像素加入集合C_i＝{s_p,s_q....s_r}({p,q,…,r}∈{1,2,....,k})；循环且非重复地选取C_i中的超像素s_j作为中心，进行如下操作：计算s_j与邻接超像素A_j的距离与阈值，根据阈值筛选超像素时对于距离添加惩罚系数项p，筛选获得合并集合C_j,将s_j的合并集合C_j并入C_i，C_i＝C_i∩C_j；当C_i中的元素不再增加时，则超像素s_i的合并集合即为C_i。

其中计算中心超像素与周围超像素特征的距离，具体计算为：

两个超像素之间距离：d＝α·d_low+β·d_mid+γ·d_high

其中，d_low为底层特征距离，d_mid为中层特征距离，d_high为高层特征距离；α、β、γ为权重系数。每个超像素的特征v为4224维，其中第1至第384维为底层特征，第385至1152维为中层特征，第1153至4224维为高层特征。特征v根据底层、中层、高层划分为3段特征：v_low,v_mid,v_high，分别计算距离。

所述S3中，计算阈值并根据阈值筛选出需合并的超像素，具体为：

阈值由两部分组成，标准阈值σ_norm与绝对阈值σ_abs；

标准阈值σ_norm的计算：对D进行升序排序得到D_rank，计算差分ΔD_rank，从集合D中选取下标

对应的d_i作为阈值σ_norm；

绝对阈值σ_abs的计算：根据大量的实验数据选取出经验阈值作为绝对阈值σ_abs；

根据中心超像素与其所有的邻接超像素计算出来的距离集合D，其中对于d_i∈D，所有符合d_i＜mnn(σ_norm,σ_abs)的i对应的超像素应加入合并超像素集合C。

所述惩罚系数项：

超像素s_i与邻接超像素A_i＝{s₁,s₂….s_k}的距离集合D_i＝{d₁,d₂….d_k}，在通过阈值筛选时，使用D′_i＝D_i·p,每进行一次合并计算后，p会逐渐增大。

所述将每次合并集合信息存入合并矩阵M，具体为：

设图像中超像素的总数量为n，超像素s_n以及其邻接超像素集合为A_n＝{s₁,s₂….s_k}，则构建的合并矩阵大小为n×n并以0进行初始化；对于以超像素s_n为中心，根据S3中计算的阈值得到与s_n合并的超像素集合C_n，根据C_n将合并矩阵M中对应位置的数值置为1。

所述S4中，根据S3得到的合并矩阵，得到输入图像的超像素合并为多个区域，将区域信息存入区域标记矩阵R，具体为：

根据合并矩阵M，若M(i,j)＝1,则超像素s_i与超像素s_j应当合并，将标记矩阵R中的标记i和标记j均置为i；在遍历完合并矩阵后，对标记矩阵进行一次更新，以保证R中的标记按1递增。

所述S5中，判定候选区域是否提取完毕，具体为：

若区域标记矩阵R中仅有一种标记，则表示合并成功，则进入S6，否则需要对现有的区域重新提取特征即S2，区域合并得到合并矩阵即S3及重新标记矩阵即S4。

所述S6中的训练网络，具体操作如下：

基于标记矩阵集合{L}获取所有的区域集合{R_f},对于每个区域r_i∈R,提取其特征v_i，则训练集为二元组格式{y_i,v_i}，其中Loss函数为二值对数回归损失函数的和，具体为：

其中y_i为区域r_i的实际标记，v_i为r_i的特征，f_score(v_i)为网络所推测的超像素的似物性分数。训练集的制作时，采样了不同大小，不同形状，不同外观的超像素作为样本；同时保证正样本与负样本的数量一致。

所述S7中的似物性分数计算，具体操作如下

根据输入区域r_i的特征v_i，该区域的似物性分数f_score(v_i)的计算：

f_score(v_i)＝f(W₂·f(W₁·v_i+b₁)+b₂))

本文采用将聚合策略与深度学习相结合的方法。首先采用超像素分割，将图像分割为多个同质且大小相近的图像子块，子块内的颜色纹理具有同一性。通过深度学习，提取出超像素的低层，中层，高层特征。对于不同层次的特征采用不同的聚合策略，将超像素合并为多个较大的子块。重复这一步骤，直至合并结束。将所有合并的子块作为潜在的一般物体，通过深度学习网络对它们进行似物性评分，以确保检测到不同层次的一般物体。

本发明的有益效果：

(1)预先对图像进行超像素分割，分割出一些同质的图像子块，以子块为单位，降低了计算量，同时也能提供较为精确的分割结果；

(2)对于超像素进行了深度学习特征提取，充分的利用了不同阶层的深度学习特征；

(3)针对自然图像中物体存在多层次结构这一特性，对多个层次的合并结果进行了似物性检测，尽可能检测出不同层次的一般物体。

附图说明

图1是本发明的工作流程图；

图2是本发明的S2的工作流程图；

图3是本发明S3的工作流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

图1-图3所示，一种基于深度学习的似物性检测方法，包括如下步骤：

S1对输入图像进行超像素分割，为每个超像素赋予标记值，通过标记矩阵L保存分割信息，所述标记矩阵和输入图像大小一致，每个超像素的标记都是一个整数值，不同的整数值表示不同的超像素；根据图像中每个超像素的位置对应标记矩阵中的整数值，即表示哪一个超像素。

具体是对图像进行分割成n个超像素，输出为原图大小的标记矩阵L。

S2通过深度学习模型和标记矩阵L提取每个超像素的特征f，具体为：如图2所示，

首先将RGB图像输入已经训练好的网络VGG16中，提取出VGG16网络中conv1_1,conv1_2,conv2_1,conv2_2,conv3_1,conv3_2,conv3_3,conv4_1,conv4_2,conv4_3,conv5_1,conv5_2,conv5_3,总计13层卷积层中的特征图F(feature map)，一共为64*2+128*2+256*3+512*3+512*3＝4224张特征图。

对于4224张特征图F通过双线性插值全部上采样至第一层的大小224*224，同时将标记矩阵L下采样至224*224，使其保证一样的大小。对于每张特征图，将对应L中超像素区域内的特征值进行均值池化，这样对于每个超像素，将4224张特征图池化后的数值拼接起来，则每个超像素的特征便是一个1*4224维的特征向量v。

S3建立合并矩阵M，具体为：

S3.1超像素合并，具体为：

S3.1.1在输入图像中随机选取一个超像素s_n作为中心，根据邻接矩阵M_adj找出与超像素s_n相邻的超像素集合A_i＝{s₁,s₂….s_k}；其中邻接矩阵M_adj的构成为：对于超像素s_n,s_m,若超像素s_n的八邻域范围内存在超像素s_m，则M_adj(n,m)＝1。

S3.1.2计算超像素之间的距离d

d＝α·d_low+β·d_mid+γ·d_high

其中，d_low为底层特征距离，d_mid为中层特征距离，d_high为高层特征距离；α、β、γ为权重系数。

每个超像素的特征v为4224维，其中第1至第384维为底层特征，第385至1152维为中层特征，第1153至4224维为高层特征。特征v根据底层、中层、高层划分为3段特征：v_low,v_mid,vhigh，对于3段特征分别计算其欧氏距离；其中α＝0.7、β＝0.2、γ＝0.1为初始化权重系数，权重系数的初始化数值是根据多次实验结果进行确定的。

S3.1.3计算阈值

其中阈值包含两部分，其一为超像素s与邻接超像素之间相对距离所计算的标准阈值σ；其二为根据实验确定的绝对阈值σ_abs。

以超像素s_n为中心举例，则s_n的邻接超像素集合A_n＝{s₁,s₂….s_k}，标准阈值σ的计算步骤为,

首先计算s_n与A_n每个元素之间的距离并对其归一化，得到距离集合D＝{d_i|i＝1,2,…k}；

对D进行升序排序得到D_rank＝{d_j|j＝1,2,…k}；

求取差分集合ΔD_rank＝{x_j＝d_j+1-d_j|j＝1,2,…k-1}；

则超像素s_n的标准阈值σ为

根据大量的实验数据，选取出表现最好的阈值作为绝对阈值σ_abs。

根据中心超像素与其所有的邻接超像素计算出来的距离集合D_i，其中对于d_i∈D，所有符合d_i＜min(σ_norm,σ_abs)的i对应的超像素s_i应加入合并超像素集合C。

当以超像素s_n为中心，在计算出与其合并的超像素集合C_n＝{s₁，s₂….s_j}后，合并应当进行扩散，继续循环且非重复第选取C_n中的每一个s_m超像素为中心，并按照上述步骤计算出应当合并的超像素集合C_m＝{s_p,s_q….s_r}({p,q,…,r}∈{1,2,….,k})，直到所有的超像素均已被合并或作为过中心，则停止选取；

为了防止合并过度扩散，在扩散时，当计算该超像素的标准阈值σ后，对于该组距离集合D乘以一个惩罚系数p，D＝d·p，随着扩散的进行，惩罚系数随之递增。

S3.2合并矩阵M，由于添加了惩罚项，合并扩散必然会在扩散数次时终止。然后将合并超像素集合的信息填写进合并矩阵M中。假设得到合并超像素集合为{s_n,s₁,……,s_j},则M(n,p)＝1(p＝1,2,…..,j)。

S4根据S3得到的合并矩阵，得到输入图像的超像素合并为多个区域，将区域信息存入区域标记矩阵R,并将R加入候选区域集合{R_f}；所述区域信息是指图像中每个像素属于哪个区域。

当所有的超像素都已合并或作为中心计算过合并集合后，此时超像素已经合并成为候选区域，依据超像素分割的标记矩阵L和合并矩阵M，获取候选区域标记矩阵R。

通过遍历合并矩阵M，找出合并的超像素集合，并将他们在L中标记置为集合中的任意标记。完全遍历合并矩阵M后，最终得到的标记矩阵R便是候选区域的标记矩阵。

对于合并矩阵M,假设共有n个超像素，则矩阵M的大小为n×n，其中M(i,j)的i,j则表示对应标记的超像素s_i与s_j；若M(i,j)＝1,则超像素s_i与超像素s_j应当合并，将标记矩阵R中的标记i和标记j均置为i；在遍历完合并矩阵后，对标记矩阵进行一次更新，以保证R中的标记按1递增；

具体为：

在得到候选区域标记矩阵R后，将其存入候选区域集合{R_f}；结合标记矩阵R和4224张特征图F，将现有候选区域视为超像素，重新提取超像素特征，再度进行超像素合并及计算区域标记矩阵R′，重复上述操作。当最后所有超像素合并成原图像，即矩阵R中所有的元素为相同值时，则停止该循环操作。若在k次循环后，运算结束，则得到的k张标记矩阵{R_f}＝{R₁,R₂…,R_k},这k张标记矩阵即是一般物体的分割结果。

所述改变距离权重系统，具体为：

超像素之间距离d＝α·d_low+β·d_mid+γ·d_high，随着标记矩阵R的变化，所分割的超像素面积增大，权重系数α、β、γ也随之改变，表现为逐渐降低α，逐渐提升β、γ的大小。

S6训练用于近似物分数评估的深度学习网络，

基于标记矩阵集合{L}获取所有的区域集合{R_f},对于每个区域r_i∈R(R∈{R_f}),提取其特征v_i，则训练集为二元组格式{y_i,v_i}，其中Loss函数为二值对数回归损失函数的和，具体为：

S7似物性分数评估

对于每个区域r_i∈R，提取其特征v_i，通过深度学习网络计算其似物性分数f_score(v_i)，具体为：

f_score(v_i)＝f(W₂·f(W₁·v_i+b₁)+b₂))

其中v_i为1x4224维向量，W₁、b₁为第一层网络参数；W₁、b₁为第二层网络参数；其中函数f为激活函数，f(x)＝max(0,x)。

其中的W和b分别是在深度学习中，每个卷积网络层的参数；,其中W为一个矩阵，其中保存的是网络中神经元的联接参数，b为偏置项。

其中的激活函数f对于任意值的x，其函数值为x与0二者之间的最大值；这些参数都会在训练网络的时候自动的设定。

本发明的流程示意图如图1所示。先对输入图像进行超像素分割以及深度学习的特征图提取，然后结合特征图和标记矩阵获取所有超像素的特征。根据所提取的超像素的特征进行超像素的合并操作。在一轮的合并结束后，判断是否需要继续下一轮合并。若需要合并，则将新的标记矩阵将更新后的标签矩阵重新与特征图相结合，提取新的超像素特征，继续新的一轮合并；若合并已经结束，则将所包含的超像素信息送入训练好的网络进行似物性评估；之后根据所得到的似物性分数进行排序，最后将排序的结果输出。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的似物性检测方法，其特征在于，包括如下步骤：

S2通过深度学习模型和标记矩阵L提取每个超像素的特征；

S3建立合并矩阵M，具体为：

在输入图像中随机选取超像素作为中心，计算中心超像素与周围超像素的特征的距离与阈值，其中计算距离时添加惩罚系数，随后根据阈值筛选出需合并的超像素，构成的合并集合C，并将合并集合C的信息存入合并矩阵M中；

S5判定候选区域是否提取完毕，若为否，则将S4结果的候选区域集合视为超像素，依据区域标记矩阵R，重复S2,S3,S4，并改变S3中惩罚系数；若为是，停止重复步骤；

S6训练用于近似物分数评估的深度学习网络；

所述S6中训练用于近似物分数评估的深度学习网络，具体为：

基于标记矩阵集合{L}获取所有的区域集合{R_f},对于每个超像素r_i∈R,提取其特征v_i，则训练集为二元组格式{y_i,v_i}，其中Loss函数为二值对数回归损失函数的和，具体为：

其中y_i为区域r_i的实际标记，v_i为r_i的特征，f_score(v_i)为网络所推测的超像素的似物性分数；

S7根据候选区域集合{R_f}，将所有区域送入网络计算似物性分数；按似物性分数进行排序，输出结果；

所述S7中计算似物性分数，具体为：

f_score(v_i)＝f(W₂·f(W₁·v_i+b₁)+b₂))

其中v_i为1x4224维向量，W₁、b₁为第一层网络参数；W₂、b₂为第二层网络参数；其中函数f为激活函数，f(x)＝max(0,x)。

2.根据权利要求1所述的一种基于深度学习的似物性检测方法，其特征在于，所述S2中通过深度学习模型和标记矩阵提取每个超像素的特征，具体为：

将输入图像输入VGG16网络中，提取网络中所有卷积层的特征图，根据S1获得的标记矩阵和特征图，将特征图按照超像素区域进行均值池化，特征图池化后的竖直拼接后得到1*4224维向量作为该超像素的特征。

3.根据权利要求1所述的一种基于深度学习的似物性检测方法，其特征在于，所述S3中在输入图像中任意选取一个超像素作为中心，计算与中心超像素合并的周围超像素构成的合并集合C，具体为：

设中心超像素s_i与邻接超像素A_i＝{s₁,s₂....s_k}的距离集合D_i＝{d₁,d₂....d_k}，根据D_i计算出阈值σ并通过σ筛选出与s_i合并的超像素加入集合C_i＝{s_p,s_q....s_r}({p,q,...,r}∈{1,2,....,k})；

循环且非重复地选取C_i中的超像素s_j作为中心，计算s_j与邻接超像素A_j的距离与阈值，根据阈值筛选超像素时对于距离添加惩罚系数项p，筛选获得合并集合C_j,

将s_j的合并集合C_j并入C_i，C_i＝C_i∩C_j；当C_i中的元素不再增加时，则超像素s_i的合并集合即为C_i。

4.根据权利要求3所述的一种基于深度学习的似物性检测方法，其特征在于，中心超像素与邻接超像素的距离d表示为：

d＝α·d_low+β·d_mid+γ·d_high

其中，d_low为底层特征距离，d_mid为中层特征距离，d_high为高层特征距离，其中每个超像素的特征v为4224维，其中第1至第384维为底层特征，第385至1152维为中层特征，第1153至4224维为高层特征，α、β、γ为权重系数，其中权重系数初始化时根据实验结果进行人为的设定。

5.根据权利要求3所述的一种基于深度学习的似物性检测方法，其特征在于，根据距离集合D_i计算出阈值σ，并通过σ筛选出与s_i合并的超像素加入集合C，具体为：

阈值包括标准阈值和绝对阈值；

所述标准阈值的计算为：对距离集合D_i进行升序排列得到D_rank，计算差分ΔD_rank，

从距离集合D_i中选取下标

对应的d_k作为标准阈值σ_norm；

绝对阈值σ_abs是根据经验阈值获得；

根据中心超像素与其所有的邻接超像素计算出来的距离集合D_i，其中对于d_i∈D_i，所有符合d_i＜min(σ_norm,σ_abs)的i对应的超像素应加入合并超像素集合C。

6.根据权利要求3所述的一种基于深度学习的似物性检测方法，其特征在于，所述惩罚系数项p，具体为：

超像素s_i与邻接超像素A_i＝{s₁,s₂....s_k}的距离集合D_i＝{d₁,d₂....d_k}，在通过阈值筛选时，将会对D′_i＝D_i·p进行筛选；每经过一次计算合并集合操作，p会逐渐增大。

7.根据权利要求1所述的一种基于深度学习的似物性检测方法，其特征在于，所述S4中，根据S3得到的合并矩阵，得到输入图像的超像素合并为多个区域，将区域信息存入区域标记矩阵R，具体为：

在合并矩阵M中，若M(i,j)＝1,则超像素s_i与超像素s_j应当合并，将标记矩阵R中的标记i和标记j均置为i；在遍历完合并矩阵M后，对标记矩阵R进行一次更新，以保证R中的标记按1递增。

8.根据权利要求1所述的一种基于深度学习的似物性检测方法，其特征在于，所述S5中，判定候选区域是否提取完毕，具体为：

若区域标记矩阵R中仅有一种标记，则进入S6。