CN111986125A

CN111986125A - 一种用于多目标任务实例分割的方法

Info

Publication number: CN111986125A
Application number: CN202010686619.8A
Authority: CN
Inventors: 张烨; 樊一超; 陈威慧
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-24
Anticipated expiration: 2040-07-16
Also published as: CN111986125B

Abstract

一种用于多目标任务实例分割的方法方法，包括：步骤一，样本图像直方图均衡化处理；步骤二，构建多目标特征提取网络；步骤三，设计候选边界框，并对特征图上目标物体进行提取和分类；步骤四，利用非极大值抑制算法对多余的边界框进行剔除；步骤五，对候选边界框进行二值回归，以获得实例分割结果。本发明能够提高识别精度、加快识别效率的同时使用二值回归函数将目标物体从图像中分割出来，从而解决分割粗糙的问题。

Description

一种用于多目标任务实例分割的方法

技术领域

本发明涉及一种用于多目标任务实例分割的方法。

技术背景

近几年随着计算机科学技术的飞速发展，基于计算机技术的图像处理、图像目标检测、图像分割等也获得了空前的快速发展，其中深度学习通过学习海量的数字图像特征，提取关键目标特征，在实例分割上已超过人类，给工业界带来了一个又一个惊喜。随着神经元网络的再度兴起，基于卷积神经元网络的视频图像法成为图像分割和识别的主流技术，采用模板匹配、边缘特征提取、梯度直方图等手段，实现对图像的精确识别。虽然基于神经网络的图像特征分割能够针对复杂场景的目标进行有效的特征识别，而且其效果远优于传统的方法，但也存在不足之处：(1)对噪声抗干扰性较弱；(2)通过使用Dropout方法解决了过拟合问题，改进了卷积神经网络模型和参数，但是精度却略有下降；(3)引入了可变型卷积与可分离卷积结构，提高了模型的泛化性，增强了网络模型特征提取能力，但对复杂场景的目标识别表现欠佳；(4)虽然目前提出的图像分割方法，能够直接预测图像像素分类信息，做到了目标物体的像素定位，但模型存在参数量大、效率慢、分割粗糙等问题。总之，传统的检测方法和图像分割方法均存在着操作繁琐、识别精度不高、识别效率慢和分割粗糙等问题。

发明内容

为了克服现有技术的上述不足，本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。

本发明先对采集到的样本图像进行直方图均衡化，使其特征更加鲜明；然后，通过构建多目标特征提取网络对预处理后的图像进行特征提取；随后，对特征图上的目标物体利用候选边界框进行提取和分类；进而通过非极大值抑制算法对多余的边界框进行剔除，仅保留与真实标定框偏差较小且置信度得分最高的候选边界框；最终连接全连接层，并对候选边界框进行二值掩码回归，将输入图像上的目标任务全部分割出来。

为实现上述目的，本发明采用以下技术方案：

一种用于多目标任务实例分割的方法方法，包括如下步骤：

步骤一，样本图像直方图均衡化处理；

图像的直方图表现了图像的灰度分布情况，当直方图的灰度集中分布在低值区域时，图像的亮度较低；当直方图的灰度集中在高值区域时，图像亮度较高。当直方图集中在中值区域时，得到的是低对比度的图像；当直方图分布较为均匀且分布较广时，得到的是高对比度的图像。因此，可以采用使图像灰度级均匀分布的方法，来提高图像的对比度，使图像变得清晰。

直方图均衡化的具体操作步骤如下所示：

(1)统计直方图各灰度级；

首先，设变量r表示图像中像素灰度级，对灰度级进行归一化处理，若图像的灰度级为{0,1,2,...,L-1}，则

其中，0≤r≤1，L为灰度级层次数。

(2)计算出对应的概率密度；

因为图像的像素灰度级是在[0,1]之间随机分布的，所以可用概率密度函数来表示图像灰度级的分布。而在离散形式下，用r^k代表离散灰度，用P_r(r^k)代表灰度r^k出现的概率：

其中，n_k为图像中出现r^k这种灰度的像素数，n是图像中的像素总数，而n_k/n表示频数。

(3)求累计分布函数；

图像进行直方图均衡化的函数表达式为:

其中，k为灰度级数。

(4)求出每个灰度级对应的输出灰度级；

经过下式的反变换过程得到输出灰度级：

r_i＝T^-1(S_i) (4)

(5)映射到新的图像，得到均衡化处理后的直方图。

将原始样本图像经过直方图均衡化处理后前景和背景特征变得更加鲜明，然后将其作为新的图像样本，用作后续步骤的输入。

步骤二，构建多目标特征提取网络；

本发明以ResNeXt101网络为基础，同时结合FPN网络构建了多目标特征提取网络结构，该多目标特征提取网络结构由输入层、卷积网络、池化层和语义特征加强层四部分组成。其具体参数设置如下所示：

2.1)输入层设计；

将步骤一中得到的经过直方图均衡化的样本图像经过进一步的缩放处理，将其尺寸统一成1024*1024大小。如果样本图像不是正方形，则需要在其短边一侧填充黑色像素点；

2.2)卷积网络设计；

(1)第一阶段设置两个卷积层，第一层有64个7*7的卷积核，其卷积步长为2；本结构在第一层之后加入了一个ReLu激活函数；第二层结构与第一层完全一样，也是由64个7*7的卷积核组成，其卷积步长为2；在第二层与第二阶段网络之间加入了一个步长为2、感受野为2*2的最大池化层；

(2)在第二阶段中，首先连接一个通道数为64、卷积核大小为1*1的卷积分层；然后连接一个通道数为64、卷积核大小为3*3的卷积分层；最后再连接一个通道数为256、卷积核大小为1*1的卷积分层。将这三个分层看作一个整体的并行卷积层，并在此阶段将并将分支个数cardinality设置为32，同时连续进行三次整体的卷积操作；

(3)第三阶段和第四阶段同第二阶段的卷积操作方式相同，但是第三阶段中卷积核的通道数是第二阶段的二倍，第四阶段中卷积核的通道数是第二阶段的四倍；

(4)在第五阶段中，网络结构共分为两层，分别是全连接层和Dropout层，其中全连接层输出的特征维数为2048，Dropout层的参数设置为0.5，并在最后加入了一个ReLu激活函数。

2.3)池化层设计；

池化层的主要参数包括池化方式、池化核尺寸、滑动步长以及池化类型数4个方面。本发明的池化方式选择最大池化方式。池化核的大小关系到提取的特征图尺寸，本发明将前4个池化层Pool1、Pool2、Pool3、Pool4的池化核尺寸均设为2*2，又因为在经过第5层池化层Pool5池化操作后得到的特征图需要作为语义特征加强层的输入数据，因此，将Pool5的池化核大小设置为3*3。最后，5层池化层的滑动步长均为1，池化类型为valid，valid类型的池化方式不提取特征矩阵的边界信息。

2.4)语义特征加强层；

该层是由FPN网络构成，其通过将5个池化层得到的5张特征图上的特征使用双线性内插值的方法进行2倍上采样，使得特征图在原有像素的基础上扩大一倍，然后对特征图上的深层细微的特征信息进行提取，同时对较低层输入的特征图通过1*1卷积来改变其通道数，然后将上采样提取得到的特征和1*1卷积后的对应元素相加，以此来达到语义特征信息加强的效果。

步骤三，设计候选边界框，并对特征图上目标物体进行提取和分类；

本步骤的作用主要是用于对图像上的目标物体进行定位，其原理是利用步骤2.4)语义特征加强层处理过的特征图产生多个anchors建议框，然后遍历整个特征图将anchors贴上标签，随后使用RPN区域生成网络对anchors进行学习、判别，最终根据候选边界框的回归损失函数来确定边界框位置，根据分类损失函数来判别候选边界框所对应目标物体的类别。

3.1)生成anchors候选窗口；

对于语义特征加强层处理过的特征图上的每一个位置，本发明均采用k＝9个可能的候选窗口anchors作为一组大小固定的参考窗口，即三种区域面积{128²，256²，512²}与三种比例缩放{1：2，1：1，2：1}的全部组合，本发明对任意图像上的任意滑窗位置均采用这9种模板；

3.2)遍历特征图，计算图像特征；

将生成的anchors候选窗口作为初始的检测框，并进行滑动，再根据图像大小计算滑窗中心点对应原始图像真值标定区域的中心点，通过中心点和宽高就可以求得滑窗位置和原图位置的映射关系，由此便可求出在原图上检测框与真实标定框位置交叠面积，同时对检测框贴上正负标签。本发明设置其重叠面积大于70％则贴正标签，小于30％则贴负标签，然后将贴标签后的anchors传入到RPN区域生成网络种进行学习、判别有无目标物体，如若有目标物体则通过候选边界框标记出来。

3.3)设定候选边界框损失函数；

本步骤的损失函数由回归损失函数和分类损失函数两部分构成，其总的损失函数可以表示为：

其中，N_cls表示前景的个数，N_box表示边框回归后的像素总和；i表示迭代过程中的第i个建议框；p_i表示预测出前景(目标物体)或背景的概率；

表示判定预测所对应位置为前景或背景，若为前景，则记

否则记

t_i表示该建议框的四维坐标信息，即中心点坐标、框宽及框高t_i＝(x_i,y_i,w_i,h_i)，而

表示真正对应的目标物体的坐标信息，记为

λ代表平衡边框回归和分类损失的权重。

回归损失函数表示为：

其中，

函数计算公式为：

分类损失函数表示为：

步骤四，利用非极大值抑制算法对多余的边界框进行剔除；

在步骤三中，对于原图上标定的同一个目标物体来说，会得到多个候选边界框，本发明通过非极大值抑制算法筛除候选边界框，其具体的流程如下：

①按照置信度的大小将所有可能的检测框排序；

②在输出序列内放入置信度最高的检测框；

③将步骤②中得到的检测窗口与剩余窗口的重叠面积进行比例计算；

④如果上述计算所获得的重叠面积比例与阈值T的差值大于0，则认为当前窗口与步骤②中得到的窗口是同一目标，然后删除该窗口；

⑤返回步骤①，循环至全部的默认窗口处理完毕；

⑥在输出序列内最终剩下的窗口即为最终的检测结果。

步骤五，对候选边界框进行二值回归，以获得实例分割结果；

将步骤四得到的候选边界框及其对应的特征图传入到全连接层网络中，然后连接一个二值回归函数，以获得实例分割结果。

5.1)设计全连接层网络；

本发明将三个全连接层串联在一起组成一个小型网络，用以对步骤四所得结果进行处理。其中，前两个全连接层均为256通道、14*14大小的全连接层，第三个全连接层为28*28的全连接层。

5.2)设计二值回归函数；

在二值回归函数的计算过程中，本发明仅使用感兴趣区域为真实目标物体下的通道损失，其余通道均不为该函数贡献损失。具体计算二值回归函数时，其表达式如下：

其中，m表示图像分辨率；K表示通道总数；1^k用于对第k个通道中的目标物体进行分类，如若贡献损失，则其为1，否则其值为0；y代表所处位置的标签值，其值亦是非0即1；sigmoid(x)代表输出值x通过sigmoid(x)函数变换后的结果。

通过上述函数判别候选边界框种的目标物体与背景，并将目标物体分割出来。

优选地，步骤④的阈值T＝0.7。

本发明的优点是：

本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。先对采集到的样本图像进行直方图均衡化，使其特征更加鲜明；然后，通过构建多目标特征提取网络对预处理后的图像进行特征提取；随后，对特征图上的目标物体利用候选边界框进行提取和分类；进而通过非极大值抑制算法对多余的边界框进行剔除，仅保留与真实标定框偏差较小且置信度得分最高的候选边界框；最终连接全连接层，并对候选边界框进行二值掩码回归，将输入图像上的目标任务全部分割出来。因此，本发明能够提高识别精度、加快识别效率的同时使用二值回归函数将目标物体从图像中分割出来，从而解决分割粗糙的问题。该发明方法可以应用于制造业车间质检过程中缺陷检测，也可以应用于物流行业快递分拣技术邻域，具有一定的应用前景。

附图说明

图1a～图1b是样本图像直方图均衡化前后结果对比，其中，图1a是未经过直方图均衡化的样本图像，图1b是直方图均衡化之后的样本图像；

图2a～图2b是用于直方图均衡化的灰度直方图，其中，图2a是图像的灰度值，图2b是根据图2a做出的灰度直方图；

图3是直方图均衡化变换函数；

图4是本发明的多目标特征提取网络输入层缩放操作示例图；

图5是本发明的多目标特征提取网络中语义特征加强层设计图；

图6是本发明的多目标特征提取网络结构图；

图7是本发明的候选边界框提取及分类流程图；

图8是本发明的非极大值抑制算法对候选框的处理逻辑图；

图9是本发明的技术路线图。

具体实施方式

为了克服现有技术的上述不足，本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。先对采集到的样本图像进行直方图均衡化，使其特征更加鲜明；然后，通过构建多目标特征提取网络对预处理后的图像进行特征提取；随后，对特征图上的目标物体利用候选边界框进行提取和分类；进而通过非极大值抑制算法对多余的边界框进行剔除，仅保留与真实标定框偏差较小且置信度得分最高的候选边界框；最终连接全连接层，并对候选边界框进行二值掩码回归，将输入图像上的目标任务全部分割出来。

为实现上述目的，本发明采用以下技术方案：

一种用于多目标任务实例分割的方法方法，包括如下步骤：

步骤一，样本图像直方图均衡化处理；

直方图均衡化的具体操作步骤如下所示：

(1)统计直方图各灰度级；

首先，设变量r表示图像中像素灰度级，对灰度级进行归一化处理，若图像的灰度级为{0,1,2,…,L-1}，则

其中，0≤r≤1，L为灰度级层次数。

(2)计算出对应的概率密度；

其中，n_k为图像中出现r^k这种灰度的像素数，n是图像中的像素总数，而n_k/n就是概率论中的频数。

(3)求累计分布函数；

图像进行直方图均衡化的函数表达式为:

其中，k为灰度级数。

(4)求出每个灰度级对应的输出灰度级；

经过下式的反变换过程得到输出灰度级：

r_i＝T^-1(S_i) (4)

(5)映射到新的图像，得到均衡化处理后的直方图。

将原始样本图像经过直方图均衡化处理后前景和背景特征变得更加鲜明，然后将其作为新的图像样本，用作以下步骤的输入。

步骤二，构建多目标特征提取网络；

2.1)设计输入层；

2.2)设计卷积网络；

2.3)设计池化层；

2.4)语义特征加强层；

3.1)生成anchors候选窗口；

3.2)遍历特征图，计算图像特征；

3.3)设定候选边界框损失函数；

表示判定预测所对应位置为前景或背景，若为前景，则记

否则记

表示真正对应的目标物体的坐标信息，记为

λ代表平衡边框回归和分类损失的权重。

回归损失函数表示为：

其中，

函数计算公式为：

分类损失函数表示为：

步骤四，利用非极大值抑制算法对多余的边界框进行剔除；

①按照置信度的大小将所有可能的检测框排序；

②在输出序列内放入置信度最高的检测框；

④如果上述计算所获得的重叠面积比例与阈值T(本发明中T＝0.7)的差值大于0，则认为当前窗口与步骤②中得到的窗口是同一目标，然后删除该窗口；

⑤返回步骤①，循环至全部的默认窗口处理完毕；

⑥在输出序列内最终剩下的窗口即为最终的检测结果。

5.1)设计全连接层网络；

5.2)设计二值回归函数；

本发明的优点是：

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种用于多目标任务实例分割的方法方法，包括如下步骤：

步骤一，样本图像直方图均衡化处理；具体包括：

(1)统计直方图各灰度级；

其中，0≤r≤1，L为灰度级层次数；

(2)计算出对应的概率密度；

图像的像素灰度级是在[0,1]之间随机分布的，用概率密度函数来表示图像灰度级的分布；而在离散形式下，用r^k代表离散灰度，用P_r(r^k)代表灰度r^k出现的概率：

其中，n_k为图像中出现r^k这种灰度的像素数，n是图像中的像素总数，而n_k/n表示频数；

(3)求累计分布函数；

图像进行直方图均衡化的函数表达式为:

其中，k为灰度级数；

(4)求出每个灰度级对应的输出灰度级；

经过下式的反变换过程得到输出灰度级：

r_i＝T^-1(S_i) (4)

(5)映射到新的图像，得到均衡化处理后的直方图；

将原始样本图像经过直方图均衡化处理后前景和背景特征变得更加鲜明，然后将其作为新的图像样本，用作后续步骤的输入；

步骤二，构建多目标特征提取网络；

以ResNeXt101网络为基础，同时结合FPN网络构建了多目标特征提取网络结构，该多目标特征提取网络结构由输入层、卷积网络、池化层和语义特征加强层四部分组成；具体参数设置如下：

2.1)设计输入层；

将步骤一中得到的经过直方图均衡化的样本图像经过进一步的缩放处理，将其尺寸统一成1024*1024大小；如果样本图像不是正方形，则需要在其短边一侧填充黑色像素点；

2.2)设计卷积网络；

1)第一阶段设置两个卷积层，第一层有64个7*7的卷积核，其卷积步长为2；本结构在第一层之后加入了一个ReLu激活函数；第二层结构与第一层完全一样，也是由64个7*7的卷积核组成，其卷积步长为2；在第二层与第二阶段网络之间加入了一个步长为2、感受野为2*2的最大池化层；

2)在第二阶段中，首先连接一个通道数为64、卷积核大小为1*1的卷积分层；然后连接一个通道数为64、卷积核大小为3*3的卷积分层；最后再连接一个通道数为256、卷积核大小为1*1的卷积分层；将这三个分层看作一个整体的并行卷积层，并在此阶段将并将分支个数cardinality设置为32，同时连续进行三次整体的卷积操作；

3)第三阶段和第四阶段同第二阶段的卷积操作方式相同，但是第三阶段中卷积核的通道数是第二阶段的二倍，第四阶段中卷积核的通道数是第二阶段的四倍；

4)在第五阶段中，网络结构共分为两层，分别是全连接层和Dropout层，其中全连接层输出的特征维数为2048，Dropout层的参数设置为0.5，并在最后加入了一个ReLu激活函数；

2.3)设计池化层；

池化层的参数包括池化方式、池化核尺寸、滑动步长以及池化类型数4个方面；池化方式选择最大池化方式；池化核的大小关系到提取的特征图尺寸，将前4个池化层Pool1、Pool2、Pool3、Pool4的池化核尺寸均设为2*2，又因为在经过第5层池化层Pool5池化操作后得到的特征图需要作为语义特征加强层的输入数据，因此，将Pool5的池化核大小设置为3*3；最后，5层池化层的滑动步长均为1，池化类型为valid，valid类型的池化方式不提取特征矩阵的边界信息；

2.4)语义特征加强层；

由FPN网络构成，其通过将5个池化层得到的5张特征图上的特征使用双线性内插值的方法进行2倍上采样，使得特征图在原有像素的基础上扩大一倍，然后对特征图上的深层细微的特征信息进行提取，同时对较低层输入的特征图通过1*1卷积来改变其通道数，然后将上采样提取得到的特征和1*1卷积后的对应元素相加，以此来达到语义特征信息加强的效果；

用于对图像上的目标物体进行定位，其原理是利用步骤2.4)语义特征加强层处理过的特征图产生多个anchors建议框，然后遍历整个特征图将anchors贴上标签，随后使用RPN区域生成网络对anchors进行学习、判别，最终根据候选边界框的回归损失函数来确定边界框位置，根据分类损失函数来判别候选边界框所对应目标物体的类别；

3.1)生成anchors候选窗口；

对于语义特征加强层处理过的特征图上的每一个位置，均采用k＝9个可能的候选窗口anchors作为一组大小固定的参考窗口，即三种区域面积{128²，256²，512²}与三种比例缩放{1：2，1：1，2：1}的全部组合，本发明对任意图像上的任意滑窗位置均采用这9种模板；

3.2)遍历特征图，计算图像特征；

将生成的anchors候选窗口作为初始的检测框，并进行滑动，再根据图像大小计算滑窗中心点对应原始图像真值标定区域的中心点，通过中心点和宽高就可以求得滑窗位置和原图位置的映射关系，由此便可求出在原图上检测框与真实标定框位置交叠面积，同时对检测框贴上正负标签；设置其重叠面积大于70％则贴正标签，小于30％则贴负标签，然后将贴标签后的anchors传入到RPN区域生成网络种进行学习、判别有无目标物体，如若有目标物体则通过候选边界框标记出来；

3.3)设定候选边界框损失函数；