CN111986125A - 一种用于多目标任务实例分割的方法 - Google Patents
一种用于多目标任务实例分割的方法 Download PDFInfo
- Publication number
- CN111986125A CN111986125A CN202010686619.8A CN202010686619A CN111986125A CN 111986125 A CN111986125 A CN 111986125A CN 202010686619 A CN202010686619 A CN 202010686619A CN 111986125 A CN111986125 A CN 111986125A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- convolution
- pooling
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000001629 suppression Effects 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 66
- 238000011176 pooling Methods 0.000 claims description 54
- 238000001514 detection method Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4084—Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种用于多目标任务实例分割的方法方法,包括:步骤一,样本图像直方图均衡化处理;步骤二,构建多目标特征提取网络;步骤三,设计候选边界框,并对特征图上目标物体进行提取和分类;步骤四,利用非极大值抑制算法对多余的边界框进行剔除;步骤五,对候选边界框进行二值回归,以获得实例分割结果。本发明能够提高识别精度、加快识别效率的同时使用二值回归函数将目标物体从图像中分割出来,从而解决分割粗糙的问题。
Description
技术领域
本发明涉及一种用于多目标任务实例分割的方法。
技术背景
近几年随着计算机科学技术的飞速发展,基于计算机技术的图像处理、图像目标检测、图像分割等也获得了空前的快速发展,其中深度学习通过学习海量的数字图像特征,提取关键目标特征,在实例分割上已超过人类,给工业界带来了一个又一个惊喜。随着神经元网络的再度兴起,基于卷积神经元网络的视频图像法成为图像分割和识别的主流技术,采用模板匹配、边缘特征提取、梯度直方图等手段,实现对图像的精确识别。虽然基于神经网络的图像特征分割能够针对复杂场景的目标进行有效的特征识别,而且其效果远优于传统的方法,但也存在不足之处:(1)对噪声抗干扰性较弱;(2)通过使用Dropout方法解决了过拟合问题,改进了卷积神经网络模型和参数,但是精度却略有下降;(3)引入了可变型卷积与可分离卷积结构,提高了模型的泛化性,增强了网络模型特征提取能力,但对复杂场景的目标识别表现欠佳;(4)虽然目前提出的图像分割方法,能够直接预测图像像素分类信息,做到了目标物体的像素定位,但模型存在参数量大、效率慢、分割粗糙等问题。总之,传统的检测方法和图像分割方法均存在着操作繁琐、识别精度不高、识别效率慢和分割粗糙等问题。
发明内容
为了克服现有技术的上述不足,本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。
本发明先对采集到的样本图像进行直方图均衡化,使其特征更加鲜明;然后,通过构建多目标特征提取网络对预处理后的图像进行特征提取;随后,对特征图上的目标物体利用候选边界框进行提取和分类;进而通过非极大值抑制算法对多余的边界框进行剔除,仅保留与真实标定框偏差较小且置信度得分最高的候选边界框;最终连接全连接层,并对候选边界框进行二值掩码回归,将输入图像上的目标任务全部分割出来。
为实现上述目的,本发明采用以下技术方案:
一种用于多目标任务实例分割的方法方法,包括如下步骤:
步骤一,样本图像直方图均衡化处理;
图像的直方图表现了图像的灰度分布情况,当直方图的灰度集中分布在低值区域时,图像的亮度较低;当直方图的灰度集中在高值区域时,图像亮度较高。当直方图集中在中值区域时,得到的是低对比度的图像;当直方图分布较为均匀且分布较广时,得到的是高对比度的图像。因此,可以采用使图像灰度级均匀分布的方法,来提高图像的对比度,使图像变得清晰。
直方图均衡化的具体操作步骤如下所示:
(1)统计直方图各灰度级;
首先,设变量r表示图像中像素灰度级,对灰度级进行归一化处理,若图像的灰度级为{0,1,2,...,L-1},则
其中,0≤r≤1,L为灰度级层次数。
(2)计算出对应的概率密度;
因为图像的像素灰度级是在[0,1]之间随机分布的,所以可用概率密度函数来表示图像灰度级的分布。而在离散形式下,用rk代表离散灰度,用Pr(rk)代表灰度rk出现的概率:
其中,nk为图像中出现rk这种灰度的像素数,n是图像中的像素总数,而nk/n表示频数。
(3)求累计分布函数;
图像进行直方图均衡化的函数表达式为:
其中,k为灰度级数。
(4)求出每个灰度级对应的输出灰度级;
经过下式的反变换过程得到输出灰度级:
ri=T-1(Si) (4)
(5)映射到新的图像,得到均衡化处理后的直方图。
将原始样本图像经过直方图均衡化处理后前景和背景特征变得更加鲜明,然后将其作为新的图像样本,用作后续步骤的输入。
步骤二,构建多目标特征提取网络;
本发明以ResNeXt101网络为基础,同时结合FPN网络构建了多目标特征提取网络结构,该多目标特征提取网络结构由输入层、卷积网络、池化层和语义特征加强层四部分组成。其具体参数设置如下所示:
2.1)输入层设计;
将步骤一中得到的经过直方图均衡化的样本图像经过进一步的缩放处理,将其尺寸统一成1024*1024大小。如果样本图像不是正方形,则需要在其短边一侧填充黑色像素点;
2.2)卷积网络设计;
(1)第一阶段设置两个卷积层,第一层有64个7*7的卷积核,其卷积步长为2;本结构在第一层之后加入了一个ReLu激活函数;第二层结构与第一层完全一样,也是由64个7*7的卷积核组成,其卷积步长为2;在第二层与第二阶段网络之间加入了一个步长为2、感受野为2*2的最大池化层;
(2)在第二阶段中,首先连接一个通道数为64、卷积核大小为1*1的卷积分层;然后连接一个通道数为64、卷积核大小为3*3的卷积分层;最后再连接一个通道数为256、卷积核大小为1*1的卷积分层。将这三个分层看作一个整体的并行卷积层,并在此阶段将并将分支个数cardinality设置为32,同时连续进行三次整体的卷积操作;
(3)第三阶段和第四阶段同第二阶段的卷积操作方式相同,但是第三阶段中卷积核的通道数是第二阶段的二倍,第四阶段中卷积核的通道数是第二阶段的四倍;
(4)在第五阶段中,网络结构共分为两层,分别是全连接层和Dropout层,其中全连接层输出的特征维数为2048,Dropout层的参数设置为0.5,并在最后加入了一个ReLu激活函数。
2.3)池化层设计;
池化层的主要参数包括池化方式、池化核尺寸、滑动步长以及池化类型数4个方面。本发明的池化方式选择最大池化方式。池化核的大小关系到提取的特征图尺寸,本发明将前4个池化层Pool1、Pool2、Pool3、Pool4的池化核尺寸均设为2*2,又因为在经过第5层池化层Pool5池化操作后得到的特征图需要作为语义特征加强层的输入数据,因此,将Pool5的池化核大小设置为3*3。最后,5层池化层的滑动步长均为1,池化类型为valid,valid类型的池化方式不提取特征矩阵的边界信息。
2.4)语义特征加强层;
该层是由FPN网络构成,其通过将5个池化层得到的5张特征图上的特征使用双线性内插值的方法进行2倍上采样,使得特征图在原有像素的基础上扩大一倍,然后对特征图上的深层细微的特征信息进行提取,同时对较低层输入的特征图通过1*1卷积来改变其通道数,然后将上采样提取得到的特征和1*1卷积后的对应元素相加,以此来达到语义特征信息加强的效果。
步骤三,设计候选边界框,并对特征图上目标物体进行提取和分类;
本步骤的作用主要是用于对图像上的目标物体进行定位,其原理是利用步骤2.4)语义特征加强层处理过的特征图产生多个anchors建议框,然后遍历整个特征图将anchors贴上标签,随后使用RPN区域生成网络对anchors进行学习、判别,最终根据候选边界框的回归损失函数来确定边界框位置,根据分类损失函数来判别候选边界框所对应目标物体的类别。
3.1)生成anchors候选窗口;
对于语义特征加强层处理过的特征图上的每一个位置,本发明均采用k=9个可能的候选窗口anchors作为一组大小固定的参考窗口,即三种区域面积{1282,2562,5122}与三种比例缩放{1:2,1:1,2:1}的全部组合,本发明对任意图像上的任意滑窗位置均采用这9种模板;
3.2)遍历特征图,计算图像特征;
将生成的anchors候选窗口作为初始的检测框,并进行滑动,再根据图像大小计算滑窗中心点对应原始图像真值标定区域的中心点,通过中心点和宽高就可以求得滑窗位置和原图位置的映射关系,由此便可求出在原图上检测框与真实标定框位置交叠面积,同时对检测框贴上正负标签。本发明设置其重叠面积大于70%则贴正标签,小于30%则贴负标签,然后将贴标签后的anchors传入到RPN区域生成网络种进行学习、判别有无目标物体,如若有目标物体则通过候选边界框标记出来。
3.3)设定候选边界框损失函数;
本步骤的损失函数由回归损失函数和分类损失函数两部分构成,其总的损失函数可以表示为:
其中,Ncls表示前景的个数,Nbox表示边框回归后的像素总和;i表示迭代过程中的第i个建议框;pi表示预测出前景(目标物体)或背景的概率;表示判定预测所对应位置为前景或背景,若为前景,则记否则记ti表示该建议框的四维坐标信息,即中心点坐标、框宽及框高ti=(xi,yi,wi,hi),而表示真正对应的目标物体的坐标信息,记为λ代表平衡边框回归和分类损失的权重。
回归损失函数表示为:
分类损失函数表示为:
步骤四,利用非极大值抑制算法对多余的边界框进行剔除;
在步骤三中,对于原图上标定的同一个目标物体来说,会得到多个候选边界框,本发明通过非极大值抑制算法筛除候选边界框,其具体的流程如下:
①按照置信度的大小将所有可能的检测框排序;
②在输出序列内放入置信度最高的检测框;
③将步骤②中得到的检测窗口与剩余窗口的重叠面积进行比例计算;
④如果上述计算所获得的重叠面积比例与阈值T的差值大于0,则认为当前窗口与步骤②中得到的窗口是同一目标,然后删除该窗口;
⑤返回步骤①,循环至全部的默认窗口处理完毕;
⑥在输出序列内最终剩下的窗口即为最终的检测结果。
步骤五,对候选边界框进行二值回归,以获得实例分割结果;
将步骤四得到的候选边界框及其对应的特征图传入到全连接层网络中,然后连接一个二值回归函数,以获得实例分割结果。
5.1)设计全连接层网络;
本发明将三个全连接层串联在一起组成一个小型网络,用以对步骤四所得结果进行处理。其中,前两个全连接层均为256通道、14*14大小的全连接层,第三个全连接层为28*28的全连接层。
5.2)设计二值回归函数;
在二值回归函数的计算过程中,本发明仅使用感兴趣区域为真实目标物体下的通道损失,其余通道均不为该函数贡献损失。具体计算二值回归函数时,其表达式如下:
其中,m表示图像分辨率;K表示通道总数;1k用于对第k个通道中的目标物体进行分类,如若贡献损失,则其为1,否则其值为0;y代表所处位置的标签值,其值亦是非0即1;sigmoid(x)代表输出值x通过sigmoid(x)函数变换后的结果。
通过上述函数判别候选边界框种的目标物体与背景,并将目标物体分割出来。
优选地,步骤④的阈值T=0.7。
本发明的优点是:
本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。先对采集到的样本图像进行直方图均衡化,使其特征更加鲜明;然后,通过构建多目标特征提取网络对预处理后的图像进行特征提取;随后,对特征图上的目标物体利用候选边界框进行提取和分类;进而通过非极大值抑制算法对多余的边界框进行剔除,仅保留与真实标定框偏差较小且置信度得分最高的候选边界框;最终连接全连接层,并对候选边界框进行二值掩码回归,将输入图像上的目标任务全部分割出来。因此,本发明能够提高识别精度、加快识别效率的同时使用二值回归函数将目标物体从图像中分割出来,从而解决分割粗糙的问题。该发明方法可以应用于制造业车间质检过程中缺陷检测,也可以应用于物流行业快递分拣技术邻域,具有一定的应用前景。
附图说明
图1a~图1b是样本图像直方图均衡化前后结果对比,其中,图1a是未经过直方图均衡化的样本图像,图1b是直方图均衡化之后的样本图像;
图2a~图2b是用于直方图均衡化的灰度直方图,其中,图2a是图像的灰度值,图2b是根据图2a做出的灰度直方图;
图3是直方图均衡化变换函数;
图4是本发明的多目标特征提取网络输入层缩放操作示例图;
图5是本发明的多目标特征提取网络中语义特征加强层设计图;
图6是本发明的多目标特征提取网络结构图;
图7是本发明的候选边界框提取及分类流程图;
图8是本发明的非极大值抑制算法对候选框的处理逻辑图;
图9是本发明的技术路线图。
具体实施方式
为了克服现有技术的上述不足,本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。先对采集到的样本图像进行直方图均衡化,使其特征更加鲜明;然后,通过构建多目标特征提取网络对预处理后的图像进行特征提取;随后,对特征图上的目标物体利用候选边界框进行提取和分类;进而通过非极大值抑制算法对多余的边界框进行剔除,仅保留与真实标定框偏差较小且置信度得分最高的候选边界框;最终连接全连接层,并对候选边界框进行二值掩码回归,将输入图像上的目标任务全部分割出来。
为实现上述目的,本发明采用以下技术方案:
一种用于多目标任务实例分割的方法方法,包括如下步骤:
步骤一,样本图像直方图均衡化处理;
图像的直方图表现了图像的灰度分布情况,当直方图的灰度集中分布在低值区域时,图像的亮度较低;当直方图的灰度集中在高值区域时,图像亮度较高。当直方图集中在中值区域时,得到的是低对比度的图像;当直方图分布较为均匀且分布较广时,得到的是高对比度的图像。因此,可以采用使图像灰度级均匀分布的方法,来提高图像的对比度,使图像变得清晰。
直方图均衡化的具体操作步骤如下所示:
(1)统计直方图各灰度级;
首先,设变量r表示图像中像素灰度级,对灰度级进行归一化处理,若图像的灰度级为{0,1,2,…,L-1},则
其中,0≤r≤1,L为灰度级层次数。
(2)计算出对应的概率密度;
因为图像的像素灰度级是在[0,1]之间随机分布的,所以可用概率密度函数来表示图像灰度级的分布。而在离散形式下,用rk代表离散灰度,用Pr(rk)代表灰度rk出现的概率:
其中,nk为图像中出现rk这种灰度的像素数,n是图像中的像素总数,而nk/n就是概率论中的频数。
(3)求累计分布函数;
图像进行直方图均衡化的函数表达式为:
其中,k为灰度级数。
(4)求出每个灰度级对应的输出灰度级;
经过下式的反变换过程得到输出灰度级:
ri=T-1(Si) (4)
(5)映射到新的图像,得到均衡化处理后的直方图。
将原始样本图像经过直方图均衡化处理后前景和背景特征变得更加鲜明,然后将其作为新的图像样本,用作以下步骤的输入。
步骤二,构建多目标特征提取网络;
本发明以ResNeXt101网络为基础,同时结合FPN网络构建了多目标特征提取网络结构,该多目标特征提取网络结构由输入层、卷积网络、池化层和语义特征加强层四部分组成。其具体参数设置如下所示:
2.1)设计输入层;
将步骤一中得到的经过直方图均衡化的样本图像经过进一步的缩放处理,将其尺寸统一成1024*1024大小。如果样本图像不是正方形,则需要在其短边一侧填充黑色像素点;
2.2)设计卷积网络;
(1)第一阶段设置两个卷积层,第一层有64个7*7的卷积核,其卷积步长为2;本结构在第一层之后加入了一个ReLu激活函数;第二层结构与第一层完全一样,也是由64个7*7的卷积核组成,其卷积步长为2;在第二层与第二阶段网络之间加入了一个步长为2、感受野为2*2的最大池化层;
(2)在第二阶段中,首先连接一个通道数为64、卷积核大小为1*1的卷积分层;然后连接一个通道数为64、卷积核大小为3*3的卷积分层;最后再连接一个通道数为256、卷积核大小为1*1的卷积分层。将这三个分层看作一个整体的并行卷积层,并在此阶段将并将分支个数cardinality设置为32,同时连续进行三次整体的卷积操作;
(3)第三阶段和第四阶段同第二阶段的卷积操作方式相同,但是第三阶段中卷积核的通道数是第二阶段的二倍,第四阶段中卷积核的通道数是第二阶段的四倍;
(4)在第五阶段中,网络结构共分为两层,分别是全连接层和Dropout层,其中全连接层输出的特征维数为2048,Dropout层的参数设置为0.5,并在最后加入了一个ReLu激活函数。
2.3)设计池化层;
池化层的主要参数包括池化方式、池化核尺寸、滑动步长以及池化类型数4个方面。本发明的池化方式选择最大池化方式。池化核的大小关系到提取的特征图尺寸,本发明将前4个池化层Pool1、Pool2、Pool3、Pool4的池化核尺寸均设为2*2,又因为在经过第5层池化层Pool5池化操作后得到的特征图需要作为语义特征加强层的输入数据,因此,将Pool5的池化核大小设置为3*3。最后,5层池化层的滑动步长均为1,池化类型为valid,valid类型的池化方式不提取特征矩阵的边界信息。
2.4)语义特征加强层;
该层是由FPN网络构成,其通过将5个池化层得到的5张特征图上的特征使用双线性内插值的方法进行2倍上采样,使得特征图在原有像素的基础上扩大一倍,然后对特征图上的深层细微的特征信息进行提取,同时对较低层输入的特征图通过1*1卷积来改变其通道数,然后将上采样提取得到的特征和1*1卷积后的对应元素相加,以此来达到语义特征信息加强的效果。
步骤三,设计候选边界框,并对特征图上目标物体进行提取和分类;
本步骤的作用主要是用于对图像上的目标物体进行定位,其原理是利用步骤2.4)语义特征加强层处理过的特征图产生多个anchors建议框,然后遍历整个特征图将anchors贴上标签,随后使用RPN区域生成网络对anchors进行学习、判别,最终根据候选边界框的回归损失函数来确定边界框位置,根据分类损失函数来判别候选边界框所对应目标物体的类别。
3.1)生成anchors候选窗口;
对于语义特征加强层处理过的特征图上的每一个位置,本发明均采用k=9个可能的候选窗口anchors作为一组大小固定的参考窗口,即三种区域面积{1282,2562,5122}与三种比例缩放{1:2,1:1,2:1}的全部组合,本发明对任意图像上的任意滑窗位置均采用这9种模板;
3.2)遍历特征图,计算图像特征;
将生成的anchors候选窗口作为初始的检测框,并进行滑动,再根据图像大小计算滑窗中心点对应原始图像真值标定区域的中心点,通过中心点和宽高就可以求得滑窗位置和原图位置的映射关系,由此便可求出在原图上检测框与真实标定框位置交叠面积,同时对检测框贴上正负标签。本发明设置其重叠面积大于70%则贴正标签,小于30%则贴负标签,然后将贴标签后的anchors传入到RPN区域生成网络种进行学习、判别有无目标物体,如若有目标物体则通过候选边界框标记出来。
3.3)设定候选边界框损失函数;
本步骤的损失函数由回归损失函数和分类损失函数两部分构成,其总的损失函数可以表示为:
其中,Ncls表示前景的个数,Nbox表示边框回归后的像素总和;i表示迭代过程中的第i个建议框;pi表示预测出前景(目标物体)或背景的概率;表示判定预测所对应位置为前景或背景,若为前景,则记否则记ti表示该建议框的四维坐标信息,即中心点坐标、框宽及框高ti=(xi,yi,wi,hi),而表示真正对应的目标物体的坐标信息,记为λ代表平衡边框回归和分类损失的权重。
回归损失函数表示为:
分类损失函数表示为:
步骤四,利用非极大值抑制算法对多余的边界框进行剔除;
在步骤三中,对于原图上标定的同一个目标物体来说,会得到多个候选边界框,本发明通过非极大值抑制算法筛除候选边界框,其具体的流程如下:
①按照置信度的大小将所有可能的检测框排序;
②在输出序列内放入置信度最高的检测框;
③将步骤②中得到的检测窗口与剩余窗口的重叠面积进行比例计算;
④如果上述计算所获得的重叠面积比例与阈值T(本发明中T=0.7)的差值大于0,则认为当前窗口与步骤②中得到的窗口是同一目标,然后删除该窗口;
⑤返回步骤①,循环至全部的默认窗口处理完毕;
⑥在输出序列内最终剩下的窗口即为最终的检测结果。
步骤五,对候选边界框进行二值回归,以获得实例分割结果;
将步骤四得到的候选边界框及其对应的特征图传入到全连接层网络中,然后连接一个二值回归函数,以获得实例分割结果。
5.1)设计全连接层网络;
本发明将三个全连接层串联在一起组成一个小型网络,用以对步骤四所得结果进行处理。其中,前两个全连接层均为256通道、14*14大小的全连接层,第三个全连接层为28*28的全连接层。
5.2)设计二值回归函数;
在二值回归函数的计算过程中,本发明仅使用感兴趣区域为真实目标物体下的通道损失,其余通道均不为该函数贡献损失。具体计算二值回归函数时,其表达式如下:
其中,m表示图像分辨率;K表示通道总数;1k用于对第k个通道中的目标物体进行分类,如若贡献损失,则其为1,否则其值为0;y代表所处位置的标签值,其值亦是非0即1;sigmoid(x)代表输出值x通过sigmoid(x)函数变换后的结果。
通过上述函数判别候选边界框种的目标物体与背景,并将目标物体分割出来。
本发明的优点是:
本发明针对当前存在的识别精度不高、识别效率慢和分割粗糙等问题提供了一种用于多目标任务实例分割的方法。先对采集到的样本图像进行直方图均衡化,使其特征更加鲜明;然后,通过构建多目标特征提取网络对预处理后的图像进行特征提取;随后,对特征图上的目标物体利用候选边界框进行提取和分类;进而通过非极大值抑制算法对多余的边界框进行剔除,仅保留与真实标定框偏差较小且置信度得分最高的候选边界框;最终连接全连接层,并对候选边界框进行二值掩码回归,将输入图像上的目标任务全部分割出来。因此,本发明能够提高识别精度、加快识别效率的同时使用二值回归函数将目标物体从图像中分割出来,从而解决分割粗糙的问题。该发明方法可以应用于制造业车间质检过程中缺陷检测,也可以应用于物流行业快递分拣技术邻域,具有一定的应用前景。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.一种用于多目标任务实例分割的方法方法,包括如下步骤:
步骤一,样本图像直方图均衡化处理;具体包括:
(1)统计直方图各灰度级;
首先,设变量r表示图像中像素灰度级,对灰度级进行归一化处理,若图像的灰度级为{0,1,2,...,L-1},则
其中,0≤r≤1,L为灰度级层次数;
(2)计算出对应的概率密度;
图像的像素灰度级是在[0,1]之间随机分布的,用概率密度函数来表示图像灰度级的分布;而在离散形式下,用rk代表离散灰度,用Pr(rk)代表灰度rk出现的概率:
其中,nk为图像中出现rk这种灰度的像素数,n是图像中的像素总数,而nk/n表示频数;
(3)求累计分布函数;
图像进行直方图均衡化的函数表达式为:
其中,k为灰度级数;
(4)求出每个灰度级对应的输出灰度级;
经过下式的反变换过程得到输出灰度级:
ri=T-1(Si) (4)
(5)映射到新的图像,得到均衡化处理后的直方图;
将原始样本图像经过直方图均衡化处理后前景和背景特征变得更加鲜明,然后将其作为新的图像样本,用作后续步骤的输入;
步骤二,构建多目标特征提取网络;
以ResNeXt101网络为基础,同时结合FPN网络构建了多目标特征提取网络结构,该多目标特征提取网络结构由输入层、卷积网络、池化层和语义特征加强层四部分组成;具体参数设置如下:
2.1)设计输入层;
将步骤一中得到的经过直方图均衡化的样本图像经过进一步的缩放处理,将其尺寸统一成1024*1024大小;如果样本图像不是正方形,则需要在其短边一侧填充黑色像素点;
2.2)设计卷积网络;
1)第一阶段设置两个卷积层,第一层有64个7*7的卷积核,其卷积步长为2;本结构在第一层之后加入了一个ReLu激活函数;第二层结构与第一层完全一样,也是由64个7*7的卷积核组成,其卷积步长为2;在第二层与第二阶段网络之间加入了一个步长为2、感受野为2*2的最大池化层;
2)在第二阶段中,首先连接一个通道数为64、卷积核大小为1*1的卷积分层;然后连接一个通道数为64、卷积核大小为3*3的卷积分层;最后再连接一个通道数为256、卷积核大小为1*1的卷积分层;将这三个分层看作一个整体的并行卷积层,并在此阶段将并将分支个数cardinality设置为32,同时连续进行三次整体的卷积操作;
3)第三阶段和第四阶段同第二阶段的卷积操作方式相同,但是第三阶段中卷积核的通道数是第二阶段的二倍,第四阶段中卷积核的通道数是第二阶段的四倍;
4)在第五阶段中,网络结构共分为两层,分别是全连接层和Dropout层,其中全连接层输出的特征维数为2048,Dropout层的参数设置为0.5,并在最后加入了一个ReLu激活函数;
2.3)设计池化层;
池化层的参数包括池化方式、池化核尺寸、滑动步长以及池化类型数4个方面;池化方式选择最大池化方式;池化核的大小关系到提取的特征图尺寸,将前4个池化层Pool1、Pool2、Pool3、Pool4的池化核尺寸均设为2*2,又因为在经过第5层池化层Pool5池化操作后得到的特征图需要作为语义特征加强层的输入数据,因此,将Pool5的池化核大小设置为3*3;最后,5层池化层的滑动步长均为1,池化类型为valid,valid类型的池化方式不提取特征矩阵的边界信息;
2.4)语义特征加强层;
由FPN网络构成,其通过将5个池化层得到的5张特征图上的特征使用双线性内插值的方法进行2倍上采样,使得特征图在原有像素的基础上扩大一倍,然后对特征图上的深层细微的特征信息进行提取,同时对较低层输入的特征图通过1*1卷积来改变其通道数,然后将上采样提取得到的特征和1*1卷积后的对应元素相加,以此来达到语义特征信息加强的效果;
步骤三,设计候选边界框,并对特征图上目标物体进行提取和分类;
用于对图像上的目标物体进行定位,其原理是利用步骤2.4)语义特征加强层处理过的特征图产生多个anchors建议框,然后遍历整个特征图将anchors贴上标签,随后使用RPN区域生成网络对anchors进行学习、判别,最终根据候选边界框的回归损失函数来确定边界框位置,根据分类损失函数来判别候选边界框所对应目标物体的类别;
3.1)生成anchors候选窗口;
对于语义特征加强层处理过的特征图上的每一个位置,均采用k=9个可能的候选窗口anchors作为一组大小固定的参考窗口,即三种区域面积{1282,2562,5122}与三种比例缩放{1:2,1:1,2:1}的全部组合,本发明对任意图像上的任意滑窗位置均采用这9种模板;
3.2)遍历特征图,计算图像特征;
将生成的anchors候选窗口作为初始的检测框,并进行滑动,再根据图像大小计算滑窗中心点对应原始图像真值标定区域的中心点,通过中心点和宽高就可以求得滑窗位置和原图位置的映射关系,由此便可求出在原图上检测框与真实标定框位置交叠面积,同时对检测框贴上正负标签;设置其重叠面积大于70%则贴正标签,小于30%则贴负标签,然后将贴标签后的anchors传入到RPN区域生成网络种进行学习、判别有无目标物体,如若有目标物体则通过候选边界框标记出来;
3.3)设定候选边界框损失函数;
本步骤的损失函数由回归损失函数和分类损失函数两部分构成,其总的损失函数可以表示为:
其中,Ncls表示前景的个数,Nbox表示边框回归后的像素总和;i表示迭代过程中的第i个建议框;pi表示预测出前景(目标物体)或背景的概率;表示判定预测所对应位置为前景或背景,若为前景,则记否则记ti表示该建议框的四维坐标信息,即中心点坐标、框宽及框高ti=(xi,yi,wi,hi),而表示真正对应的目标物体的坐标信息,记为λ代表平衡边框回归和分类损失的权重;
回归损失函数表示为:
分类损失函数表示为:
步骤四,利用非极大值抑制算法对多余的边界框进行剔除;
在步骤三中,对于原图上标定的同一个目标物体来说,会得到多个候选边界框,通过非极大值抑制算法筛除候选边界框,其具体的流程如下:
①按照置信度的大小将所有可能的检测框排序;
②在输出序列内放入置信度最高的检测框;
③将步骤②中得到的检测窗口与剩余窗口的重叠面积进行比例计算;
④如果上述计算所获得的重叠面积比例与阈值T的差值大于0,则认为当前窗口与步骤②中得到的窗口是同一目标,然后删除该窗口;
⑤返回步骤①,循环至全部的默认窗口处理完毕;
⑥在输出序列内最终剩下的窗口即为最终的检测结果;
步骤五,对候选边界框进行二值回归,以获得实例分割结果;
将步骤四得到的候选边界框及其对应的特征图传入到全连接层网络中,然后连接一个二值回归函数,以获得实例分割结果;
5.1)设计全连接层网络;
将三个全连接层串联在一起组成一个小型网络,用以对步骤四所得结果进行处理;其中,前两个全连接层均为256通道、14*14大小的全连接层,第三个全连接层为28*28的全连接层;
5.2)设计二值回归函数;
在二值回归函数的计算过程中,仅使用感兴趣区域为真实目标物体下的通道损失,其余通道均不为该函数贡献损失;具体计算二值回归函数时,其表达式如下:
其中,m表示图像分辨率;K表示通道总数;1k用于对第k个通道中的目标物体进行分类,如若贡献损失,则其为1,否则其值为0;y代表所处位置的标签值,其值亦是非0即1;sigmoid(x)代表输出值x通过sigmoid(x)函数变换后的结果;
通过上述函数判别候选边界框种的目标物体与背景,并将目标物体分割出来。
2.如权利要求1所述的一种用于多目标任务实例分割的方法方法,其特征在于:步骤④的阈值T=0.7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010686619.8A CN111986125B (zh) | 2020-07-16 | 2020-07-16 | 一种用于多目标任务实例分割的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010686619.8A CN111986125B (zh) | 2020-07-16 | 2020-07-16 | 一种用于多目标任务实例分割的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986125A true CN111986125A (zh) | 2020-11-24 |
CN111986125B CN111986125B (zh) | 2024-08-23 |
Family
ID=73437827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010686619.8A Active CN111986125B (zh) | 2020-07-16 | 2020-07-16 | 一种用于多目标任务实例分割的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986125B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508939A (zh) * | 2020-12-22 | 2021-03-16 | 郑州金惠计算机系统工程有限公司 | 法兰表面缺陷检测方法及系统和设备 |
CN112613564A (zh) * | 2020-12-25 | 2021-04-06 | 桂林汉璟智能仪器有限公司 | 一种剔除重叠框的目标检测后处理方法 |
CN113177439A (zh) * | 2021-04-08 | 2021-07-27 | 中通服咨询设计研究院有限公司 | 一种行人翻越马路护栏检测方法 |
CN113284047A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 基于多重特征的目标物分割方法、装置、设备及存储介质 |
CN113378876A (zh) * | 2021-04-25 | 2021-09-10 | 河海大学 | 一种自适应确定目标尺寸和感受野大小的方法 |
CN113963060A (zh) * | 2021-09-22 | 2022-01-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的车信图像处理方法、装置及电子设备 |
GB2604991A (en) * | 2021-01-14 | 2022-09-21 | Nvidia Corp | Performing non-maximum suppression in parallel |
CN115294112A (zh) * | 2022-09-30 | 2022-11-04 | 南通爱唯家用纺织品有限公司 | 一种竹席切割装置的控制方法 |
CN118055213A (zh) * | 2024-03-11 | 2024-05-17 | 寰宇信任(北京)技术有限公司 | 一种家庭影院根据观影人数定价的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN110163187A (zh) * | 2019-06-02 | 2019-08-23 | 东北石油大学 | 基于f-rcnn的远距离交通标志检测识别方法 |
CN110232380A (zh) * | 2019-06-13 | 2019-09-13 | 应急管理部天津消防研究所 | 基于Mask R-CNN神经网络的火灾夜间场景复原方法 |
CN110443778A (zh) * | 2019-06-25 | 2019-11-12 | 浙江工业大学 | 一种检测工业品不规则缺陷的方法 |
CN111339882A (zh) * | 2020-02-19 | 2020-06-26 | 山东大学 | 基于实例分割的输电线路隐患检测方法 |
-
2020
- 2020-07-16 CN CN202010686619.8A patent/CN111986125B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN110163187A (zh) * | 2019-06-02 | 2019-08-23 | 东北石油大学 | 基于f-rcnn的远距离交通标志检测识别方法 |
CN110232380A (zh) * | 2019-06-13 | 2019-09-13 | 应急管理部天津消防研究所 | 基于Mask R-CNN神经网络的火灾夜间场景复原方法 |
CN110443778A (zh) * | 2019-06-25 | 2019-11-12 | 浙江工业大学 | 一种检测工业品不规则缺陷的方法 |
CN111339882A (zh) * | 2020-02-19 | 2020-06-26 | 山东大学 | 基于实例分割的输电线路隐患检测方法 |
Non-Patent Citations (1)
Title |
---|
HE KAIMING 等: "Mask RCNN", 《COMPUTER VISION AND PATTERN RECOGNITION》, 25 July 2017 (2017-07-25), pages 1 - 12 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508939A (zh) * | 2020-12-22 | 2021-03-16 | 郑州金惠计算机系统工程有限公司 | 法兰表面缺陷检测方法及系统和设备 |
CN112613564A (zh) * | 2020-12-25 | 2021-04-06 | 桂林汉璟智能仪器有限公司 | 一种剔除重叠框的目标检测后处理方法 |
GB2604991A (en) * | 2021-01-14 | 2022-09-21 | Nvidia Corp | Performing non-maximum suppression in parallel |
GB2604991B (en) * | 2021-01-14 | 2023-08-02 | Nvidia Corp | Performing non-maximum suppression in parallel |
CN113177439A (zh) * | 2021-04-08 | 2021-07-27 | 中通服咨询设计研究院有限公司 | 一种行人翻越马路护栏检测方法 |
CN113177439B (zh) * | 2021-04-08 | 2024-01-26 | 中通服咨询设计研究院有限公司 | 一种行人翻越马路护栏检测方法 |
CN113378876A (zh) * | 2021-04-25 | 2021-09-10 | 河海大学 | 一种自适应确定目标尺寸和感受野大小的方法 |
CN113284047A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 基于多重特征的目标物分割方法、装置、设备及存储介质 |
CN113963060A (zh) * | 2021-09-22 | 2022-01-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的车信图像处理方法、装置及电子设备 |
CN113963060B (zh) * | 2021-09-22 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 基于人工智能的车信图像处理方法、装置及电子设备 |
CN115294112A (zh) * | 2022-09-30 | 2022-11-04 | 南通爱唯家用纺织品有限公司 | 一种竹席切割装置的控制方法 |
CN118055213A (zh) * | 2024-03-11 | 2024-05-17 | 寰宇信任(北京)技术有限公司 | 一种家庭影院根据观影人数定价的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111986125B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110136154B (zh) | 基于全卷积网络与形态学处理的遥感图像语义分割方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN107451616A (zh) | 基于深度半监督迁移学习的多光谱遥感图像地物分类方法 | |
CN112116599B (zh) | 基于弱监督学习的痰涂片结核杆菌语义分割方法及系统 | |
CN111986126B (zh) | 一种基于改进vgg16网络的多目标检测方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN107808138B (zh) | 一种基于FasterR-CNN的通信信号识别方法 | |
CN112733614B (zh) | 一种带有相似尺寸强化识别的害虫图像检测方法 | |
CN109035196B (zh) | 基于显著性的图像局部模糊检测方法 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN110414616B (zh) | 一种利用空间关系的遥感图像字典学习分类方法 | |
CN110211127B (zh) | 基于双相关性网络的图像分割方法 | |
CN110969171A (zh) | 基于改进卷积神经网络的图像分类模型、方法及应用 | |
CN112101364B (zh) | 基于参数重要性增量学习的语义分割方法 | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN110738672A (zh) | 一种基于分层高阶条件随机场的图像分割方法 | |
CN112837320A (zh) | 一种基于并行空洞卷积的遥感影像语义分割方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN114648667A (zh) | 一种基于轻量化双线性cnn模型的鸟类图像细粒度识别方法 | |
CN113313678A (zh) | 一种基于多尺度特征融合的精子形态学自动分析方法 | |
CN116129280B (zh) | 一种遥感影像雪检测的方法 | |
CN113191361A (zh) | 一种形状识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |