CN112528904A

CN112528904A - 一种用于砂石颗粒物粒径检测系统的图像分割方法

Info

Publication number: CN112528904A
Application number: CN202011504414.XA
Authority: CN
Inventors: 王雷冲; 刘欣宇
Original assignee: Zhongshan Aishang Zhitong Information Technology Co ltd
Current assignee: Zhongshan Aishang Zhitong Information Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-19

Abstract

本发明公开了一种用于砂石颗粒物粒径检测系统的图像分割方法，首先采用基于特征金字塔网络(FPN)的ResNet作为特征提取网络，增强了特征图的表达能力，节省了大量的时间和GPU显存，满足在工程现场对于实时性的要求；其次提出一种自适应ROIAlign模块，将RPN输出的每个建议框都映射到FPN的全部特征层级上，减少信息丢失，从而实现更精确的分割；然后增加IoU预测分支以改善网络的定位性能，从而实现更精确的分割；最后采用基于定位置信度的NMS算法优先保留具有较高定位精度的检测框提供给目标检测分支和掩码分支，进一步提高了分割精度。本发明能够应用于工厂对于砂石粒径的实时在线分析。

Description

一种用于砂石颗粒物粒径检测系统的图像分割方法

[技术领域]

本发明涉及建筑业机器视觉分析领域，尤其涉及一种用于砂石颗粒物粒径检测系统的图像分割方法。

[背景技术]

混凝土的粗骨料级配配比对混凝土拌合物的工作性能和硬化后混凝土的强度、硬度收缩能力等性能尤其重要，混凝土骨料的粒径分布检测是交通行业和建筑行业中不可或缺的环节，必须在确保混凝土的粒径分布达标以后，才能将骨料用于生产实践。然而，传统的机械筛分法通过机械抖动，使混凝土骨料通过不同孔径的筛孔，这种方法噪声大、成本高、检测速度慢，且难以达到较高的精度。

本发明就是基于以上问题产生的。

[发明内容]

本发明的目的是针对现有技术的不足，提出一种用于砂石颗粒物粒径检测系统的图像分割方法，本发明从机器视觉的角度出发，通过摄像机拍摄得到的图像对砂石目标进行分割，实时分析砂石粒径的分布情况，基于改进的Mask R-CNN深度学习算法，根据RPN输出建议框的尺寸大小，将其映射到FPN的某一特征层级，然后通过ROIAlign在该层级上提取建议框的池化特征，采用自适应ROIAlign模块和特征融合，增加了IoU预测分支，通过预测检测框与真实框之间的IoU，为网络引入定位置信度，并使用改进的非极大值抑制算法进行后处理，从而提升网络在砂石图像数据集上的分割精度。

为解决上述技术问题，本发明所采用的技术方案是：

一种用于砂石颗粒物粒径检测系统的图像分割方法，包括有以下步骤：

步骤S1，使用基于FPN的ResNet网络对输入的图像进行多尺度特征提取；

步骤S2，生成RPN建议框及其锚点；

步骤S3，自适应改进ROIAlign模块；

步骤S4，进行实例分割。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，所述步骤S1进一步的实现步骤如下：

步骤S1-1，ResNet网络：引入残差结构，残差结构使用ReLU激活函数，从输入图像开始，通过多次卷积和下采样逐级减小特征图分辨率；

步骤S1-2，融合FPN网络：FPN网络主要由自下而上、自上而下和横向连接三部分构成，ResNet网络作为自下而上部分把原始图片进行缩小，自上而下部分把最小分辨率特征图进行放大，然后使用横向连接部分将相同分辨率的特征图进行融合。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，所述步骤S2进一步的实现步骤如下：

步骤S2-1，生成锚点：对于经FPN网络生成的不同分辨率的特征图，在其每一点上设置若干种不同宽高比的锚点；

步骤S2-2，初步分类与回归：首先区分锚点属于目标还是背景，根据RPN回归分支的输出，得到所有锚点回归后的位置；将回归后的锚点裁剪至图像边界，并删除面积小于设定阈值的锚点；对剩下的锚点按置信度得分从高到低进行排序，并取前K个锚点；对这K个锚点进行非极大值抑制，并将抑制后的结果重新按置信度得分从高到低进行排序；最后取排序后的前n个框作为候选检测框；

步骤S2-3，输出建议框：在网络测试阶段，取n个候选检测框即为RPN的输出；在训练阶段，以正负样本1:X的比例从中随机选取Y个候选检测框，用来训练目标检测分支和掩码分支，RPN输出的检测框称为建议框。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，在步骤S2-1中，在特征图的每一点上设置3种不同宽高比的锚点，所述宽高比为{1/2，1，2}。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，在步骤S2-3中，取n为1000、X为3、Y为512。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，所述步骤S3进一步的实现步骤如下：

步骤S3-1，建议框映射到FPN网络的所有层级：将RPN输出的每个建议框都映射到FPN的全部4个特征层级上；

步骤S3-2，利用ROIAlign模块调整建议框的特征维度，使所有建议框的维度都等于全连接层的输入维度：首先将建议框等分为2×2的单元格，再将每个单元格均分成四个小单元格；将每个小单元格的中心点视为采样点，对采样点进行双线性插值，得到其像素值；最后对每个单元格内的4个采样点进行最大池化，即得到ROIAlign的结果；

步骤S3-3，特征融合：特征金字塔所有层级的通道数均为256，每个建议框在经过多尺度ROIAlign后，都可得到4个维度为m×m×256的特征，对于Mask R-CNN的目标检测分支和掩码分支，m分别取7和14，使特征融合的位置位于第一层参数层之后，且融合方式为逐元素取最大值。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，所述步骤S4进一步的实现步骤如下：

步骤S4-1，增加IoU预测分支：该分支由3个全连接层组成，分别为fc1、fc2和fc，其维度分别为1024、1024、1，对于RPN输出的建议框，先经过自适应ROIAlign模块，然后将融合后的特征先后通过fc2和fc，最终输出的标量即为网络预测的IoU值；

步骤S4-2，采用基于定位置信度的NMS算法：首先根据目标检测分支选取类别为前景的检测框记为集合B，再根据IoU分支的输出得到B中所有检测框与对应真实框的交并比，选出交并比最大的检测框，设定NMS的阈值，计算最大检测框与B中检测框的交并比，若大于设定的NMS阈值则删除此检测框；

步骤S4-3，目标检测、掩码生成：首先Mask R-CNN的目标检测分支增加3个维度为1024的全连接层，使所得模型的参数量与添加IoU预测分支后的模型相当，将基于定位置信度的NMS算法优先保留具有较高定位精度的检测框提供给目标检测分支和掩码分支，目标检测分支通过fc层进行类别预测和边框回归，掩码分支通过FCN网络、上采样预测一个二进制掩码，作为实例分割的结果；

步骤S4-4，计算改进Mask R-CNN网络的损失函数：损失函数包括有RPN分类损失、RPN回归损失、最终分类损失、最终回归损失和掩码损失。

如上所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，在步骤S4-2中，设定NMS阈值为0.5。

与现有技术相比，本发明的有益效果是：

1、本发明方法简单，可用于工业流水线场景上的砂石颗粒物粒径检测系统，并采用计算机视觉技术进行实时颗粒物粒径分布检测，以较好地满足工业需求。

2、依照Mask R-CNN算法使用FPN处理多尺度目标获得不同分辨率的特征图，使用RPN对锚点进行分类和回归，生成候选检测框即建议框，达到对目标与背景的初步分割，不需要人工绘制候选框，使图像得以在施工现场可以做快速有效的预处理。

3、对Mask R-CNN算法中的ROIAlign模块自适应改进，自适应ROIAlign模块尽可能避免了信息丢失，其中多尺度上进行ROIAlign操作使小目标可以获取高层语义特征，大目标也可以获取低层的位置细节特征，有利于对砂石的掩码进行精确分割，特征融合策略有利于提升目标检测与实例分割的精度。

4、在Mask R-CNN算法中目标检测分支和掩码分支网络的基础上增加IoU预测分支网络，并使用基于定位置信度的非极大值抑制策略保留高定位精度的检测框，使目标检测分支可以获得定位更准确的检测框，进而提高了掩码分支的分割精度。

[附图说明]

图1是本发明的流程图；

图2是改进Mask R-CNN网络整体结构图；

图3是FPN网络结构图；

图4是自适应ROIAlign模块示意图；

图5是ROIAlign实现图；

图6是特征融合方案图。

[具体实施方式]

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图6所示，一种用于砂石颗粒物粒径检测系统的图像分割方法，首先，用基于FPN的ResNet架构对获取的图像进行特征提取；其次，在每个特征图上设置锚点，并用RPN对其进行分类，输出建议框；然后，将输出的建议框映射到FPN的全部特征层级上，在各层级分别进行ROIAlign操作，将获得的多尺度特征进行融合；最后，在Mask R-CNN采用目标检测分支和掩码分支串行的策略中加入基于定位置信度的IoU预测策略，并引入基于定位置信度的非极大值抑制策略，优先保留具有较高定位精度的检测框，提升模型的分割精度。本发明的具体以实施步骤如下：

步骤S1，基于FPN的ResNet多尺度特征提取

由工业控制机控制工业相机拍摄得到即时图像，砂石颗粒物粒径检测系统通过传送带将砂石送至目标拍摄区域。为了使每个尺度的特征图都具有很强的特征表达能力，采用基于FPN的ResNet作为特征提取网络，一方面，FPN的低层特征提供了丰富的位置信息，有助于分割小目标；另一方面，FPN的高层特征又提供了丰富的语义信息，有助于分割大目标，这样允许每一级的特征都可以和高级、低级特征互相结合。如图3所示，FPN主要由自下而上(bottom-up)、自上而下(top-down)和横向连接三部分构成。自下而上(bottom-up)部分把原始图片进行适当地缩小，自上而下(top-down)部分把最小分辨率特征图进行适当地放大，然后使用横向连接部分将相同分辨率的特征图进行融合。具体的实施可以分为以下几个步骤：

步骤S1-1，ResNet网络：ResNet通过引入残差结构，很好的抑制了网络梯度消失或者爆炸现象，残差结构使用了ReLU激活函数，使得特征学习更加容易。从输入图像开始，通过多次卷积和下采样逐级减小特征图分辨率。

步骤S1-2，融合FPN网络：FPN主要由自下而上(bottom-up)、自上而下(top-down)和横向连接三部分构成。ResNet网络作为自下而上(bottom-up)部分把原始图片进行适当地缩小，自上而下(top-down)部分把最小分辨率特征图进行适当地放大，然后使用横向连接部分将相同分辨率的特征图进行融合。用1*1的卷积核将自下而上(bottom-up)部分的各层特征降至256维，然后将降维后的各特征图与自上而下(top-down)部分中相同分辨率的特征图进行融合，融合采用逐元素相加的方式。最后，采用3*3的卷积进一步消除融合后的混叠效应。

步骤S2，RPN建议框及其锚点生成

步骤S2-1，锚点(anchor)的生成

对于经FPN多尺度特征提取，生成了5个不同分辨率的特征图，此处记为P_i，i＝2,3,4,5,6，对于每个特征图，在其每一点上设置3种不同宽高比的锚点(anchor)，具体宽高比为{1/2，1，2}。对于大小为H×W的特征图，就一共可以生成H×W×3个锚点(anchor)。

步骤S2-2，初步分类与回归

首先区分锚点(anchor)属于目标还是背景，根据RPN回归分支的输出，得到所有锚点(anchor)回归后的位置；将回归后的锚点(anchor)裁剪至图像边界，并删除面积小于设定阈值的锚点(anchor)；对于剩下的锚点(anchor)，按置信度得分从高到低进行排序，并取前K个；对这K个锚点(anchor)进行非极大值抑制，并将抑制后的结果重新按置信度得分从高到低进行排序。最后取排序后的前n个框作为候选检测框。

步骤S2-3，输出建议框

在网络测试阶段，取n＝1000，这1000个候选检测框即为RPN的输出；在训练阶段，以正负样本1:3的比例从中随机选取512个候选检测框，用来训练目标检测分支和掩码分支，RPN输出的检测框称为建议框(proposal)。

步骤S3，自适应ROIAlign模块

步骤S3-1，建议框映射到FPN所有层级：首先将RPN输出的每个建议框都映射到FPN的全部4个特征层级上，即P₂-P₅。假设某个大小为h×w的建议框被映射到了第k个层级，那么k、h和w之间应满足：

其中，k代表可映射的层级，k＝2,3,4,5(不映射到P₆)，k₀取4。

步骤S3-2，ROIAlign操作

由于经过映射的建议框具有不同维度的特征，而目标检测分支中的全连接层只接受固定维度的输入。利用ROIAlign模块调整建议框的特征维度，使所有建议框的维度都等于全连接层的输入维度。其操作如图5所示，首先将建议框等分为2×2的单元格，再将每个单元格均分成四个小单元格；将每个小单元格的中心点视为采样点，对采样点进行双线性插值，得到其像素值；最后对每个单元格内的4个采样点进行最大池化，即得到ROIAlign的结果。

步骤S3-3，特征融合

特征金字塔所有层级的通道数均为256，每个建议框在经过多尺度ROIAlign后，都可得到4个维度为m×m×256的特征，对于Mask R-CNN的目标检测分支和掩码分支，m分别取7和14。如图6所示，以目标检测分支为例，将多尺度ROIAlign输出的4个特征在全连接层fc1或fc2之后融合，融合的方式选取逐元素取最大值(element-wise max)形式。

步骤S4，实例分割

步骤S4-1，增加IoU预测分支

IoU预测分支负责预测检测框与真实框之间的IoU，该分支由3个全连接层fc1(自适应ROIAlign模块包含fc1)、fc2和fc组成，其维度分别为1024、1024、1。对于RPN输出的建议框，先经过自适应ROIAlign模块，然后将融合后的特征先后通过fc2与fc，最终输出的标量即为网络预测的IoU值能够直接反映检测框相对于真实框的位置偏移，因此IoU预测分支的输出可视为定位置信度。

在网络训练阶段，目标检测分支和掩码分支沿用Mask R-CNN的训练策略。对于IoU预测分支，本文将RPN输出的正样本建议框与其对应的真实框之间的交并比作为训练目标(target)，其值在区间[0,1]内。为加快收敛，将IoU预测分支的输出也通过sigmoid函数归一化到[0,1]，通过计算预测值与训练目标的Smooth L1损失，反向传播优化网络权重。因为IoU预测分支的训练目标由前向传播过程动态计算得到，所以无需任何额外标注，即可实现端到端的训练。

步骤S4-2，采用基于定位置信度的NMS算法

首先根据目标检测分支选取类别为前景的检测框，集合记为B＝{b₁,b₂,…,b_n}；再根据IoU分支的输出得到B中所有检测框与对应真实框的交并比{I₁,I₂,…,I_n}，并按交并比进行降序排列；从B中取出当前交并比最大的检测框b_m，将其分类得分记为s_m；遍历集合B中的检测框b_i，计算b_m与b_i的交并比，如果大于设定的NMS阈值，则删除b_i，并取s_m＝max(s_m,s_i)，其中s_i为b_i的分类得分，NMS阈值设置为0.5；重复步骤，直到集合B为空集。

步骤S4-3，目标检测、掩码生成

首先Mask R-CNN的目标检测分支增加3个维度为1024的全连接层，使所得模型的参数量与添加IoU预测分支后的模型相当，将基于定位置信度的NMS算法优先保留具有较高定位精度的检测框提供给目标检测分支和掩码分支，目标检测分支通过fc层进行类别预测和边框回归，掩码分支通过FCN网络进行上采样预测一个二进制掩码，作为实例分割的结果。掩码分支用FCN来为每个RoI预测一个m×m的掩码，这允许掩码分支中的每个层显式的保持m×m的对象空间布局，而不会将其缩成缺少空间维度的向量表示。

步骤S4-4，计算改进Mask R-CNN网络的损失函数

Mask R-CNN的损失函数包括5个部分，即RPN分类损失、RPN回归损失、最终分类损失、最终回归损失和掩码损失。前两者涉及RPN模块的损失，其定义为

其中，i代表anchor的索引，p_i为anchor i属于目标的概率。p_i ^*为anchor i的标签，如果根据匹配规则得出anchor i为正样本，则p_i ^*为1，否则p_i ^*为0。t_i为RPN模块预测建议框的位置及其宽高，t_i ^*为目标的真实位置及其宽高。N_cls和N_reg分别为RPN分类损失和回归损失的正则项，λ为平衡两类损失的权重。对于anchor i，RPN分类损失采用softmax交叉熵损失：

L_cls(p_i,p_i ^*)＝-[p_i ^*log p_i+(1-p_i ^*)log(1-p_i)] (3)

RPN回归损失为预测建议框和真实框的Smooth L1损失：

由式(2)可知，分类损失在所有样本上进行计算，而只有正样本才参与计算回归损失。

最终分类损失L_c和最终回归损失L_loc在形式上与上述RPN的分类和回归损失完全相同，即分别采用softmax交叉熵损失和Smooth L1损失进行计算，如式(3)和式(4)所示。对于掩码损失L_mask，Mask R-CNN采用sigmoid平均二值交叉熵损失(BCE loss)代替FCN中的softmax交叉熵损失。由于sigmoid运算仅在每个通道内进行，没有引入其他通道的信息，因此可以有效避免类间竞争。假设掩码分支的输出维度为K×m×m，k为类别总数(不包括背景类)，那么对于第k类目标，Mask R-CNN仅计算第k个通道与真实掩码的BCE损失，从而实现了检测与分割任务的解耦。综上所述，Mask R-CNN的损失函数L_total可表示为

L_total＝L_RPN+L_c+L_loc+L_mask (5)

MR代表改进前的Mask R-CNN网络，SARM(Self-Adaption ROIAlign Module)代表自适应ROIAlign模块，IoU_Pre代表IoU预测分支，FC_Det代表向目标检测分支增加3个维度为1024的全连接层，IoU_NMS代表基于定位置信度的非极大值抑制算法。经在砂石数据集上测试，Mask R-CNN网络和改进后的Mask R-CNN网络精度和实时性结果如表1所示：

表1改进策略有效性验证消融实验

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，包括有以下步骤：

步骤S2，生成RPN建议框及其锚点；

步骤S3，自适应改进ROIAlign模块；

步骤S4，进行实例分割。

2.根据权利要求1所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，所述步骤S1进一步的实现步骤如下：

步骤S1-1，ResNet网络引入残差结构，残差结构使用ReLU激活函数，从输入图像开始，通过多次卷积和下采样逐级减小特征图分辨率；

3.根据权利要求1所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，所述步骤S2进一步的实现步骤如下：

4.根据权利要求3所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，在步骤S2-1中，在特征图的每一点上设置3种不同宽高比的锚点，所述宽高比为{1/2，1，2}。

5.根据权利要求3所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，在步骤S2-3中，取n为1000、X为3、Y为512。

6.根据权利要求1所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，所述步骤S3进一步的实现步骤如下：

步骤S3-1，建议框映射到FPN网络的所有层级，即将RPN输出的每个建议框都映射到FPN的全部4个特征层级上；

7.根据权利要求1所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，所述步骤S4进一步的实现步骤如下：

8.根据权利要求7所述的一种用于砂石颗粒物粒径检测系统的图像分割方法，其特征在于，在步骤S4-2中，设定NMS阈值为0.5。