CN113421222B - 一种轻量化煤矸目标检测方法 - Google Patents
一种轻量化煤矸目标检测方法 Download PDFInfo
- Publication number
- CN113421222B CN113421222B CN202110557484.XA CN202110557484A CN113421222B CN 113421222 B CN113421222 B CN 113421222B CN 202110557484 A CN202110557484 A CN 202110557484A CN 113421222 B CN113421222 B CN 113421222B
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- layer
- coal gangue
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003245 coal Substances 0.000 title claims abstract description 83
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000005286 illumination Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000000926 separation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种轻量化煤矸目标检测方法,具体为:首先,在不同光照条件下采集煤矸图片,建立煤矸数据集;利用轻量化特征提取网络,提取煤矸图片的多尺度特征;再应用自注意力分支对浅层特征图进行特征增强;之后利用修改后的锚框参数生成每种尺度特征图对应的锚框;以SSD目标检测模型为基本框架,构建改进SSD煤矸目标检测模型;最后,采用煤矸训练集对模型进行训练。本发明的方法,实现了检测精度和速度更好的权衡,通过对模型进行轻量化处理、引入自注意力机制以及锚框优化,提高了煤矸目标检测的精度和速度。
Description
技术领域
本发明属于计算机视觉检测技术领域,具体涉及一种轻量化煤矸目标检测方法。
背景技术
原煤开采中不可避免的掺杂着煤矸石,而煤炭在燃烧过程中,煤矸石不仅会影响煤炭的充分燃烧而且还会造成环境污染,因此,煤矸分选是提高煤碳利用率的主要途径,也是推动洁净煤技术发展的关键之一。传统的煤矸石分选方式主要有人工分选和机械分选两种方式,人工选矸的方式不仅劳动强度大、效率低,而且工作环境恶劣,容易对工人身体造成危害;机械选矸的方式又可分为湿选法和干选法两种方式,但此类方法容易对水或大气造成污染。目前,较为成熟的煤矸分选方式主要是射线法,虽然分选精度较高,但是射线法本身存在辐射危害,设备昂贵且不易管理等问题,应用上难以推广。
随着计算机视觉技术的发展,设备简单、识别效率高的图像处理技术受到越来越多的学者关注。中国专利(申请号202011468232.1,公开号CN 112560941 A)公开了基于图像检测的煤矸识别方法,这种方法能针对图像中的煤矸目标进行识别,但是无法直接输出煤矸的位置信息,在实际煤矸分选中,不仅需要知道煤和矸石的类别信息,还需要知道煤和矸石的位置信息,因此有必要进一步研究。
发明内容
本发明的目的是提供一种轻量化煤矸目标检测方法,解决了现有煤矸目标检测方法存在的检测精度低、速度慢的问题。
本发明所采用技术方案是,一种轻量化煤矸目标检测方法,具体按照以下步骤实施:
步骤1,数据集采集与标注:在不同光照条件下采集煤矸图片,形成煤矸数据集;
步骤2,利用轻量化特征提取网络,提取煤矸图片的多尺度特征;
具体为:以SSD特征提取网络为基础,利用GhostNet的Conv1、GB Neck2、GB Neck3、GB Neck4、GB Neck5作为SSD特征提取网络的主体网络层提取任意一张煤矸图片的浅层特征,主体网络层输出特征图的尺寸为19×19×112,设置GhostNet的基本结构Ghost模块中利用线性变换生成特征图的个数s=2,再经过扩展层Conv6、Conv7、Conv8、Conv9四个卷积块提取特征图的深层特征;
步骤3,应用自注意力分支对浅层特征图进行特征增强;
步骤4,利用修改后的锚框参数生成每种尺度特征图对应的锚框;
步骤5,以SSD目标检测模型为基本框架,构建改进SSD煤矸目标检测模型;
步骤6,对模型进行训练。
本发明的特点还在于,
步骤1中,数据集中包含两个类别:煤、矸石,利用LabelImg软件对数据集进行标注,数据集格式为VOC格式,并利用随机旋转、水平翻转、亮度增强三种操作进行煤矸数据集扩充,利用坐标转换自动生成扩充图片的xml文件,确保扩充之后的数据集总量不少于2800张。
步骤3中,具体过程如下:
步骤301、提取38×38、19×19两种尺度的浅层特征图作为输入,经过自注意力模块输出,将每张特征图x∈Rh×w×c分别经过q,k,v三个分支,q,k两条分支使用扩张卷积对输入特征图进行尺度压缩,得到输出q(x)∈Rh×w×c/8、k(x)∈Rh×w×c/8卷积核的个数分别为c/8、c/8,扩张率分别为1、3,将q,k两条分支的扩张卷积输出q(x)、k(x)的维度变换为q(x)∈RN ×c/t、k(x)∈RN×c/t,经过矩阵相乘运算、softmax运算得出注意力图θ(x)∈RN×N,v分支使用扩张卷积对输入特征图进行特征提取,得到输出ν(x)∈Rh×w×c,卷积核的个数为c,扩张率为5,将v分支扩张卷积输出ν(x)维度变换为RN×c,再与注意力图θ(x)相乘,将相乘结果进行维度变换,最后与输出特征图x进行shortcut连接,得到自注意力特征图y∈Rh×w×c;
步骤302、分别以步骤301得到的两个自注意力特征图y为输入,利用1×1卷积实现特征跨通道的交互和信息整合;38×38、19×19两种尺度特征图对应分支1×1卷积核个数分别为40、120。
步骤4中,具体为:利用K-means对煤矸数据集进行聚类,使用每个anchorbox与聚类中心框的交并比IOU作为度量标准,采用的度量公式为d(box,centroid)=1-IOU(box,centroid),其中box代表真实标注框的集合,centroid代表聚类中心框的集合,设置聚类簇数k=6,通过对数据集聚类得到锚框的纵横比aspect_ratios=[ar1,ar2,ar3,ar4,ar5,ar6],根据聚类结果对锚框尺寸参数进行修改,并将六种尺度网格点生成锚框的个数改为[6,6,6,6,6,6];
6种尺度特征图归一化尺度参数计算公式如式(1)所示;
式(1)中,sk表示第k个特征图的归一化尺度参数;smin是最小归一化尺寸,取值为0.2,smax是最大归一化尺寸,取值为0.9;m表示特征图的个数,取值为6;
第k种尺度特征图对应的6个锚框尺寸的计算公式,如式(2)所示,则得到第k种尺度特征图对应的6个锚框尺寸{(w1,h1),(w2,h2),(w3,h3),(w4,h4),(w5,h5),(w6,h6)};
其中,wi、hi分别表示由aspect_ratios中第i个纵横比计算得到锚框的宽和高。
步骤5中,具体过程如下:
步骤501、利用步骤2中轻量化特征提取网络进行多尺度特征提取,轻量化特征提取网络包括主体网络层和扩展层,输入图像首先经过主体网络层提取浅层特征,主体网络层共有12层,第1层为卷积层、其余11层为Ghost瓶颈块,将第12层的输出特征图19×19×112输出给扩展层进行深层特征提取,扩展层包括8层卷积层,特征提取网络共有20层,其中对第13、15层两层卷积输出使用全零填充操作;
步骤502、将特征提取网络中第6层Ghost瓶颈块输出特征图38×38×40传递给第一自注意力模块,将第12层Ghost瓶颈块输出特征图19×19×112传递给第二自注意力模块,将第一自注意力模块输出自注意力特征图38×38×40输出给1×1卷积,将第二自注意力模块输出自注意力特征图19×19×112输出给1×1卷积;
步骤503、将经步骤3后得到的浅层特征增强后的多尺度特征图送入检测模块进行预测每个锚框的位置偏移量和类别概率,并根据位置偏移量对锚框位置进行修正,提取两个1×1卷积输出特征图和第14、16、18、20层的特征图六种尺度的特征进行预测,6种尺度的特征图的尺寸分别是38×38×40、19×19×112、10×10×512、5×5×256、3×3×256、1×1×256,通过检测模块对生成的每一个锚框进行预测,检测模块包括定位网络和分类网络,定位网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×4,其中num_priors表示特征图每个位置生成锚框的个数,分类网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×c,其中c表示检测任务中需要预测物体类别的个数;
步骤504、取出每一类得分大于置信度阈值0.5的锚框和对应的类别概率,然后利用非极大值抑制方法将输出的重复的类别和坐标值去除,获得最终的模型预测结果。
步骤6中,具体为:首先对步骤1中的煤矸数据集进行划分,其中训练集、验证集、测试集的划分比例为8:1:1,煤矸训练集输入到网络之前将图片尺寸缩放到300×300,模型训练300epoch,初始学习率设置为0.001,batch_size设置为8,训练时采用学习率自动衰减策略,当验证集损失值连续10次未得到改善时,学习率更新为原来的0.9,优化器采用Adam。
本发明的有益效果是:
1、本发明基于计算机视觉技术,通过在不同光照条件下采集煤矸图片制作数据集,然后利用数据集训练得到煤矸目标检测模型,利用摄像头采集煤矸分选现场视频送入该模型即可对煤矸进行识别定位,具有设备简单、安全的特点。
2、本发明通过在浅层网络中引入两条自注意力分支,提高了浅层特征图对前景区域的关注度,抑制背景噪声干扰,同时扩大浅层特征图的感受野,提高了模型对煤矸小目标的检测精度。
3、本发明实现了检测精度和速度更好的权衡,通过对模型进行轻量化处理、引入自注意力机制以及锚框优化,提高了煤矸目标检测的精度和速度。
附图说明
图1为本发明一种轻量化煤矸目标检测方法的流程图;
图2为本发明一种轻量化煤矸目标检测方法中改进SSD目标检测结构图;
图3为本发明一种轻量化煤矸目标检测方法中自注意力模块结构图;
图4为本发明一种轻量化煤矸目标检测方法中自注意力分支结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种轻量化煤矸目标检测方法,如图1所示,具体按照以下步骤实施:
步骤1,数据集采集与标注:在不同光照条件下采集煤矸图片,形成数据集;数据集中包含两个类别:煤(coal)、矸石(gan),利用LabelImg软件对数据集进行标注,数据集格式为VOC格式,并利用随机旋转、水平翻转、亮度增强三种操作进行煤矸数据集扩充,利用坐标转换自动生成扩充图片的xml文件,为提高模型的泛化性能,确保扩充之后的数据集总量不少于2800张;
步骤2,利用轻量化特征提取网络,提取煤矸图片的多尺度特征;
具体为:以SSD特征提取网络为基础,利用GhostNet的Conv1、GB Neck2、GB Neck3、GB Neck4、GB Neck5作为SSD特征提取网络的主体网络层提取任意一张煤矸图片的浅层特征,主体网络层输出特征图的尺寸为19×19×112,其中设置GhostNet的基本结构Ghost模块中利用线性变换生成特征图的个数s=2,再经过扩展层Conv6、Conv7、Conv8、Conv9四个卷积块提取特征图的深层特征;
步骤3、应用自注意力分支对浅层特征图进行特征增强,过程如下:
步骤301、提取38×38、19×19两种尺度的浅层特征图作为输入,经过自注意力模块输出,将每张特征图x∈Rh×w×c分别经过q,k,v三个分支,q,k两条分支使用扩张卷积对输入特征图进行尺度压缩,得到输出q(x)∈Rh×w×c/8、k(x)∈Rh×w×c/8卷积核的个数分别为c/8、c/8,扩张率分别为1、3,将q,k两条分支的扩张卷积输出q(x)、k(x)的维度变换为q(x)∈RN ×c/t、k(x)∈RN×c/t,其中N=h×w,经过矩阵相乘运算、softmax运算得出注意力图θ(x)∈RN ×N,v分支使用扩张卷积对输入特征图进行特征提取,得到输出ν(x)∈Rh×w×c,卷积核的个数为c,扩张率为5,将v分支扩张卷积输出ν(x)维度变换为RN×c,再与注意力图θ(x)相乘,将相乘结果进行维度变换,最后与输出特征图x进行shortcut连接,得到自注意力特征图y∈Rh ×w×c,计算过程公式为y=x+θ(x)ν(x);
步骤302、分别以步骤301得到的两个自注意力特征图y为输入,利用1×1卷积实现特征跨通道的交互和信息整合;
38×38、19×19两种尺度特征图对应分支1×1卷积核个数分别为40、120;
步骤4、利用修改后的锚框参数生成每种尺度特征图对应的锚框;
利用K-means对煤矸数据集进行聚类,使用每个anchorbox与聚类中心框的交并比IOU作为度量标准,采用的度量公式为d(box,centroid)=1-IOU(box,centroid),其中box代表真实标注框的集合,centroid代表聚类中心框的集合,设置聚类簇数k=6,通过对数据集聚类得到锚框的纵横比aspect_ratios=[ar1,ar2,ar3,ar4,ar5,ar6],根据聚类结果对锚框尺寸参数进行修改,并将六种尺度网格点生成锚框的个数改为[6,6,6,6,6,6];
6种尺度特征图归一化尺度参数计算公式如式(1)所示;
式(1)中,sk表示第k个特征图的归一化尺度参数;smin是最小归一化尺寸,取值为0.2,smax是最大归一化尺寸,取值为0.9;m表示特征图的个数,取值为6;
第k种尺度特征图对应的6个锚框尺寸的计算公式,如式(2)所示,则得到第k种尺度特征图对应的6个锚框尺寸{(w1,h1),(w2,h2),(w3,h3),(w4,h4),(w5,h5),(w6,h6)};
其中,wi、hi分别表示由aspect_ratios中第i个纵横比计算得到锚框的宽和高,i=(1,2,3,4,5,6);
步骤5,构建改进SSD煤矸目标检测系统,以SSD目标检测模型为基本框架,具体过程如下:
步骤501、利用步骤2中搭建的轻量化特征提取网络进行多尺度特征提取,加快模型的推理速度,轻量化特征提取网络包括主体网络层和扩展层,输入图像首先经过主体网络层提取浅层特征,主体网络层共有12层,第1层为卷积层、其余11层为Ghost瓶颈块,将第12层的输出特征图19×19×112输出给扩展层进行深层特征提取,扩展层包括8层卷积层,特征提取网络共有20层,其中对第13、15层两层卷积输出使用全零填充操作;
步骤502、将特征提取网络中第6层Ghost瓶颈块输出特征图38×38×40传递给第一自注意力模块,将第12层Ghost瓶颈块输出特征图19×19×112传递给第二自注意力模块,将第一自注意力模块输出自注意力特征图38×38×40输出给1×1卷积,将第二自注意力模块输出自注意力特征图19×19×112输出给1×1卷积;
步骤503、将经步骤3后得到的浅层特征增强后的多尺度特征图送入检测模块进行预测每个锚框的位置偏移量和类别概率,并根据位置偏移量对锚框位置进行修正,提取两个1×1卷积输出特征图和第14、16、18、20层的特征图六种尺度的特征进行预测,6种尺度的特征图的尺寸分别是38×38×40、19×19×112、10×10×512、5×5×256、3×3×256、1×1×256,通过检测模块对生成的每一个锚框进行预测,检测模块包括定位网络和分类网络,定位网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×4,其中num_priors表示特征图每个位置生成锚框的个数,分类网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×c,其中c表示检测任务中需要预测物体类别的个数;
步骤504、取出每一类得分大于置信度阈值0.5的锚框和对应的类别概率,然后利用非极大值抑制(NMS)方法将输出的重复的类别和坐标值去除,获得最终的模型预测结果;
步骤6、模型训练:模型训练在TensorFlow2.2框架下进行,操作系统为Ubuntu16.04,处理器为Inter@Xeon E5-2630 v4,内存16G,显卡为NVIDIA GeForce GTX1060,首先对步骤1中的煤矸数据集进行划分,其中训练集、验证集、测试集的划分比例为8:1:1,煤矸训练集输入到网络之前将图片尺寸缩放到300×300,模型训练300epoch,初始学习率设置为0.001,batch_size设置为8,训练时采用学习率自动衰减策略,当验证集损失值连续10次未得到改善时,学习率更新为原来的0.9,优化器采用Adam。
实施例
本发明一种轻量化的煤矸目标检测方法,具体按照以下步骤实施:
步骤1、煤矸数据采集与处理:通过在实际煤矸分拣场景下采集煤矸图片,煤矸图片采集分多次进行,采集时考虑不同的光照条件,数据集中包含两个类别:煤(coal)、矸石(gan),每张图片中煤和矸石的数量以及位置随机出现;
利用LabelImg软件对数据集进行标注,将每张图片中的煤和矸石进行类别和位置信息标注,保存标注信息生成xml文件,数据集格式为VOC格式;
利用随机旋转、水平翻转、亮度增强三种操作进行煤矸数据集扩充,其中利用亮度增强进行数据扩充时,gamma参数设置为0.5,利用坐标转换自动生成扩充图片的xml文件,对扩充之后的数据集按照VOC数据集格式进行命名,为提高模型的泛化性能,确保扩充之后的数据集总量不少于2800张;
步骤2、利用轻量化特征提取网络提取多尺度特征:以SSD特征提取网络为基础,利用GhostNet的Conv1、GB Neck2、GB Neck3、GB Neck4、GB Neck5作为SSD特征提取网络的主体网络层,提取煤矸图片的浅层特征,设置Ghost模块中利用线性变换生成特征图的个数s=2,主体网络层输出再经过扩展层Conv6、Conv7、Conv8、Conv9四个卷积块提取图片的深层特征。
步骤3、应用自注意力分支对浅层特征图进行特征增强,如图2所示,过程如下:
步骤301、提取38×38、19×19两种尺度的特征图作为输入,经过自注意力模块输出,自注意力模块结构如图3所示,输入特征图x∈Rh×w×c分别经过q,k,v三个分支,其中h、w分别表示输入特征图的高、宽,q,k两条分支使用扩张卷积对输入特征图进行尺度压缩,得到输出q(x)∈Rh×w×c/8、k(x)∈Rh×w×c/8卷积核的个数分别为c/8、c/8,扩张率分别为1、3,将q,k两条分支的扩张卷积输出q(x)、k(x)的维度变换为q(x)∈RN×c/t、k(x)∈RN×c/t,其中N=h×w,经过矩阵相乘运算、softmax运算得出注意力图θ(x)∈RN×N,v分支使用扩张卷积对输入特征图进行特征提取,得到输出ν(x)∈Rh×w×c,卷积核的个数为c,扩张率为5,将v分支扩张卷积输出ν(x)维度变换为RN×c,再与注意力图θ(x)相乘,将相乘结果进行维度变换,最后与输出特征图x进行shortcut连接,得到自注意力特征图y∈Rh×w×c,计算过程公式y=x+θ(x)ν(x)。
步骤302、利用1×1卷积对自注意力特征图y实现特征跨通道的交互和信息整合,38×38、19×19两种尺度特征图对应分支1×1卷积核的个数分别为40、120。
步骤4、利用修改后的锚框参数生成每种尺度特征图对应的锚框:利用K-means对煤矸数据集进行聚类,使用每个anchorbox与聚类中心框的交并比IOU作为度量标准,采用的度量公式为d(box,centroid)=1-IOU(box,centroid),其中box代表真实标注框的集合,centroid代表聚类中心框的集合,设置聚类簇数k=6,通过对数据集聚类得到锚框的纵横比aspect_ratios=[ar1,ar2,ar3,ar4,ar5,ar6],根据聚类结果对锚框尺寸参数进行修改,并将六种尺度网格点生成锚框的个数改为[6,6,6,6,6,6],6种尺度特征图归一化尺度参数计算公式如下:
其中,sk表示第k个特征图的归一化尺度参数,smin是设计好的归一化尺寸,取值为0.2,smax是最大归一化尺寸,取值0.9,m表示特征图的个数,本算法中取值为6,第k个特征图对应的6个锚框的长宽计算公式为:
得到第k种尺度对应的6个锚框尺寸{(w1,h1),(w2,h2),(w3,h3),(w4,h4),(w5,h5),(w6,h6)};
步骤5、构建改进SSD煤矸目标检测算法:如图4所示,以SSD目标检测模型为基本框架,具体过程如下:
步骤501、利用步骤二中搭建的轻量化特征提取网络进行多尺度特征提取,加快模型的推理速度,轻量化特征提取网络主要包括主体网络层和扩展层,输入图像首先经过主体网络层提取浅层特征,主体网络层共有12层,第1层为卷积层、其余11层为Ghost瓶颈块,将第12层的输出特征图19×19×112输出给扩展层进行深层特征提取,扩展层主要包括8层卷积层,特征提取网络共有20层,其中对第13、15层两层卷积输出使用全零填充操作。
步骤502、基于步骤三中的自注意力模块分别对38×38、19×19两种尺度的浅层特征图进行特征增强,提高特征对前景区域的关注度,将特征提取网络中第6层Ghost瓶颈块输出特征图38×38×40传递给第一自注意力模块,将第12层Ghost瓶颈块输出特征图19×19×112传递给第二自注意力模块,将第一自注意力模块输出自注意力特征图38×38×40输出给1×1卷积,将第二自注意力模块输出自注意力特征图19×19×112输出给1×1卷积。
步骤503、经过步骤4进行锚框优化以满足煤矸目标检测的特定需求获得六种尺度特征图中每个网格点对应的锚框。
步骤504、将浅层特征增强后的多尺度特征图送入检测模块进行预测每个锚框的位置偏移量和类别概率,并根据位置偏移量对锚框位置进行修正,提取两个1×1卷积输出特征图和第14、16、18、20层的特征图六种尺度的特征进行预测,6种尺度的特征图的尺寸分别是38×38×40、19×19×112、10×10×512、5×5×256、3×3×256、1×1×256,通过检测模块对生成的每一个锚框进行预测,检测模块包括定位网络和分类网络,定位网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×4,其中num_priors表示特征图每个位置生成锚框的个数,分类网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×c,其中c表示检测任务中需要预测物体类别的个数。
步骤505、取出每一类得分大于置信度阈值0.5的锚框和对应的类别概率,然后利用非极大值抑制(NMS)方法将输出的重复的类别和坐标值去除,获得最终的模型预测结果。
步骤6、模型训练:本模型训练在TensorFlow2.2框架下进行,操作系统为Ubuntu16.04,处理器为Inter@Xeon E5-2630 v4,内存16G,显卡为NVIDIA GeForce GTX1060,首先对煤矸数据集进行划分,其中训练集、验证集、测试集的划分比例为8:1:1,模型煤矸训练集输入到网络之前图片尺寸缩放到300×300,模型训练300epoch,初始学习率设置为0.001,batch_size设置为8,训练时采用学习率自动衰减策略,当验证集损失值连续10次未得到改善时,学习率更新为原来的0.9,优化器采用Adam,通过训练得到煤矸目标检测模型。
模型测试:利用煤矸训练集进行了四组消融实验,选用平均精确度(AP)、平均精确度均值(mAP)、帧率(FPS)作为该模型的评估指标,并利用煤矸测试集进行效果评估,其中测试集图片数量不少于380张图片,统计煤矸测试集中煤矸真实样本个数,平均每张图片包含真实样本3.9个,使测试结果反应出煤矸多目标测试的结果,实验结果如表1所示;
表1消融实验结果
通过本组实验可以得出利用GhostNet建立轻量化的特征提取网络,在平均精确度均值损失了0.8%的情况下,检测速度提高了81FPS,模型推理速度获得很大的提升,在SSD算法中引入自注意力模块使在煤矸测试集上的平均精确度均值增加2.4%,通过聚类优化SSD算法的默认锚框参数,检测效果进同样获得了提升,最终结合锚框优化、GhostNet和自注意力模块获得改进煤矸目标检测模型Ghost-SSD,本发明方法相较于SSD原模型,改进后模型煤和矸石的AP值分别达到了90.0%、87.1%,相比SSD算法分别提升了3.4%、3.7%,平均精确度均值提高了3.5%,改进后模型的检测速度达到了108FPS,相比SSD算法提升了75FPS,实现了检测精度和速度的共同提升,该模型更适合在计算和内存资源有限的嵌入式计算平台进行部署。
Claims (4)
1.一种轻量化煤矸目标检测方法,其特征在于,具体按照以下步骤实施:
步骤1,数据集采集与标注:在不同光照条件下采集煤矸图片,形成煤矸数据集;
步骤2,利用轻量化特征提取网络,提取煤矸图片的多尺度特征;
具体为:以SSD特征提取网络为基础,利用GhostNet的Conv1、GB Neck2、GB Neck3、GBNeck4、GB Neck5作为SSD特征提取网络的主体网络层提取任意一张煤矸图片的浅层特征,主体网络层输出特征图的尺寸为19×19×112,设置GhostNet的基本结构Ghost模块中利用线性变换生成特征图的个数s=2,再经过扩展层Conv6、Conv7、Conv8、Conv9四个卷积块提取特征图的深层特征;
步骤3,应用自注意力分支对浅层特征图进行特征增强;具体过程如下:
步骤301、提取38×38、19×19两种尺度的浅层特征图作为输入,经过自注意力模块输出,将每张特征图x∈Rh×w×c分别经过q,k,v三个分支,q,k两条分支使用扩张卷积对输入特征图进行尺度压缩,得到输出q(x)∈Rh×w×c/8、k(x)∈Rh×w×c/8卷积核的个数分别为c/8、c/8,扩张率分别为1、3,将q,k两条分支的扩张卷积输出q(x)、k(x)的维度变换为q(x)∈RN×c/t、k(x)∈RN×c/t,经过矩阵相乘运算、softmax运算得出注意力图θ(x)∈RN×N,v分支使用扩张卷积对输入特征图进行特征提取,得到输出ν(x)∈Rh×w×c,卷积核的个数为c,扩张率为5,将v分支扩张卷积输出ν(x)维度变换为RN×c,再与注意力图θ(x)相乘,将相乘结果进行维度变换,最后与输出特征图x进行shortcut连接,得到自注意力特征图y∈Rh×w×c;
步骤302、分别以步骤301得到的两个自注意力特征图y为输入,利用1×1卷积实现特征跨通道的交互和信息整合;38×38、19×19两种尺度特征图对应分支1×1卷积核个数分别为40、120;
步骤4,利用修改后的锚框参数生成每种尺度特征图对应的锚框;
具体为:利用K-means对煤矸数据集进行聚类,使用每个anchorbox与聚类中心框的交并比IOU作为度量标准,采用的度量公式为d(box,centroid)=1-IOU(box,centroid),其中box代表真实标注框的集合,centroid代表聚类中心框的集合,设置聚类簇数k=6,通过对数据集聚类得到锚框的纵横比aspect_ratios=[ar1,ar2,ar3,ar4,ar5,ar6],根据聚类结果对锚框尺寸参数进行修改,并将六种尺度网格点生成锚框的个数改为[6,6,6,6,6,6];
6种尺度特征图归一化尺度参数计算公式如式(1)所示;
式(1)中,sk表示第k个特征图的归一化尺度参数;smin是最小归一化尺寸,取值为0.2,smax是最大归一化尺寸,取值为0.9;m表示特征图的个数,取值为6;
第k种尺度特征图对应的6个锚框尺寸的计算公式,如式(2)所示,则得到第k种尺度特征图对应的6个锚框尺寸{(w1,h1),(w2,h2),(w3,h3),(w4,h4),(w5,h5),(w6,h6)};
其中,wi、hi分别表示由aspect_ratios中第i个纵横比计算得到锚框的宽和高;
步骤5,以SSD目标检测模型为基本框架,构建改进SSD煤矸目标检测模型;
步骤6,对模型进行训练。
2.根据权利要求1所述的一种轻量化煤矸目标检测方法,其特征在于,所述步骤1中,数据集中包含两个类别:煤、矸石,利用LabelImg软件对数据集进行标注,数据集格式为VOC格式,并利用随机旋转、水平翻转、亮度增强三种操作进行煤矸数据集扩充,利用坐标转换自动生成扩充图片的xml文件,确保扩充之后的数据集总量不少于2800张。
3.根据权利要求1所述的一种轻量化煤矸目标检测方法,其特征在于,所述步骤5中,具体过程如下:
步骤501、利用步骤2中轻量化特征提取网络进行多尺度特征提取,轻量化特征提取网络包括主体网络层和扩展层,输入图像首先经过主体网络层提取浅层特征,主体网络层共有12层,第1层为卷积层、其余11层为Ghost瓶颈块,将第12层的输出特征图19×19×112输出给扩展层进行深层特征提取,扩展层包括8层卷积层,特征提取网络共有20层,其中对第13、15层两层卷积输出使用全零填充操作;
步骤502、将特征提取网络中第6层Ghost瓶颈块输出特征图38×38×40传递给第一自注意力模块,将第12层Ghost瓶颈块输出特征图19×19×112传递给第二自注意力模块,将第一自注意力模块输出自注意力特征图38×38×40输出给1×1卷积,将第二自注意力模块输出自注意力特征图19×19×112输出给1×1卷积;
步骤503、将经步骤3后得到的浅层特征增强后的多尺度特征图送入检测模块进行预测每个锚框的位置偏移量和类别概率,并根据位置偏移量对锚框位置进行修正,提取两个1×1卷积输出特征图和第14、16、18、20层的特征图六种尺度的特征进行预测,6种尺度的特征图的尺寸分别是38×38×40、19×19×112、10×10×512、5×5×256、3×3×256、1×1×256,通过检测模块对生成的每一个锚框进行预测,检测模块包括定位网络和分类网络,定位网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×4,其中num_priors表示特征图每个位置生成锚框的个数,分类网络包含一层卷积层,卷积核的尺寸为3×3,卷积核的个数为num_priors×c,其中c表示检测任务中需要预测物体类别的个数;
步骤504、取出每一类得分大于置信度阈值0.5的锚框和对应的类别概率,然后利用非极大值抑制方法将输出的重复的类别和坐标值去除,获得最终的模型预测结果。
4.根据权利要求3所述的一种轻量化煤矸目标检测方法,其特征在于,所述步骤6中,具体为:首先对步骤1中的煤矸数据集进行划分,其中训练集、验证集、测试集的划分比例为8:1:1,煤矸训练集输入到网络之前将图片尺寸缩放到300×300,模型训练300epoch,初始学习率设置为0.001,batch_size设置为8,训练时采用学习率自动衰减策略,当验证集损失值连续10次未得到改善时,学习率更新为原来的0.9,优化器采用Adam。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110557484.XA CN113421222B (zh) | 2021-05-21 | 2021-05-21 | 一种轻量化煤矸目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110557484.XA CN113421222B (zh) | 2021-05-21 | 2021-05-21 | 一种轻量化煤矸目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421222A CN113421222A (zh) | 2021-09-21 |
CN113421222B true CN113421222B (zh) | 2023-06-23 |
Family
ID=77712721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110557484.XA Active CN113421222B (zh) | 2021-05-21 | 2021-05-21 | 一种轻量化煤矸目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421222B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989716B (zh) * | 2021-10-21 | 2024-05-28 | 西安科技大学 | 煤矿井下输送带异物目标检测方法、系统、设备及终端 |
CN115331015A (zh) * | 2022-08-12 | 2022-11-11 | 广州紫为云科技有限公司 | 一种基于注意力机制的选择卷积方法、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062470A1 (zh) * | 2018-09-28 | 2020-04-02 | 中国矿业大学 | 基于固态激光雷达成像对煤岩界面进行识别的装置及方法 |
CN111222474A (zh) * | 2020-01-09 | 2020-06-02 | 电子科技大学 | 一种任意尺度的高分辨率图像小目标检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409252A (zh) * | 2018-10-09 | 2019-03-01 | 杭州电子科技大学 | 一种基于改进型ssd网络的车辆行人多目标检测方法 |
CN111222562B (zh) * | 2020-01-02 | 2022-04-08 | 南京邮电大学 | 基于空间自注意力机制的目标检测方法 |
CN111666850A (zh) * | 2020-05-28 | 2020-09-15 | 浙江工业大学 | 一种基于聚类生成候选锚框的细胞图像检测与分割方法 |
CN112036236B (zh) * | 2020-07-22 | 2023-07-14 | 山东浪潮科学研究院有限公司 | 一种基于GhostNet的图像检测方法、设备及介质 |
CN112101430B (zh) * | 2020-08-28 | 2022-05-03 | 电子科技大学 | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 |
CN112257794B (zh) * | 2020-10-27 | 2022-10-28 | 东南大学 | 一种基于yolo的轻量级的目标检测方法 |
CN112560941A (zh) * | 2020-12-14 | 2021-03-26 | 中科院计算所西部高等技术研究院 | 基于图像检测的煤矸识别方法 |
-
2021
- 2021-05-21 CN CN202110557484.XA patent/CN113421222B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062470A1 (zh) * | 2018-09-28 | 2020-04-02 | 中国矿业大学 | 基于固态激光雷达成像对煤岩界面进行识别的装置及方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN111222474A (zh) * | 2020-01-09 | 2020-06-02 | 电子科技大学 | 一种任意尺度的高分辨率图像小目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113421222A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN113421222B (zh) | 一种轻量化煤矸目标检测方法 | |
CN107256246A (zh) | 基于卷积神经网络的印花织物图像检索方法 | |
CN111753682B (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN107563433A (zh) | 一种基于卷积神经网络的红外小目标检测方法 | |
CN113420643B (zh) | 基于深度可分离空洞卷积的轻量级水下目标检测方法 | |
CN115205667A (zh) | 一种基于YOLOv5s的密集目标检测方法 | |
CN115049534A (zh) | 基于知识蒸馏的鱼眼图像实时语义分割方法 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN114359702A (zh) | 一种基于Transformer的宅基地遥感图像违建识别方法及系统 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN112487938A (zh) | 一种利用深度学习算法实现垃圾分类的方法 | |
CN116206112A (zh) | 基于多尺度特征融合和sam的遥感图像语义分割方法 | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN116778346B (zh) | 一种基于改进自注意力机制的管线识别方法及系统 | |
CN112163447B (zh) | 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 | |
CN117576038A (zh) | 基于YOLOv8网络的织物瑕疵检测方法及系统 | |
CN113192076B (zh) | 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法 | |
CN116246305A (zh) | 一种基于混合部件变换网络的行人检索方法 | |
CN110163081A (zh) | 基于ssd的实时区域入侵检测方法、系统及存储介质 | |
CN115116032A (zh) | 一种基于改进YOLOv5的交通标志检测方法 | |
CN115205839A (zh) | 基于yolov5的自然场景文本检测与识别方法 | |
CN113781388A (zh) | 基于图像增强的输电线路通道隐患图像识别方法及装置 | |
Xiong et al. | Research on Pedestrian Detection Technology Based on SSD Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |