CN112818871B - 一种基于半分组卷积的全融合神经网络的目标检测方法 - Google Patents
一种基于半分组卷积的全融合神经网络的目标检测方法 Download PDFInfo
- Publication number
- CN112818871B CN112818871B CN202110153554.5A CN202110153554A CN112818871B CN 112818871 B CN112818871 B CN 112818871B CN 202110153554 A CN202110153554 A CN 202110153554A CN 112818871 B CN112818871 B CN 112818871B
- Authority
- CN
- China
- Prior art keywords
- convolution
- target
- layer
- grouping
- packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 51
- 238000010586 diagram Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于半分组卷积的全融合神经网络的目标检测方法,包括:搭建半分组卷积模块;搭建全融合神经网络;获取电梯厢内目标物的数据集;将数据集中的图像按比例随机分为训练数据集和测试数据集,并对训练数据集图像中的目标物和人进行标注,生成标签文件,将训练数据集全部图像及标签文件输入全融合神经网络进行训练,得到训练好的权重文件;获得检测到的目标物和人在图像中的位置及检测置信度;筛选出可信的目标,去除重复的目标框,判断目标物是否已经进入电梯厢。本发明在保证特征提取的质量同时,有效减少了卷积运算的参数量,提高了计算速度;具有模型轻量、目标检测速度快、准确率高的优点,可应用在性能有限的嵌入式设备上。
Description
技术领域
本发明涉及深度学习及电梯安全检测的技术领域,尤其涉及一种基于半分组卷积的全融合神经网络的目标检测方法。
背景技术
随着生活质量的不断提高,电梯的普及程度也越来越高,日常生活中有居民将电动自行车推入电梯厢内,会对电梯运行造成影响,比如电梯的使用寿命降低,高峰时段运载效率降低,以及在厢内有爆炸起火的风险对乘客的生命财产安全造成一定的隐患,因此对进入电梯的电动自行车应该有相应的检测报警措施。传统的依赖于传感器的检测方法存在误检测或漏检测的问题,近年来深度学习神经网络的飞速发展使得这一问题有了新的解决方式。
但是现有的神经网络中普通卷积层输出的特征图之间,通常都具有相似性,每个卷积层进行运算也会带来大量的参数,不但影响计算速度,导致目标检测速度慢,准确率降低,而且由于嵌入式设备的性能有限,其应用也收到很大局限。
发明内容
发明目的:为解决现有技术中存在的技术问题,提供一种基于半分组卷积的全融合神经网络的目标检测方法,在保证特征提取的质量同时,有效减少了卷积运算的参数量,提高了计算速度;轻量化的神经网络模型,其结构简单但也伴随特征较少;具有模型轻量、目标检测速度快、准确率高的优点,可应用在性能有限的嵌入式设备上,为实时目标检测及定位提供了新方法。
技术方案:为实现上述目的,本发明提供一种基于半分组卷积的全融合神经网络的目标检测方法,包括如下步骤:
S1:搭建半分组卷积模块,所述半分组卷积模块包含普通卷积层和分组卷积层;既通过普通卷积层保证特征提取的质量,又通过分组卷积层有效减少了卷积运算的参数量,提高了计算速度,兼具普通卷积层和分组卷积层各自的优点。
S2:基于半分组卷积模块,搭建全融合神经网络,所述全融合神经网络包括主干全融合神经网络、特征融合网络和基于锚点的检测网络;
S3:采集电梯厢内目标物的监控视频,通过对视频进行处理获取静态的图像,由此获取电梯厢内目标物的数据集;
S4:将数据集中的图像按8:2比例随机分为训练数据集和测试数据集,并对训练数据集图像中的目标物和人进行标注,生成标签文件,将训练数据集全部图像及标签文件输入步骤S2获取的全融合神经网络进行训练,得到训练好的权重文件;
S5:加载全融合神经网络模型和训练好的权重文件,将测试数据集图像输入,获得检测到的目标物和人在图像中的位置及检测置信度,完成目标物和人在图像中的定位功能;
S6:根据设定好的置信度阈值筛选出可信的目标,再根据非极大值抑制去除重复的目标框,根据预测得到的目标物位置,判断目标物是否已经进入电梯厢,若在电梯厢内,则发出警示。在监视画面发出文字警示,并控制电梯厢内的喇叭发出语音警示,并控制电梯厢门暂不关闭。
进一步地,搭建半分组卷积模块,半分组卷积模块可以减少参数量,使计算速度得到提高,同时还具有与整体直接采用普通卷积层相同的提取特征的效果。半分组卷积模块包含一个普通卷积层和一个分组卷积层,普通卷积层用于直接提取特征,分组卷积层在提取特征的同时,还会减少半分组卷积模块的参数量,参数量代表一个卷积层的参数数量,参数量越大则进行计算时的计算量越大,参数量越小则进行计算时的计算量越小,若直接采用普通卷积层,普通卷积层参数量的计算公式为:
PN=A1*A1*C1in*C1out (1)
其中PN为普通卷积层的参数量,A1为普通卷积层的卷积核边长,C1in为普通卷积层的输入通道数,C1out为普通卷积层的输出通道数;
分组卷积层参数量的计算公式为:
其中PG为分组卷积层的参数量,A2为分组卷积层的卷积核边长,C2in为分组卷积层的输入通道数,C2out为分组卷积层的输出通道数,G为分组数;
半分组卷积模块输出的特征图一半来自普通卷积层输出,另一半来自分组卷积层的输出,半分组卷积模块中普通卷积层和分组卷积层的卷积核边长均为A3,C3in为半分组卷积模块的输入通道数,C3out为半分组卷积模块的输出通道数;
根据公式(1)和公式(2)计算,半分组卷积模块的参数量PH为:
对比公式(1)和公式(3),可以得出半分组卷积模块可以减少参数量,使计算速度得到提高,同时还具有与整体直接采用普通卷积层相同的提取特征的效果。
进一步地,所述步骤S1中半分组卷积模块的搭建过程为:
根据半分组卷积模块输入通道数和半分组卷积模块输出通道数的设定,普通卷积层输入通道数等于半分组卷积模块输入通道数,普通卷积层输出通道数等于半分组卷积模块输出通道数的一半,普通卷积层卷积核尺寸为3*3,步长为1,填充为1;分组卷积层输入通道数等于普通卷积层输出通道数,分组卷积层输出通道数等于半分组卷积模块输出通道数的一半,分组卷积层卷积核尺寸为3*3,步长为1,填充为1,分组卷积层的分组数为分组卷积层的输入通道数;半分组卷积模块的输入经过普通卷积层输出特征图S1,特征图S1经过分组卷积层输出特征图S2,将特征图S1和特征图S2融合得到输出通道数为半分组卷积模块输出通道数的特征图S3,特征图S3即为半分组卷积模块的输出。
进一步地,所述步骤S2中主干全融合神经网络中使用半分组卷积模块替代普通卷积层,半分组卷积模块输出通过最大池化层统一特征面积,再通过连接,使主干全融合神经网络的浅层与深层特征全部融合,得到主干全融合神经网络的输出用于之后的处理计算。
进一步地,所述步骤S2中全融合神经网络的搭建过程为:
A1:搭建四个半分组卷积模块,每个半分组卷积模块之间通过最大池化层相串联,另外每个半分组卷积模块的输出建立一个分支,分支上有最大池化层进行下采样,通过下采样将每个半分组卷积模块的输出整合为相同面积,四个分支最终全部融合得到特征图F1,再输入至一个卷积层进行运算得到特征图F2,特征图F2用于后面的进一步特征提取;
A2:将特征图F2输入两组最大池化层与卷积层组合和一个卷积核尺寸为1*1的卷积层,得到特征图F3,特征图F3用于后面的进一步特征提取;
A3:将特征图F3输入一个卷积层进行降维,并进行上采样操作,最后与特征图F1拼接得到特征图F4;
A4:将特征图F3与特征图F4分别输入两个卷积层,得到特征图F5和特征图F6,再分别对特征图F5和特征图F6进行处理,得到目标物和人的目标检测结果。
进一步地,所述步骤A1中搭建的四个半分组卷积模块中,半分组卷积模块内的普通卷积层和分组卷积层,运算后均使用非线性激活函数引入非线性因素,第一个半分组卷积模块作为整个网络的输入层,输入尺寸为416*416*3,输出通道数为16,根据卷积层边长计算公式,得到卷积层输出边长W1out:
W1in为卷积层输入边长,P1为卷积层填充数量,K1为卷积层的卷积核尺寸,S1为卷积层步长,卷积层输出还要经过非线性激活函数运算引入非线性因素,非线性激活函数:
其中,x为非线性激活函数的输入;第一个半分组卷积模块的输出尺寸为416*416*16,之后三个半分组卷积模块的输出通道数分别为32,64,128。
每个半分组卷积模块之间的所连接的最大池化层,滤波器尺寸均为2*2,步长为2,根据池化计算公式,得到最大池化层输出边长W2out:
W2in为最大池化层输入边长,K2为最大池化层滤波器尺寸,S2为最大池化层步长,输出深度与输入深度相同;
根据公式(4)和公式(6)的运算,得到剩余三个半分组卷积模块的输出尺寸;第二个半分组卷积模块输出尺寸为208*208*32,第三个半分组卷积模块输出尺寸为104*104*64,第四个半分组卷积模块输出尺寸为52*52*128。
上述四个半分组卷积模块的输出均建立一个分支,每个分支上均有一个最大池化层,通过下采样将每个卷积层的输出整合为相同面积,第一个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为16,步长为16;第二个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为8,步长为8;第三个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为4,步长为4;第四个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为2,步长为2;根据公式(6)的运算共得到四个尺寸输出分别为26*26*16,26*26*32,26*26*64,26*26*128的输出,将这四个输出进行融合得到尺寸为26*26*240特征图F1,特征图F1再输入一个卷积核尺寸均为3*3,步长为1,填充为1,卷积核数量为256的卷积层,得到尺寸为寸为26*26*256特征图F2。
进一步地,所述步骤A2包括:
将特征图F2输入两组最大池化层与卷积层组合和一个卷积核尺寸为1*1的卷积层,每组最大池化层与卷积层组合中,最大池化层的滤波器尺寸均为2*2,步长为2,卷积层的卷积核数量分别为512,1024,卷积核尺寸均为3*3,步长为1,填充为1;两组最大池化层与卷积层组合后连接一个卷积层数量为256,卷积核尺寸为1*1,步长为1,填充为0的卷积层用于降维处理。
特征图F2输入两组最大池化层与卷积层组合和一个卷积核尺寸为1*1的卷积层,最终得到13*13*256的特征图F3。
进一步地,所述步骤A3包括:
卷积层的卷积核数量为128,卷积核尺寸为1*1,步长为1,填充为0;上采样采用最邻近插值法,使输入长宽各增大一倍;特征图F2经过降维和上采样,尺寸为26*26*128,与尺寸为26*26*256的特征图F1拼接,得到尺寸为26*26*384的特征图F4。
进一步地,所述步骤A4中特征图F3和特征图F4分别输入卷积核尺寸为3*3,步长为1,填充为1,卷积核数量分别为512和256的卷积层;再分别连接卷积核尺寸为1*1,步长为1,填充为0的卷积层,卷积层的卷积核数量K由以下公式决定:
K=(5+C)*3 (7)
其中,C为要检测目标种类的数量,然后分别输出特征图F5和特征图F6;
通过K-means聚类算法获得6个预设锚点框的宽和高,每三个分别应用于特征图F4和特征图F5,以检测不同尺度的不同尺寸的目标;将预测的目标框与预设的锚点框进行面积交并比计算,计算公式为:
其中,IOU1为面积交并比,W1为目标框的宽,H1为目标框的高,W2为锚点框的宽,H2为锚点框的高,面积交并比大于0.5,则参与运算的目标框参与神经网络相关的损失计算,从而控制参与损失计算的目标框规模。
进一步地,所述步骤S3包括:
选取有电动自行车的电梯厢内监控视频,每20帧图像进行一次图像文件保存,从而获取电梯厢内电动自行车数据集,并按8:2比例随机分为训练数据集和测试数据集,对训练数据集图像中的电动自行车和人使用labelimg软件标注,即使用鼠标对图片上的目标画出方框,根据所画方框的位置,生成包含有目标类别和目标位置的txt格式的标签文件,将训练数据集全部图像及标签文件输入基于半分组卷积的全融合神经网络,经过1500轮训练,得到pth格式的权重文件。
进一步地,所述步骤S5中最终得到的位置及检测置信度的表示为:最小维度中前四个元素分别为横、纵、宽、高的预测值,第五个元素为预测可信度,之后的元素分别代表不同目标类别对应的分数。
进一步地,所述步骤S6中目标物位置的预测方法为:将预测可信度与置信度阈值比较,置信度阈值为0.8,大于置信度阈值的目标被保留,其余的目标被抛弃;被保留的目标中,取目标类别分数最高的作为预测出的目标类别,每种目标类别根据目标类别分数从大到小进行排序,每种目标类别第一个目标框与其后每个目标框根据具体位置计算目标框交并比,目标框交并比大于非极大值抑制阈值的目标将被抛弃;非极大值抑制阈值为0.4。
计算目标框交并比:首先计算两个目标框相交区域面积Sq:
Sq=(min(B1X2,B2X2)-max(B1X1,B2X1))*(min(B1Y2,B2Y2)-max(B1Y1,B2Y1))
其中,Sq为两个目标框相交面积,B1X1为第一个目标框左上角横坐标,B1Y1为第一个目标框左上角纵坐标,B1X2为第一个目标框右下角横坐标,B1Y2为第一个目标框右下角纵坐标,B2X1为第二个目标框左上角横坐标,B2Y1为第二个目标框左上角纵坐标,B2X2为第二个目标框右下角横坐标,B2Y2为第二个目标框右下角纵坐标;然后根据这些坐标值计算目标框交并比IOU2:
每种目标类别都按此方法进行非极大值抑制,最终得到多类别的多个目标框。由此得到图像中对电动自行车和人的目标检测结果,根据电动自行车再图像中的位置,判断电动自行车是否推入电梯厢,若判断结果为已经进入,则会在监视画面发出文字警示,控制电梯厢内的喇叭发出语音警示,并控制电梯厢门暂不关闭,直至乘客将电动自行车推出电梯。
进一步地,所述目标物为电动自行车。
有益效果:本发明与现有技术相比,本发明提供了一种半分组卷积模块,应用在神经网络的主干部分,在保证特征提取的质量同时,有效减少了卷积运算的参数量,提高了计算速度;实现了轻量化的神经网络模型,其结构简单但也伴随特征较少,本发明还提供了一种主干全融合神经网络,将神经网络主干的半分组卷积模块输出通过连接,使浅层与深层特征融合,减少了特征丢失;所以相对于其他基于神经网络的检测方法,本发明具有模型轻量、目标检测速度快、准确率高的优点,可应用在性能有限的嵌入式设备上,为实时目标检测及定位提供了新方法。
附图说明
图1是本发明实施例提供的一种基于半分组卷积的全融合神经网络的目标检测方法的工作流程示意图;
图2是本发明实施例提供半分组卷积模块结构图;
图3是本发明实施例提供的一种基于半分组卷积的全融合神经网络结构图;
图4是本发明实施例提供的测试数据集的四张监控视频截图;
图5是本发明实施例提供的一种基于半分组卷积的全融合神经网络的目标检测方法的检测目标的用时图;
图6是本发明实施例提供的一种基于半分组卷积的全融合神经网络的目标检测方法的检测目标效果图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
本发明提供了一种基于半分组卷积的全融合神经网络的目标检测方法,本实施例中将此目标检测方法应用于电梯安防领域,实现对于电梯厢内电动自行车的自动识别和警示,参照图1,其包括以下步骤:
步骤1:搭建半分组卷积模块,包含一个普通卷积层和一个分组卷积层,既通过普通卷积层保证特征提取的质量,又通过分组卷积层有效减少了卷积运算的参数量,提高了计算速度,兼具普通卷积层和分组卷积层各自的优点;
步骤2:基于半分组卷积模块,搭建全融合神经网络,全融合神经网络包括主干全融合神经网络、特征融合网络和基于锚点的检测网络,主干全融合神经网络中使用半分组卷积模块替代普通卷积层,半分组卷积模块输出通过最大池化层统一特征面积,再通过连接,使主干全融合神经网络的浅层与深层特征全部融合,得到主干全融合神经网络的输出用于之后的处理计算;
步骤3:采集电梯厢内有电动自行车的监控视频,通过对视频进行处理获取静态的图像,由此获取电梯厢内电动自行车数据集,将数据集中的图像按8:2比例随机分为训练数据集和测试数据集,并对训练数据集图像中的电动自行车和人进行标注,生成标签文件,将训练数据集全部图像及标签文件输入基于半分组卷积的全融合神经网络进行训练,得到训练好的权重文件;
步骤4:加载基于半分组卷积的全融合神经网络模型和训练好的权重文件,将测试数据集图像输入,获得检测到的电动自行车和人在图像中的位置及检测置信度,完成电动自行车和人在图像中的定位功能;
步骤5:根据设定好的置信度阈值筛选出可信的目标,再根据非极大值抑制去除重复的目标框,根据预测得到的目标物位置,判断目标物是否已经进入电梯厢,若在电梯厢内,则在监视画面发出文字警示,并控制电梯厢内的喇叭发出语音警示,并控制电梯厢门暂不关闭。
本实施例中步骤1具体的过程如下:
搭建半分组卷积模块,半分组卷积模块可以减少参数量,使计算速度得到提高,同时还具有与整体直接采用普通卷积层相同的提取特征的效果。半分组卷积模块包含一个普通卷积层和一个分组卷积层,普通卷积层用于直接提取特征,分组卷积层在提取特征的同时,还会减少半分组卷积模块的参数量,参数量代表一个卷积层的参数数量,参数量越大则进行计算时的计算量越大,参数量越小则进行计算时的计算量越小,若直接采用普通卷积层,则普通卷积层参数量计算公式为:
PN=A1*A1*C1in*C1out (1)
其中PN为普通卷积层的参数量,A1为普通卷积层的卷积核边长,C1in为普通卷积层的输入通道数,C1out为普通卷积层的输出通道数。
分组卷积层参数量计算公式为:
其中PG为分组卷积层的参数量,A2为分组卷积层的卷积核边长,C2in为分组卷积层的输入通道数,C2out为分组卷积层的输出通道数,G为分组数。
半分组卷积模块输出的特征图一半来自普通卷积层输出,另一半来自分组卷积层的输出。半分组卷积模块中普通卷积层和分组卷积层的卷积核边长均为A3,C3in为半分组卷积模块的输入通道数,C3out为半分组卷积模块的输出通道数。
根据公式(1)和公式(2)计算,半分组卷积模块的参数量PH为
对比公式(1)和公式(3),可以得出半分组卷积模块可以减少参数量,使计算速度得到提高,同时还具有与整体直接采用普通卷积层相同的提取特征的效果。半分组卷积模块的具体搭建过程为:根据半分组卷积模块输入通道数和半分组卷积模块输出通道数的设定,普通卷积层输入通道数等于半分组卷积模块输入通道数,普通卷积层输出通道数等于半分组卷积模块输出通道数的一半,普通卷积层卷积核尺寸为3*3,步长为1,填充为1;分组卷积层输入通道数等于普通卷积层输出通道数,分组卷积层输出通道数等于半分组卷积模块输出通道数的一半,分组卷积层卷积核尺寸为3*3,步长为1,填充为1,分组卷积层的分组数为分组卷积层的输入通道数;半分组卷积模块的输入经过普通卷积层输出特征图S1,特征图S1经过分组卷积层输出特征图S2,将特征图S1和特征图S2融合得到输出通道数为半分组卷积模块输出通道数的特征图S3,特征图S3即为半分组卷积模块的输出。
本实施例中上述步骤1获取的半分组卷积模块的结构如图2所示。
本实施例中,步骤2的具体过程如下:
步骤2-1:搭建四个半分组卷积模块,每个半分组卷积模块之间通过最大池化层相串联,另外每个半分组卷积模块的输出建立一个分支,分支上有最大池化层进行下采样,通过下采样将每个半分组卷积模块的输出整合为相同面积,四个分支最终全部融合得到特征图F1,再输入至一个卷积层进行运算得到特征图F2,特征图F2用于后面的进一步特征提取;
步骤2-2:将特征图F2输入两组最大池化层与卷积层组合和一个卷积核尺寸为1*1的卷积层,得到特征图F3,特征图F3用于后面的进一步特征提取;
步骤2-3:将特征图F3输入一个卷积层进行降维,并进行上采样操作,最后与特征图F1拼接得到特征图F4;
步骤2-4:将特征图F3与特征图F4分别输入两个卷积层,得到特征图F5和特征图F6,再分别对特征图F5和特征图F6进行处理,得到对电动自行车和人的目标检测结果。
上述步骤2-1包括:搭建四个半分组卷积模块,半分组卷积模块内的普通卷积层和分组卷积层,运算后均使用非线性激活函数引入非线性因素,第一个半分组卷积模块作为整个网络的输入层,输入尺寸为416*416*3,输出通道数为16,根据卷积层边长计算公式,得到卷积层输出边长W1out:
W1in为卷积层输入边长,P1为卷积层填充数量,K1为卷积层的卷积核尺寸,S1为卷积层步长,卷积层输出还要经过非线性激活函数运算引入非线性因素,非线性激活函数:
其中,x为非线性激活函数的输入。第一个半分组卷积模块的输出尺寸为416*416*16,之后三个半分组卷积模块的输出通道数分别为32,64,128。
每个半分组卷积模块之间的所连接的最大池化层,滤波器尺寸均为2*2,步长为2,根据池化计算公式,得到最大池化层输出边长W2out:
W2in为最大池化层输入边长,K2为最大池化层滤波器尺寸,S2为最大池化层步长,输出深度与输入深度相同。
根据公式(4)和公式(6)的运算,得到第二个半分组卷积模块输出尺寸为208*208*32,第三个半分组卷积模块输出尺寸为104*104*64,第四个半分组卷积模块输出尺寸为52*52*128。
上述四个半分组卷积模块的输出均建立一个分支,每个分支上均有一个最大池化层,通过下采样将每个卷积层的输出整合为相同面积,第一个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为16,步长为16;第二个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为8,步长为8;第三个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为4,步长为4;第四个半分组卷积模块的输出分支上,最大池化层滤波器尺寸均为2,步长为2;根据公式(6)的运算共得到四个尺寸分别为26*26*16,26*26*32,26*26*64,26*26*128的输出,将这四个输出进行融合得到尺寸为26*26*240特征图F1,特征图F1再输入一个卷积核尺寸均为3*3,步长为1,填充为1,卷积核数量为256的卷积层,得到尺寸为寸为26*26*256特征图F2。
上述步骤2-2包括:将特征图F2输入两组最大池化层与卷积层组合和一个卷积核尺寸为1*1的卷积层,每组最大池化层与卷积层组合中,最大池化层的滤波器尺寸均为2*2,步长为2,卷积层的卷积核数量分别为512,1024,卷积核尺寸均为3*3,步长为1,填充为1;两组最大池化层与卷积层组合后连接一个卷积层数量为256,卷积核尺寸为1*1,步长为1,填充为0的卷积层用于降维处理。
特征图F2输入两组最大池化层与卷积层组合和一个卷积核尺寸为1*1的卷积层,最终得到13*13*256的特征图F3。
上述步骤2-3包括:卷积层的卷积核数量为128,卷积核尺寸为1*1,步长为1,填充为0;上采样采用最邻近插值法,使输入长宽各增大一倍;特征图F2经过降维和上采样,尺寸为26*26*128,与尺寸为26*26*256的特征图F1拼接,得到尺寸为26*26*384的特征图F4。
上述步骤2-4包括:特征图F3和特征图F4分别输入卷积核尺寸为3*3,步长为1,填充为1,卷积核数量分别为512和256的卷积层;再分别连接卷积核尺寸为1*1,步长为1,填充为0的卷积层,卷积层的卷积核数量K由以下公式决定:
K=(5+C)*3 (7)
其中,C为要检测目标种类的数量,然后分别输出特征图F5和特征图F6。
通过K-means聚类算法获得6个预设锚点框的宽和高,每三个分别应用于特征图F4和特征图F5,以检测不同尺度的不同尺寸的目标。将预测的目标框与预设的锚点框进行面积交并比计算,计算公式为:
其中,IOU1为面积交并比,W1为目标框的宽,H1为目标框的高,W2为锚点框的宽,H2为锚点框的高,面积交并比大于0.5,则参与运算的目标框参与神经网络相关的损失计算,从而控制参与损失计算的目标框规模。
本实施例中上述步骤2中获取的基于半分组卷积的全融合神经网络的结构具体如图3所示。
本实施例中,步骤3包括:
选取有电动自行车的电梯厢内监控视频,每20帧图像进行一次图像文件保存,从而获取电梯厢内电动自行车数据集,并按8:2比例随机分为训练数据集和测试数据集,对训练数据集图像中的电动自行车和人使用labelimg软件标注,即使用鼠标对图片上的目标画出方框,根据所画方框的位置,生成包含有目标类别和目标位置的txt格式的标签文件,将训练数据集全部图像及标签文件输入基于半分组卷积的全融合神经网络,经过1500轮训练,得到pth格式的权重文件。
图4为是本实施例提供的测试数据集的四张监控视频截图。
在本实施例中,步骤4包括:
最终得到输出,也就是电动自行车和人在图像中的位置及检测置信度,其中,最小维度中前四个元素分别为横、纵、宽、高的预测值,第五个元素为预测可信度,之后的元素分别代表不同目标类别对应的分数。
本实施例中,步骤5包括:
预测所得输出的最小维度的第五个元素为预测可信度,将预测可信度与置信度阈值比较,置信度阈值为0.8,大于置信度阈值的目标被保留,其余的目标被抛弃。被保留的目标中,取目标类别分数最高的作为预测出的目标类别,每种目标类别根据目标类别分数从大到小进行排序,每种目标类别第一个目标框与其后每个目标框根据具体位置计算目标框交并比,目标框交并比大于非极大值抑制阈值的目标将被抛弃,非极大值抑制阈值为0.4。计算目标框交并比首先需要计算两个目标框相交区域面积Sq:
Sq=(min(B1X2,B2X2)-max(B1X1,B2X1))*(min(B1Y2,B2Y2)-max(B1Y1,B2Y1))
其中,Sq为两个目标框相交面积,B1X1为第一个目标框左上角横坐标,B1Y1为第一个目标框左上角纵坐标,B1X2为第一个目标框右下角横坐标,B1Y2为第一个目标框右下角纵坐标,B2X1为第二个目标框左上角横坐标,B2Y1为第二个目标框左上角纵坐标,B2X2为第二个目标框右下角横坐标,B2Y2为第二个目标框右下角纵坐标。然后根据这些坐标值计算目标框交并比IOU2:
每种目标类别都按此方法进行非极大值抑制,最终得到多类别的多个目标框。由此得到图像中对电动自行车和人的目标检测结果,根据电动自行车再图像中的位置,判断电动自行车是否推入电梯厢,若判断结果为已经进入,则会在监视画面发出文字警示,控制电梯厢内的喇叭发出语音警示,并控制电梯厢门暂不关闭,直至乘客将电动自行车推出电梯。
为了更加直观的验证上述方法的有效性和应用效果,利用上述方法获取到图5和图6。
实例说明:图5是本发明方法检测目标的用时图,图5中“Processing…”含义为系统正在检测中,之后一行含义为本次系统测试所耗时间,耗时在0.055s~0.070s之间,说明一种基于半分组卷积的全融合神经网络检测目标用时短,速度快;图6是本发明方法检测目标的效果图,将图4所代表的测试数据集的四张监控视频截图输入模型运算处理,将图像中检测到的目标按类别标记,图6中的electric bicycle中文含义为电动自行车,person中文含义为人,“Detected Electric Bicycle,Warning!”中文含义为“检测到电动自行车,警告!”,是检测到电动自行车后发出的文字警示。
通过上述技术方案的实施,验证了本发明方法具备如下优点:
(1)搭建半分组卷积模块,应用在神经网络的主干部分,在保证特征提取的质量同时,有效减少了卷积运算的参数量,提高了计算速度。
(2)提供了一种主干全融合神经网络,将神经网络主干的半分组卷积模块输出通过连接,使浅层与深层特征融合,减少了特征丢失。
(3)对电梯厢内电动自行车目标检测速度快,检测精度高。
(4)根据检测结果,触发一系列警示和联动控制措施,对保障电梯运行安全和乘客生命财产安全有一定意义。
Claims (8)
1.一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,包括如下步骤:
S1:搭建半分组卷积模块,所述半分组卷积模块包含普通卷积层和分组卷积层;
S2:基于半分组卷积模块,搭建全融合神经网络,所述全融合神经网络包括主干全融合神经网络、特征融合网络和基于锚点的检测网络;
S3:采集电梯厢内目标物的监控视频,通过对视频进行处理获取静态的图像,由此获取电梯厢内目标物的数据集;
S4:将数据集中的图像按比例随机分为训练数据集和测试数据集,并对训练数据集图像中的目标物和人进行标注,生成标签文件,将训练数据集全部图像及标签文件输入步骤S2获取的全融合神经网络进行训练,得到训练好的权重文件;
S5:加载全融合神经网络模型和训练好的权重文件,将测试数据集图像输入,获得检测到的目标物和人在图像中的位置及检测置信度,完成目标物和人在图像中的定位功能;
S6:根据设定好的置信度阈值筛选出可信的目标,再根据非极大值抑制去除重复的目标框,根据预测得到的目标物位置,判断目标物是否已经进入电梯厢,若在电梯厢内,则发出警示;
所述步骤S2中主干全融合神经网络中使用半分组卷积模块替代普通卷积层,半分组卷积模块输出通过最大池化层统一特征面积,再通过连接,使主干全融合神经网络的浅层与深层特征全部融合,得到主干全融合神经网络的输出用于之后的处理计算;
所述步骤S2中全融合神经网络的搭建过程为:
A1:搭建四个半分组卷积模块,每个半分组卷积模块之间通过最大池化层相串联,另外每个半分组卷积模块的输出建立一个分支,分支上有最大池化层进行下采样,通过下采样将每个半分组卷积模块的输出整合为相同面积,四个分支最终全部融合得到特征图F1,再输入至一个卷积层进行运算得到特征图F2,特征图F2用于后面的进一步特征提取;
A2:将特征图F2输入两组最大池化层与卷积层组合和一个卷积层,得到特征图F3,特征图F3用于后面的进一步特征提取;
A3:将特征图F3输入一个卷积层进行降维,并进行上采样操作,最后与特征图F1拼接得到特征图F4;
A4:将特征图F3与特征图F4分别输入两个卷积层,得到特征图F5和特征图F6,再分别对特征图F5和特征图F6进行处理,得到目标物和人的目标检测结果。
2.根据权利要求1所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述步骤S1中普通卷积层参数量的计算公式为:
PN=A1*A1*C1in*C1out (1)
其中PN为普通卷积层的参数量,A1为普通卷积层的卷积核边长,C1in为普通卷积层的输入通道数,C1out为普通卷积层的输出通道数;
分组卷积层参数量的计算公式为:
其中PG为分组卷积层的参数量,A2为分组卷积层的卷积核边长,C2in为分组卷积层的输入通道数,C2out为分组卷积层的输出通道数,G为分组数;
半分组卷积模块输出的特征图一半来自普通卷积层输出,另一半来自分组卷积层的输出,半分组卷积模块中普通卷积层和分组卷积层的卷积核边长均为A3,C3in为半分组卷积模块的输入通道数,C3out为半分组卷积模块的输出通道数;
根据公式(1)和公式(2)计算,半分组卷积模块的参数量PH为:
3.根据权利要求1或2所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述步骤S1中半分组卷积模块的搭建过程为:
根据半分组卷积模块输入通道数和半分组卷积模块输出通道数的设定,普通卷积层输入通道数等于半分组卷积模块输入通道数,普通卷积层输出通道数等于半分组卷积模块输出通道数的一半;分组卷积层输入通道数等于普通卷积层输出通道数,分组卷积层输出通道数等于半分组卷积模块输出通道数的一半,分组卷积层的分组数为分组卷积层的输入通道数;半分组卷积模块的输入经过普通卷积层输出特征图S1,特征图S1经过分组卷积层输出特征图S2,将特征图S1和特征图S2融合得到输出通道数为半分组卷积模块输出通道数的特征图S3,特征图S3即为半分组卷积模块的输出。
4.根据权利要求1所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述步骤A1中搭建的四个半分组卷积模块中,半分组卷积模块内的普通卷积层和分组卷积层,运算后均使用非线性激活函数引入非线性因素,第一个半分组卷积模块作为整个网络的输入层,根据卷积层边长计算公式,得到卷积层输出边长W1out:
W1in为卷积层输入边长,P1为卷积层填充数量,K1为卷积层的卷积核尺寸,S1为卷积层步长,卷积层输出还要经过非线性激活函数运算引入非线性因素,非线性激活函数:
其中,x为非线性激活函数的输入;
每个半分组卷积模块之间的所连接的最大池化层,根据池化计算公式,得到最大池化层输出边长W2out:
W2in为最大池化层输入边长,K2为最大池化层滤波器尺寸,S2为最大池化层步长,输出深度与输入深度相同;
根据公式(4)和公式(6)的运算,得到剩余三个半分组卷积模块的输出尺寸;
上述四个半分组卷积模块的输出均建立一个分支,每个分支上均有一个最大池化层,通过下采样将每个卷积层的输出整合为相同面积;根据公式(6)的运算共得到四个尺寸输出,将这四个输出进行融合得到特征图F1,特征图F1再输入一个卷积层,得到特征图F2。
5.根据权利要求1所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述步骤A4中卷积层的卷积核数量K由以下公式决定:
K=(5+C)*3 (7)
其中,C为要检测目标种类的数量,然后分别输出特征图F5和特征图F6;
通过K-means聚类算法获得6个预设锚点框的宽和高,每三个分别应用于特征图F4和特征图F5,以检测不同尺度的不同尺寸的目标;将预测的目标框与预设的锚点框进行面积交并比计算,计算公式为:
其中,IOU1为面积交并比,W1为目标框的宽,H1为目标框的高,W2为锚点框的宽,H2为锚点框的高。
6.根据权利要求1所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述步骤S5中最终得到的位置及检测置信度的表示为:最小维度中前四个元素分别为横、纵、宽、高的预测值,第五个元素为预测可信度,之后的元素分别代表不同目标类别对应的分数。
7.根据权利要求1所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述步骤S6中目标物位置的预测方法为:将预测可信度与置信度阈值比较,大于置信度阈值的目标被保留,其余的目标被抛弃;被保留的目标中,取目标类别分数最高的作为预测出的目标类别,每种目标类别根据目标类别分数从大到小进行排序,每种目标类别第一个目标框与其后每个目标框根据具体位置计算目标框交并比,目标框交并比大于非极大值抑制阈值的目标将被抛弃;
计算目标框交并比:首先计算两个目标框相交区域面积Sq:
Sq=(min(B1X2,B2X2)-max(B1X1,B2X1))*(min(B1Y2,B2Y2)-max(B1Y1,B2Y1))
其中,Sq为两个目标框相交面积,B1X1为第一个目标框左上角横坐标,B1Y1为第一个目标框左上角纵坐标,B1X2为第一个目标框右下角横坐标,B1Y2为第一个目标框右下角纵坐标,B2X1为第二个目标框左上角横坐标,B2Y1为第二个目标框左上角纵坐标,B2X2为第二个目标框右下角横坐标,B2Y2为第二个目标框右下角纵坐标;然后根据这些坐标值计算目标框交并比IOU2:
每种目标类别都按此方法进行非极大值抑制,最终得到多类别的多个目标框。
8.根据权利要求1~7任一项所述的一种基于半分组卷积的全融合神经网络的目标检测方法,其特征在于,所述目标物为电动自行车。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153554.5A CN112818871B (zh) | 2021-02-04 | 2021-02-04 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153554.5A CN112818871B (zh) | 2021-02-04 | 2021-02-04 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818871A CN112818871A (zh) | 2021-05-18 |
CN112818871B true CN112818871B (zh) | 2024-03-29 |
Family
ID=75861252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110153554.5A Active CN112818871B (zh) | 2021-02-04 | 2021-02-04 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818871B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505821B (zh) * | 2021-06-29 | 2022-09-27 | 重庆邮电大学 | 一种基于样本可信度的深度神经网络图像识别方法及系统 |
CN113762101A (zh) * | 2021-08-19 | 2021-12-07 | 深圳壹秘科技有限公司 | 人形检测方法、系统、设备及存储介质 |
CN117092612B (zh) * | 2023-10-18 | 2024-01-26 | 湘潭大学 | 基于激光雷达的自动驾驶导航方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348376A (zh) * | 2019-07-09 | 2019-10-18 | 华南理工大学 | 一种基于神经网络的行人实时检测方法 |
CN110532859A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于深度进化剪枝卷积网的遥感图像目标检测方法 |
CN110659724A (zh) * | 2019-09-12 | 2020-01-07 | 复旦大学 | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 |
CN111368637A (zh) * | 2020-02-10 | 2020-07-03 | 南京师范大学 | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 |
CN111950451A (zh) * | 2020-08-12 | 2020-11-17 | 南京师范大学 | 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 |
CN111967305A (zh) * | 2020-07-01 | 2020-11-20 | 华南理工大学 | 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 |
-
2021
- 2021-02-04 CN CN202110153554.5A patent/CN112818871B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348376A (zh) * | 2019-07-09 | 2019-10-18 | 华南理工大学 | 一种基于神经网络的行人实时检测方法 |
CN110532859A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于深度进化剪枝卷积网的遥感图像目标检测方法 |
CN110659724A (zh) * | 2019-09-12 | 2020-01-07 | 复旦大学 | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 |
CN111368637A (zh) * | 2020-02-10 | 2020-07-03 | 南京师范大学 | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 |
CN111967305A (zh) * | 2020-07-01 | 2020-11-20 | 华南理工大学 | 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 |
CN111950451A (zh) * | 2020-08-12 | 2020-11-17 | 南京师范大学 | 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 |
Non-Patent Citations (2)
Title |
---|
一种卷积神经网络的车辆和行人检测算法;李大华;汪宏威;高强;于晓;沈洪宇;;激光杂志;20200425(第04期);全文 * |
基于全卷积神经网络的多目标显著性检测;翟正利;孙霞;周炜;梁振明;;计算机技术与发展;20200810(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112818871A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818871B (zh) | 一种基于半分组卷积的全融合神经网络的目标检测方法 | |
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
CN110348376B (zh) | 一种基于神经网络的行人实时检测方法 | |
CN107220603A (zh) | 基于深度学习的车辆检测方法及装置 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN111242015A (zh) | 一种基于运动轮廓语义图预测行车危险场景的方法 | |
CN111222478A (zh) | 一种工地安全防护检测方法和系统 | |
CN110222604A (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN106650615A (zh) | 一种图像处理方法及终端 | |
CN112597995B (zh) | 车牌检测模型训练方法、装置、设备及介质 | |
CN112580434B (zh) | 一种基于深度相机的人脸误检优化方法、系统及人脸检测设备 | |
CN113128481A (zh) | 一种人脸活体检测方法、装置、设备及存储介质 | |
CN114612755A (zh) | 一种火灾检测方法、系统、电子设备和可读存储介质 | |
CN111539456B (zh) | 一种目标识别方法及设备 | |
CN111191531A (zh) | 一种快速行人检测方法及系统 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
CN113065379B (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
CN114708566A (zh) | 一种基于改进YOLOv4的自动驾驶目标检测方法 | |
CN110321867B (zh) | 基于部件约束网络的遮挡目标检测方法 | |
CN116030538A (zh) | 弱监督动作检测方法、系统、设备及存储介质 | |
CN113936299A (zh) | 建筑工地中危险区域检测方法 | |
CN113269111B (zh) | 一种基于视频监控的电梯异常行为检测方法及系统 | |
CN117237994B (zh) | 一种油气作业区人员计数及行为检测方法、装置及系统 | |
CN114155551A (zh) | 基于YOLOv3改进的复杂环境下的行人检测方法及装置 | |
CN113688810B (zh) | 一种边缘设备的目标捕获方法、系统及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |