CN110543879A - 基于se模块的ssd目标检测方法及计算机存储介质 - Google Patents
基于se模块的ssd目标检测方法及计算机存储介质 Download PDFInfo
- Publication number
- CN110543879A CN110543879A CN201910769868.0A CN201910769868A CN110543879A CN 110543879 A CN110543879 A CN 110543879A CN 201910769868 A CN201910769868 A CN 201910769868A CN 110543879 A CN110543879 A CN 110543879A
- Authority
- CN
- China
- Prior art keywords
- size
- detection
- resnet18
- convolutional
- multiplied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于SE模块的SSD目标检测方法及计算机存储介质,所述方法包括以下步骤:S1、获取需要进行目标识别的图片或者视频;S2、将卷积神经网络ResNet18的第一个卷积层替换为3×3卷积层,并在ResNet18的第一个和第二个残差块中添加SE模块,形成SE‑ResNet18网络结构;S3、将SSD目标检测算法中的主干网络替换为所述SE‑ResNet18网络结构,得到检测模型;S4、对所述检测模型进行针对小目标检测的训练,获得训练好的深度神经网络模型;S5、根据训练好的深度神经网络模型对所述图片或者视频的小目标进行检测,得到检测结果。根据本发明实施例的方法,既保证了一定的检测速度,又提升了小目标的检测精度,同时尽量降低了对模型大小的影响。
Description
技术领域
本发明涉及目标检测领域,更具体地,涉及一种基于SE模块的SSD目标检测方法及计算机存储介质。
背景技术
目标检测是一种基于图像的识别技术,目的是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。其中, SSD(Single ShotDetector)目标检测算法是当前目标检测领域热门的方法之一。但SSD算法对小目标检测的效果不理想。为进一步提高目标检测算法的精度,研究者们基于SSD算法提出了一系列改进算法,如DSSD、FSSD、ESSD、 WeaveNet等。这些改进算法可归纳为两个方向:增加主干网络的深度或采用上下文融合模块为低层特征图增加更多的语义信息。这些改进算法虽然提升了检测精度,但也使网络结构变得更为复杂,明显影响了网络的模型大小和检测速度。
SSD算法不仅利用回归的思想简化神经网络的计算复杂度,提高算法的实时性,还采用anchors机制提取不同宽高比尺寸特征,提升检测不同尺度目标的鲁棒性。其网络结构主要分为两部分:一部分是位于前端的深度卷积神经网络(主干网络),采用的是去除分类层的图像分类网络,如VGG用于目标初步特征提取;另一部分是位于后端的多尺度特征检测网络,是一组级联的卷积神经网络,将前端网络产生的特征层进行不同尺度条件下的特征提取,如图1 所示。在SSD算法中,因为小尺寸目标在较低层级IOU较大,小尺寸的目标多用较低层级的anchor来训练。但由于较低层级的特征非线性程度不够,无法训练到足够的精确度,因此当前基于SSD的目标检测方法对小目标检测精度欠佳。
此外,当前基于SSD改进的目标检测方法为了提升小目标检测精度,引入的上下文融合模块(如图2)参数较多,计算量大,使得最终的模型大小往往在100MB以上,检测速度也明显降低。
综上可以看出,目前的目标检测方法主要存在以下几个缺点:
(1)经典的SSD目标检测方法对小目标检测精度欠佳。这主要是因为小尺寸的目标多用较低层级的anchor来训练,但较低层级的特征非线性程度不够,因此无法训练到足够的精确度。
(2)当前基于SSD改进的目标检测算法通过引入上下文融合模块提高目标检测精度,导致参数量增加,计算量大,使得最终的模型大小往往在100MB 以上。
发明内容
有鉴于此,本发明提供一种基于SE模块的SSD目标检测方法及计算机存储介质,既保证了检测速度,又有效提升了小目标的检测精度。
为解决上述技术问题,一方面,本发明提供一种基于SE模块的SSD目标检测方法,所述方法包括以下步骤:S1、获取需要进行目标识别的图片或者视频;S2、将卷积神经网络ResNet18的第一个卷积层替换为3×3卷积层,并在 ResNet18的第一个和第二个残差块中添加SE模块,形成SE-ResNet18网络结构;S3、将SSD目标检测算法中的主干网络替换为所述SE-ResNet18网络结构,得到检测模型;S4、对所述检测模型进行针对小目标检测的训练,获得训练好的深度神经网络模型;S5、根据训练好的深度神经网络模型对所述图片或者视频的小目标进行检测,得到检测结果。
根据本发明实施例的基于SE模块的SSD目标检测方法,使用ResNet18 作为主干网络,并在主干网络中引入SE(Squeeze-and-Excitation)模块,通过在SSD算法架构的基础上引入SE模块,通过注意力机制提升小目标的检测精度,既保证了一定的检测速度,又提升了小目标的检测精度,同时尽量降低了对模型大小的影响。
根据本发明的一些实施例,在步骤S1中,SE模块的扩张系数为4。
根据本发明的一些实施例,在步骤S1中,经过Res5b,输出256个大小为19×19的特征图。
根据本发明的一些实施例,步骤S2包括:S21、将SSD目标检测算法中的主干网络替换为所述SE-ResNet18网络结构;S22、在所述SE-ResNet18网络结构后添加多层卷积构成多尺度特征提取网络。
根据本发明的一些实施例,步骤S22包括:S221、在Res5b后添加卷积核大小为3、步长为1、填充为1的最大池化层pool5,输出特征图大小和通道数不变;S222、在Pool5后添加卷积核大小为3×3、步长为1、膨胀系数为6、填充为6的膨胀卷积层Conv6和卷积核大小为1×1、步长为1、填充为0的普通卷积层Conv7,输出1024个大小为19×19的特征图。
根据本发明的一些实施例,步骤S22还包括:S223、在Conv7后添加三个超参数相同的残差结构,每个残差结构分为两路:一路为两个普通卷积层,第一个卷积层的卷积核大小为3×3,步长为2、填充为1,第二个卷积层的卷积核大小仍为3×3,步长为1,填充为1;另一路为短路连接,每经过Conv7后的一个残差结构,特征图大小减半,输出通道数为256。
根据本发明的一些实施例,短路连接由一个卷积核大小为1×1,步长为2,填充为0的普通卷积层构成。
根据本发明的一些实施例,步骤S22还包括:S224、在三个残差结构后添加两个普通卷积层Conv9_a和Conv9_b,Conv9_a的卷积核大小为3×3,步长为2、填充为1,Conv9_b的卷积核大小仍为3×3,步长为1,填充为1,Conv9_a 和Conv9_b的输出通道数均为128。
根据本发明的一些实施例,步骤S22还包括:S225、选取所述SE-ResNet18 网络结构中的Res4b、多尺度特征提取网络中的Conv7、Res6、Res7、Res8、 Conv9_b输出的特征图用于预测,特征图大小分别为38×38、19×19、10×10、 5×5、3×3和1×1,输出通道数分别为256、1024、128、128、128和128。
第二方面,本发明实施例提供一种计算机存储介质,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。
附图说明
图1为现有技术中SSD网络结构的示意图;
图2为现有技术中上下文融合模块的示意图;
图3为本发明实施例的基于SE模块的SSD目标检测方法的流程图;
图4为本发明实施例的基于SE模块的SSD目标检测方法中SE-ResNet18 网络结构的示意图;
图5为本发明实施例的基于SE模块的SSD目标检测方法中多尺度特征提取网络的示意图;
图6为本发明实施例的基于SE模块的SSD目标检测方法中SSD网络结构的示意图;
图7为本发明实施例的电子设备的示意图。
附图标记:
电子设备300;
存储器310;操作系统311;应用程序312;
处理器320;网络接口330;输入设备340;硬盘350;显示设备360。
具体实施方式
下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
下面首先结合附图具体描述根据本发明实施例的基于SE模块的SSD目标检测方法。
如图3所示,根据本发明实施例的基于SE模块的SSD目标检测方法包括以下步骤:
S1、获取需要进行目标识别的图片或者视频。
S2、将卷积神经网络ResNet18的第一个卷积层替换为3×3卷积层,并在 ResNet18的第一个和第二个残差块中添加SE模块,形成SE-ResNet18网络结构。
S3、将SSD目标检测算法中的主干网络替换为所述SE-ResNet18网络结构,得到检测模型。
S4、对所述检测模型进行针对小目标检测的训练,获得训练好的深度神经网络模型。
S5、根据训练好的深度神经网络模型对所述图片或者视频的小目标进行检测,得到检测结果。
换言之,根据本发明实施例的基于SE模块的SSD目标检测方法主要对经典SSD算法中的主干网络进行了改进,通过添加SE模块来提高小目标的检测能力。该方法在SSD算法架构的基础上引入SE模块,通过注意力机制提升小目标的检测精度。具体来说,本发明将ResNet18的第一个卷积层替换为3×3 卷积层,并在ResNet18的第一个和第二个残差块中添加SE模块,其中,SE 模块的扩张系数可以为4,形成SE-ResNet18网络结构。然后将经典SSD目标检测方法中的主干网络替换为SE-ResNet18,既保证了一定的检测速度,又提升了小目标的检测精度。
由此,根据本发明实施例的基于SE模块的SSD目标检测方法,使用ResNet18作为主干网络,并在主干网络中引入SE(Squeeze-and-Excitation) 模块,通过在SSD算法架构的基础上引入SE模块,通过注意力机制提升小目标的检测精度,既保证了一定的检测速度,又提升了小目标的检测精度,同时尽量降低了对模型大小的影响。
可选地,根据本发明的一个实施例,在步骤S1中,经过Res5b,输出256 个大小为19×19的特征图。
在本发明的一些具体实施方式中,步骤S2包括:
S21、将SSD目标检测算法中的主干网络替换为所述SE-ResNet18网络结构。
S22、在所述SE-ResNet18网络结构后添加多层卷积构成多尺度特征提取网络。
其中,步骤S22包括:
S221、在Res5b后添加卷积核大小为3、步长为1、填充为1的最大池化层pool5,输出特征图大小和通道数不变。
S222、在Pool5后添加卷积核大小为3×3、步长为1、膨胀系数为6、填充为6的膨胀卷积层Conv6和卷积核大小为1×1、步长为1、填充为0的普通卷积层Conv7,输出1024个大小为19×19的特征图。
可选地,步骤S22还包括:S223、在Conv7后添加三个超参数相同的残差结构,每个残差结构分为两路:一路为两个普通卷积层,第一个卷积层的卷积核大小为3×3,步长为2、填充为1,第二个卷积层的卷积核大小仍为3×3,步长为1,填充为1;另一路为短路连接,每经过Conv7后的一个残差结构,特征图大小减半,输出通道数为256。其中,短路连接由一个卷积核大小为 1×1,步长为2,填充为0的普通卷积层构成。
在本发明的另一些具体实施方式中,步骤S22还包括:S224、在三个残差结构后添加两个普通卷积层Conv9_a和Conv9_b,Conv9_a的卷积核大小为3 ×3,步长为2、填充为1,Conv9_b的卷积核大小仍为3×3,步长为1,填充为1,Conv9_a和Conv9_b的输出通道数均为128。
进一步地,步骤S22还包括:S225、选取所述SE-ResNet18网络结构中的 Res4b、多尺度特征提取网络中的Conv7、Res6、Res7、Res8、Conv9_b输出的特征图用于预测,特征图大小分别为38×38、19×19、10×10、5×5、3×3 和1×1,输出通道数分别为256、1024、128、128、128和128。
换句话说,根据本发明实施例的基于SE模块的SSD目标检测方法主要流程为:首先,将ResNet18的第一个卷积层替换为3×3卷积层,并在ResNet18 的第一个和第二个残差块中添加SE模块,将SE模块的扩张系数定为4,形成 SE-ResNet18网络结构。经过Res5b,输出256个大小为19×19的特征图,如图4所示。然后,以SE-ResNet18为主干网络,在主干网络后添加多层卷积构成多尺度特征提取网络。具体来说,在Res5b后面添加卷积核大小为3、步长为1、填充为1的最大池化层pool5,输出特征图大小和通道数不变。Pool5 后是卷积核大小为3×3、步长为1、膨胀系数为6、填充为6的膨胀卷积层Conv6 和卷积核大小为1×1、步长为1、填充为0的普通卷积层Conv7,输出1024 个大小为19×19的特征图。为进一步提取特征图特征,在Conv7后面添加三个超参数相同的残差结构,如图5所示。每个残差结构分为两路:一路为两个普通卷积层,第一个卷积层的卷积核大小为3×3,步长为2、填充为1,第二个卷积层的卷积核大小仍为3×3,步长为1,填充为1;另一路则为短路连接,为保证和另一路输出的特征图大小相同,短路连接由一个卷积核大小为1×1,步长为2,填充为0的普通卷积层构成。每经过Conv7后的一个残差结构,特征图大小减半,输出通道数为256。最后,三个残差结构后为两个普通卷积层Conv9_a和Conv9_b,Conv9_a的卷积核大小为3×3,步长为2、填充为1, Conv9_b的卷积核大小仍为3×3,步长为1,填充为1。Conv9_a和Conv9_b 的输出通道数均为128。如图6所示,主干网络和多尺度特征提取网络组成了完整的网络结构,即检测模型,选取主干网络中的Res4b、多尺度特征网络中的Conv7、Res6、Res7、Res8、Conv9_b输出的特征图用于预测,特征图大小分别为38×38、19×19、10×10、5×5、3×3和1×1,输出通道数分别为256、 1024、128、128、128和128。然后对检测模型进行有针对性的训练,例如可以是对小目标检测的训练,获得训练好的深度神经网络模型,最后,根据训练好的深度神经网络模型即可对小目标进行检测。
其中,需要说明的是,本发明实施例的基于SE模块的SSD目标检测方法采用和SSD相同的损失函数,在训练时同时对位置和目标种类进行回归,其损失函数L是置信损失和位置损失之和,表达式如下:
式中:N是与参照物体框匹配的默认框个数;Lconf(z,c)为置信损失, Lloc(z,l,g)是位置损失;z为默认框与不同类别的参照物体框的匹配结果;c为预测物体框的置信度;l为预测物体框的位置信息;g为标注物体框的位置信息;α为权衡置信损失和位置损失的参数,一般设置为1。
为了构建鲁棒性强的模型,在数据扩增方面,本发明实施例的基于SE模块的SSD目标检测方法与经典SSD的方法基本一致,通过对原始数据进行随机裁切、翻转操作,来扩充训练数据集。为了检测具有不同宽高比的各类物体,本发明实施例的基于SE模块的SSD目标检测方法设置了具有5种不同宽高比的默认检测框,与经典SSD的一致,分别是1、2、3、1/2、1/3。实际中,本发明实施例的基于SE模块的SSD目标检测方法以默认检测框为中间变量,来实现检测框与预测检测框之间的转换。在准备训练数据时,需要将实际检测框与最符合的对应起来,形成从实际检测框与默认检测框的对应。
在匹配策略和难例负样本挖掘方面,匹配策略参照以下两个原则:首先,对于训练图片的单个实际检测框,在所有默认检测框中寻找与其重合比例最大的检测框,两者建立对应关系;其次,对于未建立对应关系的默认检测框,若有实际检测框与其重合比例超过给定阈值,则两者建立对应关系。一般将参考的目标检测框和目标检测框的重合比例IOU设置为0.5。进一步,在难例负样本挖掘上,一般定义具备对应关系的一对数据称为正样本,未建立对应关系的默认检测框称为负样本,对应背景类。由于实际检测框与默认检测框数量过于悬殊,不能使用所有的负样本进行网络训练,通常使得正负样本比例维持在1: 3左右,保证训练过程的收敛性。
另外,对于评价指标而言,通常目标检测的评价指标,包括检测精度、检测效率、定位准确性等。而本发明侧重于目标检测精度和检测效率,其中检测精度采用mAP(meanaverage precision)为评价指标;检测效率采用FPS (frames per second)为评价指标。具体计算为:
(1)mAP表示m个类别平均精度的平均值,一般介于0~1间,其值越大说明算法的检测精度越好。
其中,Pi表示第i个类别的平均精度;Ri表示第i个类别中所有相关的目标对象个数(检测到和未检测到);ni表示第i个类别中目标对象的数量,如果第 j个目标对象相关,Ij为1,否则Ij为0;Ri,j表示第i个类别中前j个目标对象中相关目标对象个数。
(2)FPS表示每秒检测帧数,FPS值越大说明检测速度越快。
根据本发明实施例的基于SE模块的SSD目标检测方法,提出在SSD算法架构中使用SE模块,通过注意力机制快速抓取小目标的特征,提升小目标的检测精度。与经典SSD算法在VOC2007上的检测结果相比,本发明在瓶子、椅子、船、电视等小目标上的检测精度明显高于经典SSD算法。具体情况如表1 所示。
表1本发明实施例的方法与经典SSD方法在小目标上的检测精度对比
同时,根据本发明实施例的基于SE模块的SSD目标检测方法最终的模型大小为86.5MB;而经典SSD算法的模型大小为100MB。可见,本提案方法显著减小了模型大小。
总而言之,根据本发明实施例的基于SE模块的SSD目标检测方法,使用 ResNet18作为主干网络,并在主干网络中引入SE(Squeeze-and-Excitation) 模块,通过在SSD算法架构的基础上引入SE模块,通过注意力机制提升小目标的检测精度,既保证了一定的检测速度,又提升了小目标的检测精度,同时尽量降低了对模型大小的影响。
此外,本发明还提供一种计算机存储介质,所述计算机存储介质包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现上述任一所述的基于SE模块的SSD目标检测方法。
也就是说,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行上述任一所述的基于SE模块的SSD目标检测方法。
如图7所示,本发明实施例提供了一种电子设备300,包括存储器310和处理器320,所述存储器310用于存储一条或多条计算机指令,所述处理器320 用于调用并执行所述一条或多条计算机指令,从而实现上述任一所述的方法。
也就是说,电子设备300包括:处理器320和存储器310,在所述存储器 310中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器320执行上述任一所述的方法。
进一步地,如图7所示,电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU),以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口330,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘350中。
所述输入设备340,可以接收操作人员输入的各种指令,并发送给处理器 320以供执行。所述输入设备340可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备360,可以将处理器320执行指令获得的结果进行显示。
所述存储器310,用于存储操作系统运行所必须的程序和数据,以及处理器320计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器310可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器 (EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器310存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统311和应用程序312。
其中,操作系统311,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序312,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。
本发明上述实施例揭示的方法可以应用于处理器320中,或者由处理器 320实现。处理器320可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310,处理器320读取存储器310中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器320还用于读取所述计算机程序,执行上述任一所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于SE模块的SSD目标检测方法,其特征在于,包括以下步骤:
S1、获取需要进行目标识别的图片或者视频;
S2、将卷积神经网络ResNet18的第一个卷积层替换为3×3卷积层,并在ResNet18的第一个和第二个残差块中添加SE模块,形成SE-ResNet18网络结构;
S3、将SSD目标检测算法中的主干网络替换为所述SE-ResNet18网络结构,得到检测模型;
S4、对所述检测模型进行针对小目标检测的训练,获得训练好的深度神经网络模型;
S5、根据训练好的深度神经网络模型对所述图片或者视频的小目标进行检测,得到检测结果。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,SE模块的扩张系数为4。
3.根据权利要求1所述的方法,其特征在于,在步骤S1中,经过Res5b,输出256个大小为19×19的特征图。
4.根据权利要求1所述的方法,其特征在于,步骤S2包括:
S21、将SSD目标检测算法中的主干网络替换为所述SE-ResNet18网络结构;
S22、在所述SE-ResNet18网络结构后添加多层卷积构成多尺度特征提取网络。
5.根据权利要求4所述的方法,其特征在于,步骤S22包括:
S221、在Res5b后添加卷积核大小为3、步长为1、填充为1的最大池化层pool5,输出特征图大小和通道数不变;
S222、在Pool5后添加卷积核大小为3×3、步长为1、膨胀系数为6、填充为6的膨胀卷积层Conv6和卷积核大小为1×1、步长为1、填充为0的普通卷积层Conv7,输出1024个大小为19×19的特征图。
6.根据权利要求5所述的方法,其特征在于,步骤S22还包括:
S223、在Conv7后添加三个超参数相同的残差结构,每个残差结构分为两路:一路为两个普通卷积层,第一个卷积层的卷积核大小为3×3,步长为2、填充为1,第二个卷积层的卷积核大小仍为3×3,步长为1,填充为1;另一路为短路连接,每经过Conv7后的一个残差结构,特征图大小减半,输出通道数为256。
7.根据权利要求6所述的方法,其特征在于,短路连接由一个卷积核大小为1×1,步长为2,填充为0的普通卷积层构成。
8.根据权利要求6所述的方法,其特征在于,步骤S22还包括:
S224、在三个残差结构后添加两个普通卷积层Conv9_a和Conv9_b,Conv9_a的卷积核大小为3×3,步长为2、填充为1,Conv9_b的卷积核大小仍为3×3,步长为1,填充为1,Conv9_a和Conv9_b的输出通道数均为128。
9.根据权利要求8所述的方法,其特征在于,步骤S22还包括:
S225、选取所述SE-ResNet18网络结构中的Res4b、多尺度特征提取网络中的Conv7、Res6、Res7、Res8、Conv9_b输出的特征图用于预测,特征图大小分别为38×38、19×19、10×10、5×5、3×3和1×1,输出通道数分别为256、1024、128、128、128和128。
10.一种计算机存储介质,其特征在于,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910769868.0A CN110543879A (zh) | 2019-08-20 | 2019-08-20 | 基于se模块的ssd目标检测方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910769868.0A CN110543879A (zh) | 2019-08-20 | 2019-08-20 | 基于se模块的ssd目标检测方法及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110543879A true CN110543879A (zh) | 2019-12-06 |
Family
ID=68711766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910769868.0A Pending CN110543879A (zh) | 2019-08-20 | 2019-08-20 | 基于se模块的ssd目标检测方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110543879A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111317653A (zh) * | 2020-02-24 | 2020-06-23 | 江苏大学 | 一种交互式盲人智能辅助装置及方法 |
CN111524096A (zh) * | 2020-03-30 | 2020-08-11 | 清华大学深圳国际研究生院 | 一种肌肉骨骼x光片分类方法、控制装置及存储介质 |
CN112562255A (zh) * | 2020-12-03 | 2021-03-26 | 国家电网有限公司 | 微光环境下电缆沟道烟雾火情的智能图像检测方法 |
CN112686186A (zh) * | 2021-01-05 | 2021-04-20 | 润联软件系统(深圳)有限公司 | 一种基于深度学习的高空抛物识别方法及其相关组件 |
CN112749677A (zh) * | 2021-01-21 | 2021-05-04 | 高新兴科技集团股份有限公司 | 玩手机行为识别方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
CN109190695A (zh) * | 2018-08-28 | 2019-01-11 | 中国海洋大学 | 一种基于深度卷积神经网络的鱼类图像分类方法 |
CN109978870A (zh) * | 2019-03-29 | 2019-07-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
-
2019
- 2019-08-20 CN CN201910769868.0A patent/CN110543879A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
CN109190695A (zh) * | 2018-08-28 | 2019-01-11 | 中国海洋大学 | 一种基于深度卷积神经网络的鱼类图像分类方法 |
CN109978870A (zh) * | 2019-03-29 | 2019-07-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
Non-Patent Citations (3)
Title |
---|
JIE HU 等: "Squeeze-and-Excitation Networks", 《CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
RUI ZHU 等: "ScratchDet: Training Single-Shot Object Detectors from Scratch", 《ARXIV:1810.08425V4》 * |
WEI LIU 等: "SSD: Single Shot MultiBox Detector", 《ECCV 2016》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111317653A (zh) * | 2020-02-24 | 2020-06-23 | 江苏大学 | 一种交互式盲人智能辅助装置及方法 |
CN111317653B (zh) * | 2020-02-24 | 2023-10-13 | 江苏大学 | 一种交互式盲人智能辅助装置及方法 |
CN111524096A (zh) * | 2020-03-30 | 2020-08-11 | 清华大学深圳国际研究生院 | 一种肌肉骨骼x光片分类方法、控制装置及存储介质 |
CN112562255A (zh) * | 2020-12-03 | 2021-03-26 | 国家电网有限公司 | 微光环境下电缆沟道烟雾火情的智能图像检测方法 |
CN112562255B (zh) * | 2020-12-03 | 2022-06-28 | 国家电网有限公司 | 微光环境下电缆沟道烟雾火情的智能图像检测方法 |
CN112686186A (zh) * | 2021-01-05 | 2021-04-20 | 润联软件系统(深圳)有限公司 | 一种基于深度学习的高空抛物识别方法及其相关组件 |
CN112749677A (zh) * | 2021-01-21 | 2021-05-04 | 高新兴科技集团股份有限公司 | 玩手机行为识别方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543879A (zh) | 基于se模块的ssd目标检测方法及计算机存储介质 | |
US11100320B2 (en) | Image recognition method and apparatus | |
WO2022068196A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN109740534B (zh) | 图像处理方法、装置及处理设备 | |
WO2017045443A1 (zh) | 一种图像检索方法及系统 | |
US8345985B2 (en) | Electronic device and method for matching images | |
CN111783767B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
WO2023056723A1 (zh) | 故障诊断的方法、装置、电子设备及存储介质 | |
CN110569887B (zh) | 基于预测层特征增强的目标检测方法、存储介质及设备 | |
WO2019100348A1 (zh) | 图像检索方法和装置以及图像库的生成方法和装置 | |
US20220329820A1 (en) | Method and device for picture coding, and storage medium | |
CN116452631A (zh) | 一种多目标跟踪方法、终端设备及存储介质 | |
CN110135428B (zh) | 图像分割处理方法和装置 | |
Tsai et al. | MobileNet-JDE: a lightweight multi-object tracking model for embedded systems | |
CN111291807A (zh) | 一种细粒度图像分类方法、装置及存储介质 | |
CN111414910A (zh) | 基于双重卷积神经网络的小目标增强检测方法和装置 | |
Cong et al. | CAN: Contextual aggregating network for semantic segmentation | |
WO2024012289A1 (zh) | 视频生成方法、装置、电子设备及介质 | |
CN111738290A (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
CN115630663A (zh) | 一种二维码识别方法、装置及电子设备 | |
CN116189109A (zh) | 模型训练方法、道路事件检测方法、装置及相关设备 | |
US11423646B2 (en) | Loop closure detection method, mobile device and computer readable storage medium | |
CN114821272A (zh) | 图像识别方法、系统、介质、电子设备及目标检测模型 | |
CN114155471A (zh) | 设计图纸与实物的核验方法、装置、计算机设备和系统 | |
WO2021128342A1 (zh) | 文档处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191206 |