CN110781962B - 基于轻量级卷积神经网络的目标检测方法 - Google Patents

基于轻量级卷积神经网络的目标检测方法 Download PDF

Info

Publication number
CN110781962B
CN110781962B CN201911027640.0A CN201911027640A CN110781962B CN 110781962 B CN110781962 B CN 110781962B CN 201911027640 A CN201911027640 A CN 201911027640A CN 110781962 B CN110781962 B CN 110781962B
Authority
CN
China
Prior art keywords
layer
target
neural network
convolutional neural
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911027640.0A
Other languages
English (en)
Other versions
CN110781962A (zh
Inventor
谢雪梅
金星
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911027640.0A priority Critical patent/CN110781962B/zh
Publication of CN110781962A publication Critical patent/CN110781962A/zh
Application granted granted Critical
Publication of CN110781962B publication Critical patent/CN110781962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轻量级卷积神经网络的目标检测方法,主要解决现有目标检测方法网络复杂、速度不快和对小目标检测效果差的问题。本发明的具体步骤如下:(1)构建轻量级卷积神经网络;(2)生成目标训练集;(3)训练轻量级卷积神经网络;(4)对待检测目标进行检测。本发明构建了一个由特征提取模块、特征增强模块、识别和定位模块组成的轻量级卷积神经网络,克服了现有目标检测方法中大目标检测效果好、小目标检测效果差并且速度慢的问题,使得本发明不仅能够实时识别大目标,也能实时识别小目标。

Description

基于轻量级卷积神经网络的目标检测方法
技术领域
本发明属于图像处理技术领域,更进一步涉及图像识别技术领域中的一种基于轻量级卷积神经网络的目标检测方法。本发明可用于检测自然图像中的静止目标。
背景技术
现有的大量目标检测方法在公共数据集中获得了非常高的分数,但在现实任务中目标检测仍然存在很多挑战,像对小目标的检测效果较差等。例如,在智能体育教学中,检测球将有助于教练掌握打球的学生的准确性。然而,当将相机放置在运动室中时,球仅占据几个像素,并且由于运动中的小球会因为运动员的一些特定动作产生形变或者遮挡,而且还有不同的光照、运动模糊等影响因素,所以现有的目标检测网络并不适用于类似于此小球识别的目标识别场景。
厦门大学在其申请的专利文献“基于卷积神经网络的快速目标检测方法”(专利申请号CN201510061852.6,公开号CN104573731A)中公开了一种基于卷积神经网络的快速目标检测方法。该方法首先利用训练集训练出卷积神经网络参数,然后利用扩展图的方式解决最大池化丢失特征的问题并生成判别完备特征图;把卷积神经网络的全连接权重看成线性分类器,采用可能近似学习框架来估计线性分类器在判别完备特征上的泛华误差;根据泛华误差和所期望泛化误差阈值来估算所需线性分类器个数,最后在判别完备特征图上用线性分类器基于平滑窗的方式完成目标检测。此方法虽然可以显著提高检测效率和目标检测精度,但是,该方法仍然存在的不足之处是:没有针对小目标的特征增强模块,对于图像中所含像素较少或含有遮挡的小目标检测,由于其提取特征的不明显,此方法效果并不是很好。
Shifeng Zhang在其发表的论文Single-Shot Refinement Neural Network forObject Detection(The IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018,pp.4203-4212)中公开了一种基于Single-Shot的图像目标检测方法RefineDet,该方法基于SSD算法和RPN网络、FPN算法的结合,可以在保持SSD高效的前提下大大提高检测效果。引入Two Stage类型目标检测算法中对Box由粗到细进行回归思想,即先通过RPN网络得到粗粒度的Box信息,然后再通过常规的回归支路进行进一步回归从而得到更加精确的框信息;引入类似FPN网络的特征融合操作,有效的提高了小目标的检测效果。尽管此网络的方法可以提高图像中小目标的检测精度,但是该方法仍然存在的不足之处是:网络复杂并且速度慢,所以无法在需要同时对大小目标都进行快速检测的的场景中使用。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于轻量级卷积神经网络的目标检测方法,解决现有目标检测方法网络复杂、速度不快和对小目标检测效果差的问题。
本发明的技术思路是,利用构建一个轻量级卷积神经网络提取并增强目标特征,并将网络输出的向量与类别和位置相对应,对图像数据集中的目标进行识别与定位,使得网络能够精确检测出图中的每一个目标。
本发明的实现的具体步骤如下:
步骤1,构建轻量级卷积神经网络:
第一步,搭建一个9层的特征提取模块,其结构依次为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层;并设置每层参数为:将第一至第七卷积层中卷积核的个数分别设置为64,64,128,128,256,256,256,卷积核的大小均设置为3×3,步长均设置为1,第一和第二池化层均采用最大池化的方式,池化区域核的大小均设置为2×2,步长均设置为2;
第二步,搭建一个3层的特征增强模块,其结构依次为:全局平均池化层→归一化层→点积层,其中点积层与全局平均池化层和归一化层并联;并将池化区域核的大小设置为2×2,步长设置为2;分别定义全局平均池化、归一化层和点积层的函数;
所述全局平均池化层的函数为:
Figure BDA0002249155720000021
其中,zi表示全局平均池化层输出的第i个特征权重,i=1,2,...,C,C表示X的总维度数,C=256,Fglobal表示全局平均池化操作,X表示从特征提取模块提取并向全局平均池化层输入的的一组特征图,H和W分别表示X的高度和宽度,m和n分别表示横轴坐标和纵轴坐标,该坐标系以特征图左上角为原点,水平向右为横轴正方向,垂直向下为纵轴正方向,xi(m,n)表示X中第i个特征图中坐标为(m,n)的点的值;
所述归一化层的函数为:
Figure BDA0002249155720000031
其中,si表示更新后的第i个特征权重;
所述点积层的函数为:
Figure BDA0002249155720000032
第三步,搭建一个3层的识别和定位模块,其结构依次为:第八卷积层→第九卷积层→第十卷积层;其中第九卷积层和第十卷积层并联;并将第八、九、十卷积层中卷积核的个数分别设置为256,2,8,卷积核的大小均设置为3×3,步长均设置为1;
第四步,将特征提取模块、特征增强模块、识别和定位模块依次连接组成轻量级卷积神经网络;
步骤2,生成目标训练集:
第一步,将至少1500张含有目标的待检测图片组成图片数据集,所述的每张待检测图片是从连续拍摄的含有待检测目标的视频中每隔5帧组成大小为1920×1080×3的一张图片;
第二步,对图片数据集中的每张图片中的目标进行标注,标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别,标注后会对应生成一个含有各目标各顶点坐标和其类别信息的xml格式标注文件;将所有的图片放到名为JPEGImages的文件夹中,将所有的xml格式的标注文件放到Annotations文件夹中,组成训练集;
步骤3,训练轻量级卷积神经网络:
将训练集输入到轻量级卷积神经网络中,用梯度下降法更新轻量级卷积神经网络的权值,直至Loss值降至3.0以下为止,得到训练好的轻量级卷积神经网络;
步骤4,对待检测目标进行检测:
将含有待检测目标的每张图片依次输入到训练好的轻量级卷积神经网络中,输出对图片中待检测目标的类别和目标所在的每个外接矩形框位置的检测结果。
与现有技术相比,本发明具有以下优点:
第一,由于本发明构建了一个由特征提取模块、特征增强模块、识别和定位模块组成的轻量级卷积神经网络,克服了现有轻量级目标检测方法中大目标检测效果好、小目标检测效果差的问题,使得本发明不仅能够识别大目标,也能识别小目标。
第二,由于本发明构建了一个轻量级卷积神经网络,克服了现有小目标检测方法检测速度慢的问题,使得本发明能够实时对小球进行精确识别,实现实时目标检测的功能。
附图说明
图1为本发明的流程图;
图2为本发明中特征增强模块的结构图。
具体实施方式
下面结合附图对本发明的做进一步的描述。
结合附图1对本发明的实现步骤做进一步的描述。
步骤1,构建轻量级卷积神经网络。
第一步,搭建一个9层的特征提取模块,其结构依次为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层;并设置每层参数为:将第一至第七卷积层中卷积核的个数分别设置为64,64,128,128,256,256,256,卷积核的大小均设置为3×3,步长均设置为1,第一和第二池化层均采用最大池化的方式,池化区域核的大小均设置为2×2,步长均设置为2。
第二步,结合附图2对构建特征增强模块做进一步的描述。
搭建一个3层的特征增强模块,其结构依次为:全局平均池化层→归一化层→点积层,其中点积层与全局平均池化层和归一化层并联;并将池化区域核的大小设置为2×2,步长设置为2;分别定义全局平均池化、归一化层和点积层的函数。
所述全局平均池化层的函数为:
Figure BDA0002249155720000051
其中,zi表示全局平均池化层输出的第i个特征权重,i=1,2,...,C,C表示X的总维度数,C=256,Fglobal表示全局平均池化操作,X表示从特征提取模块提取并向全局平均池化层输入的的一组特征图,H和W分别表示X的高度和宽度,m和n分别表示横轴坐标和纵轴坐标,该坐标系以特征图左上角为原点,水平向右为横轴正方向,垂直向下为纵轴正方向,xi(m,n)表示X中第i个特征图中坐标为(m,n)的点的值。
所述归一化层的函数为:
Figure BDA0002249155720000052
其中,si表示更新后的第i个特征权重。
所述点积层的函数为:
Figure BDA0002249155720000053
第三步,搭建一个3层的识别和定位模块,其结构依次为:第八卷积层→第九卷积层→第十卷积层;其中第九卷积层和第十卷积层并联;并将第八、九、十卷积层中卷积核的个数分别设置为256,2,8,卷积核的大小均设置为3×3,步长均设置为1。
第四步,将特征提取模块、特征增强模块、识别和定位模块依次连接组成轻量级卷积神经网络。
步骤2,生成目标训练集。
第一步,将至少1500张含有目标的待检测图片组成图片数据集,所述的每张待检测图片是从连续拍摄的含有待检测目标的视频中每隔5帧组成大小为1920×1080×3的一张图片。
第二步,对图片数据集中的每张图片中的目标进行标注,标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别,标注后会对应生成一个含有各目标各顶点坐标和其类别信息的xml格式标注文件;将所有的图片放到名为JPEGImages的文件夹中,将所有的xml格式的标注文件放到Annotations文件夹中,组成训练集。
步骤3,训练轻量级卷积神经网络。
将训练集输入到轻量级卷积神经网络中,用梯度下降法更新轻量级卷积神经网络的权值,定义Loss函数,直至Loss值降至3.0以下为止,得到训练好的轻量级卷积神经网络。
所述Loss函数定义为:
Figure BDA0002249155720000061
式中,i是一个mini-batch下anchor的索引。pi是anchor预测为目标的概率。当anchor为目标时,
Figure BDA0002249155720000062
为1,否则为0。ti是预测框的位置坐标,
Figure BDA0002249155720000063
是训练时每一个positiveanchor对应的ground truth的坐标。Ncls是一个batch的大小,设为256。Nreg是anchor的总数,λ是为了平衡二者设置的平衡比例,设置
Figure BDA0002249155720000064
Lcls是目标与非目标的对数损失,即:
Figure BDA0002249155720000065
Lreg则采用Fast R-CNN中的平滑L1 loss,其形式为:
Figure BDA0002249155720000066
其中,R即为Smooth L1 Loss函数,即:
Figure BDA0002249155720000067
Figure BDA0002249155720000068
表示Loss只正样本回归时有效。
步骤4,对待检测目标进行检测。
将含有待检测目标的每张图片依次输入到训练好的轻量级卷积神经网络中,输出对图片中待检测目标的类别和目标所在的每个外接矩形框位置的检测结果。

Claims (5)

1.一种基于轻量级卷积神经网络的目标检测方法,其特征在于,利用构建一个轻量级卷积神经网络提取并增强目标特征,并将网络输出的向量与类别和位置相对应,对图像数据集中的目标进行识别与定位,该方法的步骤包括如下:
步骤1,构建轻量级卷积神经网络:
第一步,搭建一个9层的特征提取模块,其结构依次为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层;并设置每层参数为:将第一至第七卷积层中卷积核的个数分别设置为64,64,128,128,256,256,256,卷积核的大小均设置为3×3,步长均设置为1,第一和第二池化层均采用最大池化的方式,池化区域核的大小均设置为2×2,步长均设置为2;
第二步,搭建一个3层的特征增强模块,其结构依次为:全局平均池化层→归一化层→点积层,其中点积层与全局平均池化层和归一化层并联;并将池化区域核的大小设置为2×2,步长设置为2;分别定义全局平均池化、归一化层和点积层的函数;
第三步,搭建一个3层的识别和定位模块,其结构依次为:第八卷积层→第九卷积层→第十卷积层;其中第九卷积层和第十卷积层并联;并将第八、九、十卷积层中卷积核的个数分别设置为256,2,8,卷积核的大小均设置为3×3,步长均设置为1;
第四步,将特征提取模块、特征增强模块、识别和定位模块依次连接组成轻量级卷积神经网络;
步骤2,生成目标训练集:
第一步,将至少1500张含有目标的待检测图片组成图片数据集,所述的每张待检测图片是从连续拍摄的含有待检测目标的视频中每隔5帧组成大小为1920×1080×3的一张图片;
第二步,对图片数据集中的每张图片中的目标进行标注,标注出目标所在的每个外接矩形框的各顶点坐标和其代表的类别,标注后会对应生成一个含有各目标各顶点坐标和其类别信息的xml格式标注文件;将所有的图片放到名为JPEGImages的文件夹中,将所有的xml格式的标注文件放到Annotations文件夹中,组成训练集;
步骤3,训练轻量级卷积神经网络:
将训练集输入到轻量级卷积神经网络中,用梯度下降法更新轻量级卷积神经网络的权值,直至Loss值降至3.0以下为止,得到训练好的轻量级卷积神经网络;
步骤4,对待检测目标进行检测:
将含有待检测目标的每张图片依次输入到训练好的轻量级卷积神经网络中,输出对图片中待检测目标的类别和目标所在的每个外接矩形框位置的检测结果。
2.根据权利要求1所述的基于轻量级卷积神经网络的目标检测方法,其特征在于,步骤1第二步中所述的全局平均池化层的函数如下:
Figure FDA0002249155710000021
其中,zi表示全局平均池化层输出的第i个特征权重,i=1,2,...,C,C表示X的总维度数,C=256,Fglobal表示全局平均池化操作,X表示从特征提取模块提取并向全局平均池化层输入的一组特征图,H和W分别表示X的高度和宽度,m和n分别表示横轴坐标和纵轴坐标,该坐标系以特征图左上角为原点,水平向右为横轴正方向,垂直向下为纵轴正方向,xi(m,n)表示X中第i个特征图中坐标为(m,n)的点的值。
3.根据权利要求1所述的基于轻量级卷积神经网络的目标检测方法,其特征在于,步骤1第二步中所述的归一化层的函数如下:
Figure FDA0002249155710000022
其中,si表示更新后的第i个特征权重。
4.根据权利要求1所述的基于轻量级卷积神经网络的目标检测方法,其特征在于,步骤1第二步中所述的点积层的函数如下:
Figure FDA0002249155710000031
其中,
Figure FDA0002249155710000032
表示特征图X中坐标为xi(m,n)的像素点与其对应的更新后的特征权重。
5.根据权利要求1所述的基于轻量级卷积神经网络的目标识别方法,其特征在于,步骤3中所述的Loss函数定义为:
Figure FDA0002249155710000033
式中,i是一个mini-batch下anchor的索引。pi是anchor预测为目标的概率。当anchor为目标时,
Figure FDA0002249155710000034
为1,否则为0。ti是预测框的位置坐标,
Figure FDA0002249155710000035
是训练时每一个positive anchor对应的ground truth的坐标。Ncls是一个batch的大小,设为256。Nreg是anchor的总数,λ是为了平衡二者设置的平衡比例,设置
Figure FDA0002249155710000036
Lcls是目标与非目标的对数损失,即
Figure FDA0002249155710000037
Lreg则采用FastR-CNN中的平滑L1 loss,其形式为
Figure FDA0002249155710000038
其中,R即为Smooth L1 Loss函数,即
Figure FDA0002249155710000039
Figure FDA00022491557100000310
表示Loss只正样本回归时有效。
CN201911027640.0A 2019-10-28 2019-10-28 基于轻量级卷积神经网络的目标检测方法 Active CN110781962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911027640.0A CN110781962B (zh) 2019-10-28 2019-10-28 基于轻量级卷积神经网络的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911027640.0A CN110781962B (zh) 2019-10-28 2019-10-28 基于轻量级卷积神经网络的目标检测方法

Publications (2)

Publication Number Publication Date
CN110781962A CN110781962A (zh) 2020-02-11
CN110781962B true CN110781962B (zh) 2023-03-28

Family

ID=69386849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911027640.0A Active CN110781962B (zh) 2019-10-28 2019-10-28 基于轻量级卷积神经网络的目标检测方法

Country Status (1)

Country Link
CN (1) CN110781962B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476138B (zh) * 2020-03-31 2023-08-18 万翼科技有限公司 建筑图纸构件识别模型构建方法、识别方法及相关设备
CN111882040B (zh) * 2020-07-30 2023-08-11 中原工学院 基于通道数量搜索的卷积神经网络压缩方法
CN112132810B (zh) * 2020-09-24 2023-09-12 西安电子科技大学 基于感知逻辑和特征对比的图像显著性检测方法
CN112749736B (zh) * 2020-12-30 2022-09-13 华南师范大学 图像识别方法、控制装置及存储介质
CN113408549B (zh) * 2021-07-14 2023-01-24 西安电子科技大学 基于模板匹配和注意力机制的少样本弱小目标检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902577A (zh) * 2019-01-25 2019-06-18 华中科技大学 一种轻量级手势检测卷积神经网络模型的构建方法及应用
CN110175524A (zh) * 2019-04-26 2019-08-27 南京航空航天大学 一种基于轻量级深度卷积网络的快速精确航拍车辆检测方法
CN110084195B (zh) * 2019-04-26 2022-12-06 西安电子科技大学 基于卷积神经网络的遥感图像目标检测方法
CN110245604B (zh) * 2019-06-12 2020-11-03 西安电子科技大学 基于卷积神经网络的蚊虫识别方法

Also Published As

Publication number Publication date
CN110781962A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781962B (zh) 基于轻量级卷积神经网络的目标检测方法
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN108154102B (zh) 一种道路交通标志识别方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN110175504A (zh) 一种基于多任务级联卷积网络的目标检测和对齐方法
CN111310718A (zh) 一种遮挡人脸图像高准确率检测对比方法
CN113592911B (zh) 表观增强深度目标跟踪方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN114882222B (zh) 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法
CN110738160A (zh) 一种结合人脸检测的人脸质量评估方法
CN114067444A (zh) 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统
CN111104830A (zh) 用于图像识别的深度学习模型、该模型的训练装置及方法
CN114037938B (zh) 一种基于NFL-Net的低照度目标检测方法
CN111680705A (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN107944437B (zh) 一种基于神经网络和积分图像的人脸定位方法
CN112949453A (zh) 烟火检测模型的训练方法、烟火检测方法及设备
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
CN109840498B (zh) 一种实时行人检测方法及神经网络、目标检测层
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant