CN116580184A - 一种基于YOLOv7的轻量化模型 - Google Patents

一种基于YOLOv7的轻量化模型 Download PDF

Info

Publication number
CN116580184A
CN116580184A CN202310497613.XA CN202310497613A CN116580184A CN 116580184 A CN116580184 A CN 116580184A CN 202310497613 A CN202310497613 A CN 202310497613A CN 116580184 A CN116580184 A CN 116580184A
Authority
CN
China
Prior art keywords
network
yolov7
image
lightweight model
backbone network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310497613.XA
Other languages
English (en)
Inventor
刘云清
安琪
李宁
张琼
颜飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202310497613.XA priority Critical patent/CN116580184A/zh
Publication of CN116580184A publication Critical patent/CN116580184A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于目标检测技术领域,尤其为一种基于YOLOv7的轻量化模型,该方法包括以下步骤:步骤一,数据集制备,将目标数据集分为训练集和验证集两部分,所有图像都包含人工标注的目标框和关键点的位置信息;步骤二,构建YOLOv7网络结构,引入高效移动神经骨干网络替换YOLOv7的骨干网络,同时引入逆卷积神经网络算子代替传统卷积,得到改进后的YOLOv7网络;步骤三,将步骤一划分出的训练集传入改进后的YOLOv7网络进行训练,得到轻量化模型。本发明,针对视频目标检测对网络实时性要求高的特点,提出引入一种高效移动神经骨干网络和逆卷积神经网络算子,通过对网络进行轻量化,提高了网络的检测速度。

Description

一种基于YOLOv7的轻量化模型
技术领域
本发明涉及目标检测技术领域,具体为一种基于YOLOv7的轻量化模型。
背景技术
目标检测是对图像中感兴趣的目标进行定位和识别,是计算机视觉的一个重要研究方向,也是许多计算机视觉任务的前提与基础,在自动驾驶、视频监控等领域具有重要的应用价值。随着计算机视觉的发展,基于计算机视觉的目标检测技术得到大量研究,越来越多的图像处理和识别技术涌现出来,尤其是近年来以深度学习为代表的人工智能技术的应用普及,为目标检测提供了重要的新思路。
基于深度学习的目标检测技术不再需要人工提取目标的特征,只需要搭建合适的网络模型,通过数据集的训练,便可以自动找到合适的目标特征。但是,基于深度学习的目标检测技术也面临着一些问题,随着网络不断加深,模型也变得越来越复杂,需要的计算量不断增加,算法模型很难达到检测精度和检测速度的平衡。目前,YOLO网络具有检测速度快、实时性强等优点,广泛应用于实时目标检测领域。而现有的YOLO算法在精度和速度上仍无法满足以嵌入式设备为主的应用场景,在复杂环境中,容易出现漏检、误检等问题。针对上述问题,本发明对YOLOv7网络进行了改进,保证检测精度的同时,使模型轻量化。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于YOLOv7的轻量化模型,解决了传统的YOLO网络存在的检测精度低和检测速度慢的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种基于YOLOv7的轻量化模型,该方法包括以下步骤:
步骤一,数据集制备,将目标数据集分为训练集和验证集两部分,所有图像都包含人工标注的目标框和关键点的位置信息;
步骤二,构建YOLOv7网络结构,引入高效移动神经骨干网络替换YOLOv7的骨干网络,同时引入逆卷积神经网络算子代替传统卷积,得到改进后的YOLOv7网络;
步骤三,将步骤一划分出的训练集传入改进后的YOLOv7网络进行训练,得到轻量化模型。
步骤四,使用步骤一划分出的验证集图像送入步骤三得到的轻量化模型,得到最终预测的目标检测框以及坐标。
进一步地,所述步骤二中使用YOLOv7网络作为目标检测的基础框架,YOLOv7主要由输入端、骨干网络以及预测网络组成,骨干网络是形成图像特征的卷积神经网络,预测网络是对图像的特征进行预测,并生成边界框和预测类别,每个阶段包含提取的不同特征。
进一步地,所述步骤二中引入一种用于移动设备的高效神经骨干网络,替换YOLOv7骨干网络中的特征提取网络。
进一步地,所述步骤二中引入逆特征卷积神经网络算子,替换骨干网络和预测网络中的传统卷积。
进一步地,所述步骤二中具体的将原始图像通过特征提取网络进行特征提取以及特征融合,分别输出浅层特征图、中层特征图和深层特征图,经过推理卷积层,对图像检测的三类任务进行预测,最终输出预测结果。
(三)有益效果
与现有技术相比,本发明提供了一种基于YOLOv7的轻量化模型,具备以下
有益效果:
本发明,针对视频目标检测对网络实时性要求高的特点,提出引入一种高效移动神经骨干网络替换YOLOv7网络的骨干网络,通过模型重参数化对网络进行轻量化,提高了网络的检测速度。
本发明引入逆特征卷积神经网络算子,替换传统卷积,克服了传统卷积的局限性,比传统卷积更轻量更高效,可以在模型上取得精度和效率的双重提升。
本发明在YOLOv7网络的基础上,引入高效移动神经骨干网络和逆特征卷积神经网络算子,在不降低目标检测准确率的同时,提升模型的检测效率,优化模型,使其具有更广阔的应用前景。
附图说明
图1为本发明流程框图;
图2为本发明引入的高效移动神经骨干网络的基本模块图;
图3为本发明引入的逆特征卷积神经网络算子的示意图;
图4为本发明使用的YOLOv7网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1-4所示,本发明一个实施例提出的一种基于YOLOv7的轻量化模型,包含以下步骤,
步骤一,数据集制备,将目标检测的数据集分为训练集和验证集两部分,并且所有图像都包含人工标注的目标框和每个关键点的位置信息;每幅图像中标注n个目标检测框,每个检测框对应一个坐标位置,为检测框中心位置的坐标;
步骤二,构建YOLOv7网络结构,YOLOv7主要由输入端、骨干网络以及预测网络组成,骨干网络是形成图像特征的卷积神经网络,预测网络是对图像的特征进行预测,并生成边界框和预测类别,每个阶段包含提取的不同特征,网络结构如图4所示;
首先对输入的图像进行预处理,对图像进行切片操作,在一张图像中每隔一个像素拿到一个值,得到四张图像,把四张图像的部分组成一张尺寸一定的输入图片,将拼接后得到的新图像再经过卷积操作,得到没有信息丢失情况下的二倍下采样特征图,输入到骨干网络,一般输入的图像为640*640*3;锚定框根据检测层设置,每一层的锚框应用于不用的特征图,在目标检测任务中,一般希望在大特征图上检测小目标,因为大特征图含有更多小目标的信息,因此大特征图上的锚框数值通常设置为小数值,而小特征图上数值设置为大数值用于检测大目标;网络中共有三个检测层,故锚定框设置为三行,分别对应浅层、中层和深层,输入到骨干网络的图像通过四个3*3的卷积层,再通过一个高效特征提取网络,增倍通道,提取特征。通过三个池化层和特征提取网络,进行下采样和特征提取,分别输出三层不同尺寸的特征图C3(80*80*512)、C4(40*40*1024)、C5(20*20*1024);C5经过池化层和特征处理网络得到特征图P5(20*20*512),通过最大池化获得不同感受野,以适应不同的分辨率图像,不同的池化层对应不同的感受野,从而区分小目标和大目标;特征处理网络分为两个分支,一个分支对特征进行常规处理,另一分支对池化层的特征进行处理,最后把两个部分进行融合输出结果,C5按照从上到下的顺序和C4、C3进行融合,通过上采样和特征提取网络,得到P3(80*80*256)、P4(40*40*512),再按照从下到上的顺序和P4、P5融合,最后输出三层不同尺寸的特征图(20*20*255、40*40*255、80*80*255);经过推理卷积层,对图像检测的三类任务(分类、前后背景分类、边框)进行预测,最终输出预测结果。
本发明在骨干网络部分引入一种用于移动设备的高效神经骨干网络,替换YOLOv7骨干网络中的特征提取网络,该高效移动神经骨干网络使用重参数化实现模型的轻量化,模型重参数化是在训练时采用多分支的复杂网络,使模型获得更好的特征表达,在测试时将多分支合并成一条支路进行测试,降低计算量和参数量,从而提升速度;该网络的基本模块如图2所示,基本模块构建在3*3深度卷积和1*1点卷积的MobileNet-V1块之上,使用归一化层以及复制结构的分支引入可重新参数化的残差连接,在训练时间和测试时间有两种不同的结构,左边是训练时间移动网络模块,具有可重参数化的分支,右边是重参数化分支的推理模块,使用ReLU或SE-ReLU作为激活函数;高效移动神经骨干网络的引入提升了模型的速度,达到了最先进的水平高效架构中的性能。
引入逆特征卷积神经网络算子,替换骨干网络和预测网络中的传统卷积;一组逆特征卷积神经网络算子核可表示为H∈H×W×K×K×G;对于像素Xi,jC,其逆特征卷积神经网络算子核为Hi,j,·,·,gK×K,g=1,2,…,G为逆特征卷积神经网络算子核的分组,计算每个组共享相同的逆特征卷积神经网络算子核的组数,组内核共享,利用逆特征卷积神经网络算子核对输入进行乘加运算,得到逆特征卷积神经网络算子的输出特征图为:
k为通道编号,逆特征卷积神经网络算子核的大小取决于输入特征图的大小,通过核生成函数φ动态生成:
Hi,j=φ(Xψi,j)
其中ψi,j为Hi,j对应的输入像素合集。定义核生成函数φ:
Hi,j=φ(Xi,j)=W(W0Xi,j
和/>
为线性变换,中间通道维数由压缩因子r控制,σ表示批处理归一化后的对于2个线性变换的非线性激活函数。
逆特征卷积神经网络算子示意图如图3;针对输入特征图的一个坐标点上的特征向量,首先用φ函数(一般是某种线性变换,一种1x1卷积的组合生成特定大小的向量)生成特定大小的权重向量,然后再用一种变换H(最一般的形式是重新排列)将权重展开成一个核,再和输入特征图上这个坐标点邻域的特征向量进行乘-加得到最终输出的特征图。
逆特征卷积神经网络算子可以在更广阔的空间中聚合上下文语义信息,从而克服了对远程交互进行建模的困难,并且可以在不同位置上自适应地分配权重,从而对空间域中信息最丰富的视觉元素进行优先排序,克服了传统卷积的缺点,减少网络的计算量和参数量,保持精度的同时能够使模型更加轻量化。
步骤三,将步骤一划分出的训练集传入改进后的YOLOv7网络进行训练,得到轻量化模型。
步骤四,使用步骤一划分出的验证集图像送入步骤三得到的轻量化模型,得到最终预测的目标检测框以及坐标等。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于YOLOv7的轻量化模型,其特征在于:该方法包括以下步骤:
步骤一,数据集制备,将目标数据集分为训练集和验证集两部分,所有图像都包含人工标注的目标框和关键点的位置信息;
步骤二,构建YOLOv7网络结构,引入高效移动神经骨干网络替换YOLOv7的骨干网络,同时引入逆卷积神经网络算子代替传统卷积,得到改进后的YOLOv7网络;
步骤三,将步骤一划分出的训练集传入改进后的YOLOv7网络进行训练,得到轻量化模型。
步骤四,使用步骤一划分出的验证集图像送入步骤三得到的轻量化模型,得到最终预测的目标检测框以及坐标。
2.根据权利要求1所述的一种基于YOLOv7的轻量化模型,其特征在于:所述步骤二中使用YOLOv7网络作为目标检测的基础框架,YOLOv7主要由输入端、骨干网络以及预测网络组成,骨干网络是形成图像特征的卷积神经网络,预测网络是对图像的特征进行预测,并生成边界框和预测类别,每个阶段包含提取的不同特征。
3.根据权利要求1所述的一种基于YOLOv7的轻量化模型,其特征在于:所述步骤二中引入一种用于移动设备的高效神经骨干网络,替换YOLOv7骨干网络中的特征提取网络。
4.根据权利要求1所述的一种基于YOLOv7的轻量化模型,其特征在于:所述步骤二中引入逆特征卷积神经网络算子,替换骨干网络和预测网络中的传统卷积。
5.根据权利要求1所述的一种基于YOLOv7的轻量化模型,其特征在于:所述步骤二中具体的将原始图像通过特征提取网络进行特征提取以及特征融合,分别输出浅层特征图、中层特征图和深层特征图,经过推理卷积层,对图像检测的三类任务进行预测,最终输出预测结果。
CN202310497613.XA 2023-05-06 2023-05-06 一种基于YOLOv7的轻量化模型 Pending CN116580184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310497613.XA CN116580184A (zh) 2023-05-06 2023-05-06 一种基于YOLOv7的轻量化模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310497613.XA CN116580184A (zh) 2023-05-06 2023-05-06 一种基于YOLOv7的轻量化模型

Publications (1)

Publication Number Publication Date
CN116580184A true CN116580184A (zh) 2023-08-11

Family

ID=87538944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310497613.XA Pending CN116580184A (zh) 2023-05-06 2023-05-06 一种基于YOLOv7的轻量化模型

Country Status (1)

Country Link
CN (1) CN116580184A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758295A (zh) * 2023-08-15 2023-09-15 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质
CN117113010A (zh) * 2023-10-24 2023-11-24 北京化工大学 基于卷积网络轻量化的输电通道安全监测方法及系统
CN116758295B (zh) * 2023-08-15 2024-06-04 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758295A (zh) * 2023-08-15 2023-09-15 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质
CN116758295B (zh) * 2023-08-15 2024-06-04 摩尔线程智能科技(北京)有限责任公司 关键点检测方法及装置、电子设备和存储介质
CN117113010A (zh) * 2023-10-24 2023-11-24 北京化工大学 基于卷积网络轻量化的输电通道安全监测方法及系统
CN117113010B (zh) * 2023-10-24 2024-02-09 北京化工大学 基于卷积网络轻量化的输电通道安全监测方法及系统

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111292264B (zh) 一种基于深度学习的图像高动态范围重建方法
CN109785236B (zh) 一种基于超像素和卷积神经网络的图像超分辨方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN110852393A (zh) 一种遥感图像的分割方法及系统
CN115205633A (zh) 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN109523558A (zh) 一种人像分割方法及系统
CN114998757A (zh) 用于无人机航摄图像分析的目标检测方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN116580184A (zh) 一种基于YOLOv7的轻量化模型
CN112733693A (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN114972780A (zh) 一种基于改进YOLOv5的轻量化目标检测网络
CN113901928A (zh) 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116452900A (zh) 一种基于轻量级神经网络的目标检测方法
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
Li et al. An improved method for underwater image super-resolution and enhancement
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
GB2618876A (en) Lightweight and efficient object segmentation and counting method based on generative adversarial network (GAN)
CN116152263A (zh) 一种基于cm-mlp网络的医学图像分割方法
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法
CN115035408A (zh) 基于迁移学习和注意力机制的无人机影像树种分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination