CN116994114A - 一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法 - Google Patents
一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法 Download PDFInfo
- Publication number
- CN116994114A CN116994114A CN202310797562.2A CN202310797562A CN116994114A CN 116994114 A CN116994114 A CN 116994114A CN 202310797562 A CN202310797562 A CN 202310797562A CN 116994114 A CN116994114 A CN 116994114A
- Authority
- CN
- China
- Prior art keywords
- lightweight
- yolov8
- network
- target detection
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 230000004913 activation Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 17
- 238000013461 design Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008707 rearrangement Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 5
- 238000005259 measurement Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009021 linear effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,方法包括以下步骤:S1,构建模型数据集;S2,初始化轻量主干网络;S3,将初始网络架构中的主干网络替换为轻量主干网络;S4,调整轻量主干网络的参数;S5,构建注意力模块,并将注意力模块连接到轻量主干网络的输出端;S6,将初始网络架构中的激活函数更改为GELU;S7,添加高分辨率预测头,最终得到改进后的模型;S8,训练改进后的模型;S9,加载并测试训练好的模型,保留性能最佳的模型作为最终模型。通过上述改进,使得模型在资源受限环境下具备更高的性能,并在小目标检测任务中具备更广泛的应用前景。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法。
背景技术
近年来,智能家居技术迅速发展,为人们的生活带来了便利和舒适。家庭智能化产品的广泛应用,如智能摄像头、智能安防系统等,为家庭提供了安全保障和监控功能。然而,在家居环境中,小目标检测一直是一个具有挑战性的问题。小目标通常具有尺寸小、外观变化多样等特点,传统的目标检测方法往往难以准确地检测和识别这些目标。
当前的目标检测方法中,基于深度学习的单阶段目标检测模型成为研究的热点。其中,YOLOv8(You Only Look Once v8)是一种非常有效的目标检测模型,具有较高的准确性和实时性。然而,由于YOLOv8模型结构较为复杂且参数量较大,其在家居小目标检测中的应用受到了一定的限制。
为了解决家居环境下小目标检测的问题并提高检测的效率,我们提出了一种基于改进YOLOv8的轻量化家居小目标检测方法。本发明方法旨在保持较高的检测准确性的同时,减小模型的复杂度和参数量,提高实时性和性能。
而申请号为202310451024.8的中国发明专利公开了一种《基于改进yolov8的暴露垃圾检测及堆放监控的方法》,其采用的技术方案是:S1采集数据制作数据集:采集待检测及监控区域的图像数据,再对获得的图像数据进行暴露垃圾图像标注,制作数据集;S2搭建网络并训练模型:搭建网络并利用数据集训练目标检测模型,获得暴露垃圾检测模型;S3模型推理:将获得的暴露垃圾检测模型接入实时视频流进行实时流推理,判断监控区域内是否存在暴露垃圾,根据检测结果进行处理,获得推理结果;S4结果分析:对步骤S3中获得的推理结果进行逻辑分析,判断暴露垃圾堆放的堆放量以及记录暴露垃圾的堆放时长;S5二次告警:根据暴露垃圾的堆放量和堆放时长,响应相应的二次告警。其技术方案旨在提高检测模型对垃圾的识别准确率,并没针对小目标的检测进行相应的技术改进。
发明内容
针对现有技术中的YOLOv8目标检测模型存在模型参数量大以及家具小目标检测性能欠佳的问题,本发明提出一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,本发明采用的技术方案是:
本发明第一方面提供了一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,包括以下步骤:
S1,构建模型数据集;
S2,初始化轻量主干网络ShuffleNetV2;
S3,将初始网络架构YOLOv8中的主干网络替换为所述轻量主干网络ShuffleNetV2;
S4,调整所述轻量主干网络ShuffleNetV2的参数以兼容所述初始网络架构YOLOv8;
S5,构建Coordinate Attention注意力模块,并将所述Coordinate Attention注意力模块连接到轻量主干网络ShuffleNetV2的输出端;
S6,将初始网络架构YOLOv8中的激活函数ReLU更改为GELU激活函数,以增加模型的特征学习能力;
S7,将初始网络架构YOLOv8包含的预测头模块中添加一个高分辨率预测头,最终得到改进后的网络架构YOLOv8,并记为YOLOv8+ShuffleNetV2轻量化网络;
S8,训练所述YOLOv8+ShuffleNetV2轻量化网络,得到训练好的YOLOv8+ShuffleNetV2轻量化网络;
S9,加载并测试所述步骤S8中训练好的YOLOv8+ShuffleNetV2轻量化网络,保留性能最佳的模型作为最终模型。
相较于现有技术,本发明方法通过引入轻量主干网络ShuffleNetV2,在保持模型准确性的同时降低计算复杂度和参数量;通过引入Coordinate Attention注意力机制在提高模型对空间位置信息的感知能力;通过将原激活函数更换为GELU函数以提供更好的梯度传播和模型拟合能力;通过添加高分辨率预测头以提高模型对小目标物体的检测性能。
作为一种优选方案,在所述步骤S1中,所述模型数据集选用COCO数据集,所述COCO数据集的可用类别包括瓶子、茶杯、叉子、小刀以及牙刷。
作为一种优选方案,所述步骤S2具体为:
对所述轻量主干网络ShuffleNetV2进行参数设置以及网络结构定义;所述参数设置包括通道重排、分组卷积以及深度可分离卷积设置。
作为一种优选方案,所述步骤S4具体还包括:
根据目标检测数据集的大小、类别数量和目标尺寸,调整所述轻量主干网络ShuffleNetV2的深度、宽度以及通道数。
作为一种优选方案,在所述步骤S5中,所述Coordinate Attention注意力模块的具体构建过程为:
S51,设计和实现坐标编码器;使用位置编码方法,为不同位置生成唯一的编码向量;
S52,根据坐标编码器的输出和输入特征,设计和实现权重计算器;根据位置编码和特征来计算每个位置的权重;
S53,根据权重计算器的输出和输入特征,设计和实现特征加权器;使用元素级乘法操作或卷积操作,将权重应用于输入特征,得到加权后的特征表示;
S54,将加权后的特征表示与原始特征进行融合;使用简单的元素级相加操作完成特征融合。
作为一种优选方案,在所述步骤S6中,所述GELU激活函数具体为:
作为一种优选方案,在所述步骤S7中,添加所述高分辨率预测头的具体过程为:
S71,增加高分辨率特征图分支:在所述轻量主干网络ShuffleNetV2或特征金字塔网络中添加一个额外的分支,用于生成高分辨率的特征图;选择在网络中适当的位置插入所述分支,以便在较高层级上提取更丰富的特征;
S72,高分辨率预测头设计:设计一个高分辨率预测头,用于从增加的高分辨率特征图分支中预测目标的位置和类别;所述高分辨率预测头包括卷积层、池化层以及全连接层,以提取和处理特征,并生成目标检测的预测结果;
S73,定义输出层:在高分辨率预测头的最后一层添加卷积层,以生成目标检测的预测结果;该卷积层的通道数应该与目标类别数量和边界框属性的维度相匹配。
作为一种优选方案,在所述步骤S8中,通过调整所述YOLOv8+ShuffleNetV2轻量化网络的网络参数和超参数以获得最佳的性能。
作为一种优选方案,在所述步骤S9中,通过评估模型的检测精度、资源消耗量、泛化能力以及鲁棒性,以确定性能最佳的模型。
本发明第二方面提供了一种计算机设备,包括存储介质、处理器以及储存在所述存储介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法的步骤。
本发明的有益效果是:
通过将YOLOv8的主干网络替换为ShuffleNetV2,减少了模型的计算复杂度和参数数量,使得模型更适用于资源受限的环境,如移动设备和嵌入式系统。通过增加一个高分辨率预测头,改进后的模型能够更好地捕捉和识别小尺寸的目标物体,提高了在复杂场景中的检测准确性。将激活函数替换为GELU,可以提供更平滑的非线性特性,帮助模型更好地拟合复杂的数据分布,并促进梯度在网络中的传播,减轻梯度消失问题。通过引入CoordinateAttention注意力模块,使网络可以自动学习对于任务重要的空间位置,并将更多的注意力集中在这些位置上,有效提升网络的特征提取能力。通过综合应用ShuffleNetV2、GELU、Coordinate Attention注意力模块和高分辨率预测头的改进方案,改进后的模型在目标检测任务中表现出更高的精度和鲁棒性,提升了在实际应用中的实用性。
附图说明
图1为本发明实施例提供的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法流程图;
图2为本发明实施例提供的一种基于改进YOLOv8的轻量化家居小目标检测模型整体框架示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
请参考图1以及图2,一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,包括以下步骤:
S1,构建模型数据集。
在一个具体的实施例中,在所述步骤S1中,所述模型数据集选用COCO数据集,所述COCO数据集的可用类别包括瓶子、茶杯、叉子、小刀以及牙刷。
S2,初始化轻量主干网络ShuffleNetV2。
在一个具体的实施例中,所述步骤S2具体为:
对所述轻量主干网络ShuffleNetV2进行参数设置以及网络结构定义;所述参数设置包括通道重排、分组卷积以及深度可分离卷积设置。
S3,将初始网络架构YOLOv8中的主干网络替换为所述轻量主干网络ShuffleNetV2。
需要说明的是,所述轻量主干网络ShuffleNetV2是一种轻量级卷积神经网络架构,旨在在保持模型准确性的同时降低计算复杂度和参数量。它是ShuffleNet的升级版本,通过引入特定的网络设计和通道重排操作来改进模型的性能。ShuffleNetV2的核心思想是在特定层之间引入通道重排操作,从而增加了特征通道之间的信息交流。这种通道重排操作被称为Shuffle操作,其目的是打破特征通道的空间排列关系,促进信息流动和跨通道交互。所述轻量主干网络ShuffleNetV2在多个任务上改善了轻量型模型的性能,并可以提升模型精度且保持延迟几乎不变,基于此,本发明将YOLOv8初始网络架构的主干网络替换为轻量主干网络ShuffleNetV2;
S4,调整所述轻量主干网络ShuffleNetV2的参数以兼容所述初始网络架构YOLOv8。
在一个具体的实施例中,所述步骤S4具体还包括:
根据目标检测数据集的大小、类别数量和目标尺寸,调整所述轻量主干网络ShuffleNetV2的深度、宽度以及通道数。
S5,构建Coordinate Attention注意力模块,并将所述Coordinate Attention注意力模块连接到轻量主干网络ShuffleNetV2的输出端。
在一个具体的实施例中,在所述步骤S5中,所述Coordinate Attention注意力模块的具体构建过程为:
S51,设计和实现坐标编码器;使用位置编码方法,为不同位置生成唯一的编码向量;
S52,根据坐标编码器的输出和输入特征,设计和实现权重计算器;根据位置编码和特征来计算每个位置的权重;
S53,根据权重计算器的输出和输入特征,设计和实现特征加权器;使用元素级乘法操作或卷积操作,将权重应用于输入特征,得到加权后的特征表示;
S54,将加权后的特征表示与原始特征进行融合;使用简单的元素级相加操作完成特征融合。
需要说明的是,Coordinate Attention注意力模块旨在提高模型对空间位置信息的感知能力。它通过自适应地调整特征图中不同位置的权重,使网络能够更加关注重要的空间位置,并提升模型在视觉任务中的性能。Coordinate Attention注意力模块的关键思想是利用特征图中的空间坐标信息来生成位置权重。一种常见的实现方式是通过两个共享的全连接层,将特征图的坐标信息映射到一个标量值。然后,使用激活函数(如sigmoid)将标量值归一化为0到1之间的范围,作为每个空间位置的权重。在使用CoordinateAttention注意力模块时,权重将与原始特征图进行元素级别的相乘,以对特征图的不同位置施加加权。这样,网络可以自动学习对于任务重要的空间位置,并将更多的注意力集中在这些位置上。
本发明方法通过添加的Coordinate Attention注意力模块可以有效提升本网络的性能。
S6,将初始网络架构YOLOv8中的激活函数ReLU更改为GELU激活函数,以增加模型的特征学习能力。
在一个具体的实施例中,在所述步骤S6中,所述GELU激活函数具体为:
需要说明的是,所述GELU激活函数是平滑的,具有连续的导数。这种平滑性有助于梯度的传播和优化过程;所述GELU激活函数引入了非线性变换,使得神经网络能够学习更复杂的特征和模式;当输入值接近于零时,所述GELU激活函数的值近似于线性变换,这有助于保持一定的线性性质。
S7,将初始网络架构YOLOv8包含的预测头模块中添加一个高分辨率预测头,最终得到改进后的网络架构YOLOv8,并记为YOLOv8+ShuffleNetV2轻量化网络。
在一个具体的实施例中,在所述步骤S7中,添加所述高分辨率预测头的具体过程为:
S71,增加高分辨率特征图分支:在所述轻量主干网络ShuffleNetV2或特征金字塔网络中添加一个额外的分支,用于生成高分辨率的特征图;选择在网络中适当的位置插入所述分支,以便在较高层级上提取更丰富的特征;
S72,高分辨率预测头设计:设计一个高分辨率预测头,用于从增加的高分辨率特征图分支中预测目标的位置和类别;所述高分辨率预测头包括卷积层、池化层以及全连接层,以提取和处理特征,并生成目标检测的预测结果;
S73,定义输出层:在高分辨率预测头的最后一层添加卷积层,以生成目标检测的预测结果;该卷积层的通道数应该与目标类别数量和边界框属性的维度相匹配。
需要说明的是,家居环境下的目标检测包含了很多非常小的目标,所以增加了一个用于微小物体检测的高分辨率预测头。结合原有3个预测头,4头结构可以缓解剧烈的目标尺度变化带来的负面影响。所述高分辨率预测头是由low-level、高分辨率的featuremap生成的,对微小物体更加敏感。增加检测头后,虽然增加了计算和存储成本,但对微小物体的检测性能得到了很大的提高。
S8,训练所述YOLOv8+ShuffleNetV2轻量化网络,得到训练好的YOLOv8+ShuffleNetV2轻量化网络。
在一个具体的实施例中,在所述步骤S8中,通过调整所述YOLOv8+ShuffleNetV2轻量化网络的网络参数和超参数以获得最佳的性能。
S9,加载并测试所述步骤S8中训练好的YOLOv8+ShuffleNetV2轻量化网络,保留性能最佳的模型作为最终模型。
在一个具体的实施例中,在所述步骤S9中,通过评估模型的检测精度、资源消耗量、泛化能力以及鲁棒性,以确定性能最佳的模型。
需要说明的是,所述检测精度包括精确度(Precision)、召回率(Recall)、F1分数(F1-score)和平均精度均值(mAP)。这些指标可以通过与标注数据进行比较来计算。较高的检测精度意味着模型能够准确地检测和定位目标。
需要说明的是,模型的性能评估还需要考虑计算资源的消耗,如推理时间和内存占用。推理时间可以通过在特定硬件平台上运行模型并测量时间来评估。内存占用可以通过模型的参数量和内存使用情况来衡量。较低的计算资源消耗意味着模型能够在资源受限的环境中高效运行。
需要说明的是,模型的鲁棒性可以通过引入各种数据扰动、噪声或变换来进行评估,例如视角变化、光照变化、背景干扰等。
实施例2
一种计算机设备,包括存储介质、处理器以及储存在所述存储介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现实施例1中的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,包括以下步骤:
S1,构建模型数据集;
S2,初始化轻量主干网络ShuffleNetV2;
S3,将初始网络架构YOLOv8中的主干网络替换为所述轻量主干网络ShuffleNetV2;
S4,调整所述轻量主干网络ShuffleNetV2的参数以兼容所述初始网络架构YOLOv8;
S5,构建Coordinate Attention注意力模块,并将所述Coordinate Attention注意力模块连接到轻量主干网络ShuffleNetV2的输出端;
S6,将初始网络架构YOLOv8中的激活函数ReLU更改为GELU激活函数,以增加模型的特征学习能力;
S7,将初始网络架构YOLOv8包含的预测头模块中添加一个高分辨率预测头,最终得到改进后的网络架构YOLOv8,并记为YOLOv8+ShuffleNetV2轻量化网络;
S8,训练所述YOLOv8+ShuffleNetV2轻量化网络,得到训练好的YOLOv8+ShuffleNetV2轻量化网络;
S9,加载并测试所述步骤S8中训练好的YOLOv8+ShuffleNetV2轻量化网络,保留性能最佳的模型作为最终模型。
2.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,在所述步骤S1中,所述模型数据集选用COCO数据集,所述COCO数据集的可用类别包括瓶子、茶杯、叉子、小刀以及牙刷。
3.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,所述步骤S2具体为:
对所述轻量主干网络ShuffleNetV2进行参数设置以及网络结构定义;所述参数设置包括通道重排、分组卷积以及深度可分离卷积设置。
4.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,所述步骤S4具体还包括:
根据目标检测数据集的大小、类别数量和目标尺寸,调整所述轻量主干网络ShuffleNetV2的深度、宽度以及通道数。
5.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,在所述步骤S5中,所述Coordinate Attention注意力模块的具体构建过程为:
S51,设计和实现坐标编码器;使用位置编码方法,为不同位置生成唯一的编码向量;
S52,根据坐标编码器的输出和输入特征,设计和实现权重计算器;根据位置编码和特征来计算每个位置的权重;
S53,根据权重计算器的输出和输入特征,设计和实现特征加权器;使用元素级乘法操作或卷积操作,将权重应用于输入特征,得到加权后的特征表示;
S54,将加权后的特征表示与原始特征进行融合;使用简单的元素级相加操作完成特征融合。
6.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,在所述步骤S6中,所述GELU激活函数具体为:
7.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,在所述步骤S7中,添加所述高分辨率预测头的具体过程为:
S71,增加高分辨率特征图分支:在所述轻量主干网络ShuffleNetV2或特征金字塔网络中添加一个额外的分支,用于生成高分辨率的特征图;选择在网络中适当的位置插入所述分支,以便在较高层级上提取更丰富的特征;
S72,高分辨率预测头设计:设计一个高分辨率预测头,用于从增加的高分辨率特征图分支中预测目标的位置和类别;所述高分辨率预测头包括卷积层、池化层以及全连接层,以提取和处理特征,并生成目标检测的预测结果;
S73,定义输出层:在高分辨率预测头的最后一层添加卷积层,以生成目标检测的预测结果;该卷积层的通道数应该与目标类别数量和边界框属性的维度相匹配。
8.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,在所述步骤S8中,通过调整所述YOLOv8+ShuffleNetV2轻量化网络的网络参数和超参数以获得最佳的性能。
9.根据权利要求1所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法,其特征在于,在所述步骤S9中,通过评估模型的检测精度、资源消耗量、泛化能力以及鲁棒性,以确定性能最佳的模型。
10.一种计算机设备,其特征在于:包括存储介质、处理器以及储存在所述存储介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797562.2A CN116994114A (zh) | 2023-06-30 | 2023-06-30 | 一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797562.2A CN116994114A (zh) | 2023-06-30 | 2023-06-30 | 一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994114A true CN116994114A (zh) | 2023-11-03 |
Family
ID=88533039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310797562.2A Pending CN116994114A (zh) | 2023-06-30 | 2023-06-30 | 一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994114A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765421A (zh) * | 2024-02-22 | 2024-03-26 | 交通运输部天津水运工程科学研究所 | 基于深度学习的海岸线垃圾识别方法及系统 |
-
2023
- 2023-06-30 CN CN202310797562.2A patent/CN116994114A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765421A (zh) * | 2024-02-22 | 2024-03-26 | 交通运输部天津水运工程科学研究所 | 基于深度学习的海岸线垃圾识别方法及系统 |
CN117765421B (zh) * | 2024-02-22 | 2024-04-26 | 交通运输部天津水运工程科学研究所 | 基于深度学习的海岸线垃圾识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113628294B (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN114241422B (zh) | 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法 | |
CN108846314A (zh) | 一种基于深度学习的食材辨识系统和食材辨识方法 | |
CN109800817B (zh) | 基于融合语义神经网络的图像分类方法 | |
CN111768375B (zh) | 一种基于cwam的非对称gm多模态融合显著性检测方法及系统 | |
CN113239916B (zh) | 一种表情识别及课堂状态评估方法、设备及介质 | |
CN114676777B (zh) | 一种基于孪生网络的自监督学习细粒度图像分类方法 | |
CN108389192A (zh) | 基于卷积神经网络的立体图像舒适度评价方法 | |
CN113761250A (zh) | 模型训练方法、商户分类方法及装置 | |
CN110674925A (zh) | 基于3d卷积神经网络的无参考vr视频质量评价方法 | |
CN110210492A (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN113239914B (zh) | 课堂学生表情识别及课堂状态评估方法、装置 | |
CN112667071A (zh) | 基于随机变分信息的手势识别方法、装置、设备及介质 | |
CN113283334B (zh) | 一种课堂专注度分析方法、装置和存储介质 | |
CN115830449A (zh) | 显式轮廓引导和空间变化上下文增强的遥感目标检测方法 | |
Liu et al. | Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching | |
CN115527159B (zh) | 一种基于跨模态间尺度注意聚合特征的计数系统及方法 | |
CN116994114A (zh) | 一种基于改进YOLOv8的轻量化家居小目标检测模型构建方法 | |
Yin Albert et al. | Identifying and monitoring students’ classroom learning behavior based on multisource information | |
WO2020104590A2 (en) | Aligning sequences by generating encoded representations of data items | |
Tang et al. | Using a selective ensemble support vector machine to fuse multimodal features for human action recognition | |
CN115063655A (zh) | 一种融合超列的类激活映射图生成方法 | |
CN109359542A (zh) | 基于神经网络的车辆损伤级别的确定方法及终端设备 | |
Li et al. | Blind image quality evaluation method based on cyclic generative adversarial network | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |