CN115223042A - 基于YOLOv5网络模型的目标识别方法及装置 - Google Patents
基于YOLOv5网络模型的目标识别方法及装置 Download PDFInfo
- Publication number
- CN115223042A CN115223042A CN202210785408.9A CN202210785408A CN115223042A CN 115223042 A CN115223042 A CN 115223042A CN 202210785408 A CN202210785408 A CN 202210785408A CN 115223042 A CN115223042 A CN 115223042A
- Authority
- CN
- China
- Prior art keywords
- feature map
- target
- preset
- target image
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 96
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims description 42
- 238000010586 diagram Methods 0.000 claims description 37
- 230000008447 perception Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 22
- 238000013138 pruning Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 19
- 238000013480 data collection Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 244000183278 Nephelium litchi Species 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 240000001008 Dimocarpus longan Species 0.000 description 1
- 235000000235 Euphoria longan Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv5网络模型的目标识别方法及装置,其中所述方法包括:获取待识别的目标图像并输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果。本发明提供的一种基于YOLOv5网络模型的目标识别方法,基于GhostNet为主干网络的同时引入了CA注意力机制,可以减少网络模型的计算开销,使目标检测模型的网络结构更为轻量化,且能够提高对个体较小的待测目标以及大面积团簇重叠的多目标识别精度。
Description
技术领域
本发明涉及计算机视觉和深度学习技术领域,特别是涉及一种基于YOLOv5网络模型的目标识别方法及装置。
背景技术
近年来,基于深度学习的目标检测方法,直接通过深层卷积网络结构自动学习图像的高阶特征而不需要手动设计特征,在提升对象检测任务的精度的同时还提高了检测效率。这类基于深度学习的目标检测方法一般分为基于候选区域的方法和基于回归的方法。其中基于候选区域的方法主要包括Fast R-CNN、Faster R-CNN和R-CNN,这类方法虽然准确,但计算成本很高,检测速度慢;而基于回归的方法主要包括YOLO和SSD,这类方法具有较好的检测速度和精度,因而得到了广泛的应用。
YOLOv5算法是一种检测精度高、速度快的检测算法,在开源数据集上有良好的效果。但是在果园荔枝果实数量检测等遮挡目标尤其是小目标检测等场景下存在检测精度不够的问题,现有YOLOv5的网络结构大多采用CSPDarknet53作为主干网络,对图片进行特征提取,其中还包含CBS结构以及C3结构,无法避免因为大量卷积操作造成神经网络的计算开销大的问题。
发明内容
本申请提供了一种基于YOLOv5网络模型的目标识别方法及装置,用于轻量化目标检测模型的同时提高小目标物体检测的精度。
第一方面,本申请提供了一种基于YOLOv5网络模型的目标识别方法,包括:获取待识别的目标图像;
将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果;其中,所述YOLOv5算法网络模型中的主干网络在N个预设位置处的Ghost botteneck层后引入CA注意力机制,N为大于等于4的正整数。
GhostNet是针对轻量级网络进行的研究,主要用于解决大量卷积操作造成神经网络的计算开销大的问题。在初始神经网络模型中引入GhostNet作为主干网络取代原先YOLOv5模型的主干网络,提高检测速度。同时,对基于GhostNet的主干网络进一步进行优化,引入CA注意力机制。一方面CA注意力机制简单灵活,几乎不会造成计算开销,可以轻量化网络模型;另一方面,CA注意力机制还能捕获方向感知和位置感知的信息,使模型可以更加精准的定位和识别待测目标,提高目标检测精度。通过本申请提供的一种目标模型构建方法对现有YOLOv5目标检测模型进行训练优化,可以使目标检测模型的网络结构更为轻量化,且能够提高对个体较小的待测目标以及大面积团簇重叠的多目标识别精度。
在一种实现方式中,所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作,具体包括:
对所述主干网络中每一Ghost botteneck层的输入目标图像执行缩略预设倍数卷积通道的卷积操作,生成第一特征图;
对所述第一特征图进行卷积操作,生成每一所述Ghost botteneck层对应的目标图像特征图。这样,相较于直接根据样本图像的尺寸进行卷积操作,先采用预设个数的卷积核生成一部分特征图,再基于生成的特征图进行卷积操作生成另一部分特征图从而完成对整个样本图像的卷积操作,可以减少卷积核的使用数量,降低计算开销,实现网络模型的轻量化。
在一种实现方式中,所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作,具体为:
对引入CA注意力机制的每个所述Ghost botteneck层执行注意力操作;其中,所述注意力操作包括:使用两个预设尺寸的池化核对Ghostbotteneck层对应的目标图像特征图每个通道的水平坐标和垂直坐标进行编码,生成水平方向感知特征图和垂直方向感知特征图;将所述水平方向感知特征图和所述垂直方向感知特征图进行拼接,生成第一特征图;根据预设公式获取所述第一特征图在水平方向和垂直方向的注意力权重,生成注意力权重特征图。
在一种实现方式中,所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作后,还包括:
选取所述主干网络中若干个预设位置处的Ghost botteneck层输出四个预设尺寸的目标图像特征图;
将所述四个预设尺寸的目标图像特征图进行特征融合,输出对应四个预设尺寸的融合特征图,
对所述四个预设尺寸的融合特征图执行剪枝操作。
在一种实现方式中,所述对所述四个预设尺寸的融合特征图执行剪枝操作,具体包括:
将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果;
引入深度可分离卷积对第四预设尺寸的融合特征图进行目标位置检测。这样,在特征融合的过程中引入深度可分离卷积,解除普通卷积核个数和步长的限制,代替了池化操作的作用,在节省内存消耗的同时可以进一步提高模型的检测精度。
在一种实现方式中,所述检测头为三分支检测头,具体为:
第一分支用于检测目标框的类别;
第二分支用于检测目标框是否为前景或背景;
第三分支用于检测目标框的坐标信息。
在一种实现方式中,所述将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果,具体包括:
对每个所述预设尺寸的融合特征图进行降维,生成统一通道数的对应预设尺寸的第一分支特征图;
对每个所述预设尺寸的融合特征图对应的所述第一分支特征图进行卷积操作,生成对应预设尺寸的第二分支特征图和第三分支特征图;
将每个预设尺寸的融合特征图对应的第一分支特征图、第二特征图和第三特征图进行合并,生成第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图;
对所述第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图进行目标位置检测,生成三个预设尺度检测特征图内的目标识别结果。
第二方面,本申请还提供一种基于YOLOv5网络模型的目标识别装置,包括获取模块和识别模块,具体为:
所述获取模块用于获取待识别的目标图像;
所述识别模块用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果;其中,所述YOLOv5算法网络模型中的主干网络在N个预设位置处的Ghost botteneck层后引入CA注意力机制,N为大于等于4的正整数。
在一种实现方式中,所述识别模块用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作,具体包括:
对所述主干网络中每一Ghost botteneck层的输入目标图像执行缩略预设倍数卷积通道的卷积操作,生成第一特征图;
对所述第一特征图进行卷积操作,生成每一所述Ghost botteneck层对应的目标图像特征图。
在一种实现方式中,所述识别模块用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作,具体为:
对引入CA注意力机制的每个所述Ghost botteneck层执行注意力操作;其中,所述注意力操作包括:使用两个预设尺寸的池化核对Ghostbotteneck层对应的目标图像特征图每个通道的水平坐标和垂直坐标进行编码,生成水平方向感知特征图和垂直方向感知特征图;将所述水平方向感知特征图和所述垂直方向感知特征图进行拼接,生成第一特征图;根据预设公式获取所述第一特征图在水平方向和垂直方向的注意力权重,生成注意力权重特征图。
在一种实现方式中,所述识别模块用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作后,还包括:
选取所述主干网络中若干个预设位置处的Ghost botteneck层输出四个预设尺寸的目标图像特征图;
将所述四个预设尺寸的目标图像特征图进行特征融合,输出对应四个预设尺寸的融合特征图,
对所述四个预设尺寸的融合特征图执行剪枝操作。
在一种实现方式中,所述对所述四个预设尺寸的融合特征图执行剪枝操作,具体包括:
将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果;
引入深度可分离卷积对第四预设尺寸的融合特征图进行目标位置检测。
在一种实现方式中,所述检测头为三分支检测头,具体为:
第一分支用于检测目标框的类别;
第二分支用于检测目标框是否为前景或背景;
第三分支用于检测目标框的坐标信息。
在一种实现方式中,所述将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果,具体包括:
对每个所述预设尺寸的融合特征图进行降维,生成统一通道数的对应预设尺寸的第一分支特征图;
对每个所述预设尺寸的融合特征图对应的所述第一分支特征图进行卷积操作,生成对应预设尺寸的第二分支特征图和第三分支特征图;
将每个预设尺寸的融合特征图对应的第一分支特征图、第二特征图和第三特征图进行合并,生成第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图;
对所述第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图进行目标位置检测,生成三个预设尺度检测特征图内的目标识别结果。
第三方面,本申请还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于YOLOv5网络模型的目标识别方法。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的基于YOLOv5网络模型的目标识别方法。
附图说明
图1是本发明实施例提供的一种基于YOLOv5网络模型的目标识别方法的流程示意图;
图2是本发明实施例提供的一种基于YOLOv5网络模型的目标识别装置的模块结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)YOLO:“YOLO”是一个对象检测算法的名字,YOLO将对象检测重新定义为一个回归问题。它将单个卷积神经网络(CNN)应用于整个图像,将图像分成网格,并预测每个网格的类概率和边界框。
(2)注意力机制(Attention Mechanism)作为机器学习中的数据处理方法,广泛应用在图像处理、图像及语音识别等不同类型的机器学习任务中。
(3)CA注意力机制(Coordinate Attention):CA注意力机制不仅能捕获跨通道的信息,还能捕获方向感知和位置感知的信息,使模型更加精准地定位和识别感兴趣的目标
实施例1
参见图1,图1是本发明实施例提供的一种基于YOLOv5网络模型的目标识别方法的流程示意图。本发明提供的一种基于YOLOv5网络模型的目标识别方法,包括步骤101-步骤102,具体如下:
步骤101:获取待识别的目标图像。
本实施例中,获取需要待识别的目标图像;其中目标图像中包含多个需要待识别位置的目标,尤其适用于估计荔枝、龙眼等小目标且多数量的待识别目标图片。
步骤102:将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果;其中,所述YOLOv5算法网络模型中的主干网络在N个预设位置处的Ghost botteneck层中引入CA注意力机制,N为大于等于4的正整数。
设输入的目标图像尺寸H×W×C,其中H表示目标图像的高、W表示目标图像的宽,C表示目标图像的通道数,标准卷积核为K×K。现有技术中采用CSPDarknet53等作为主干网络,直接采用标准卷积核进行计算,则计算量为K×K×C×N×H′×W′,其中N是输出特征图的通道数,H′是输出特征图的高,W′是输出特征图的宽。而一般C和N的值是很大的,因此无法避免因为大量卷积带来的计算开销大的问题。而本实施例中基于GhostNet为主干网络对待识别的目标图像执行卷积操作,对输入的目标图像执行缩略预设倍数卷积通道的卷积操作,生成第一特征图;
第一特征图进行卷积操作,对应的目标图像特征图。具体的,先缩略倍数,即使用较少的卷积核生成第一部分的特征图,如,假设输入的目标图像的通道数为64,则缩小2倍的卷积通道数,先采用32个卷积核生成第一部分的特征图,从而减少一半的计算量。进一步的,对生成的第一部分的特征图进行卷积操作,生成原来相同通道数的输出特
征图。本实施例中基于GhostNet执行卷积操作的计算量为:K×K×C×M×H′×W′+K′×K′×(N-M)×H′×W′。其中,S为第一次卷积操作通道的缩略倍数。本申请的卷积操作相较于普通卷积可以在理论上可以提高检测速度,加速比rs可用以下公式表示:
将普通卷积替换成本申请中的卷积执行方法在缩减计算开销的同时可以在一定程度上提升网络检测的速度,第一次卷积通道数的缩小倍数越大,模型理论上加速比越高。
在目标检测算法中,通过引入注意力机制,使得模型关注重要特征,进而提高模型的检测精度。但是大多数注意力机制所带来的额外计算开销是轻量级网络所负担不起的,在轻量级网络中,注意力机制的应用受到了一定的限制。区别现有技术中采用SE注意力机制,为了进一步减少计算开销,本实施例中还在GhostNet中的第5、6、11、12、13、15和17层的Ghost bottleneck后加入了CA注意力机制。对引入CA注意力机制的每个所述Ghostbotteneck层执行注意力操作。具体的,对Ghost botteneck层输出的目标特征图像执行对象。第一步是坐标信息的嵌入:使用两个预设大小的池化核对目标特征图的水平方向和垂直方向分别进行全局平均池化,生成在宽度和高度,即水平方向和垂直方向的两个特征图。第二步是坐标信息特征图的生成:将两个方向的特征图进行拼接,并输入至1×1的卷积模块,对拼接的特征图降维至原来的C/r,其中,C为通道数,r为降维后的通道数。将降维后的特征图输入至Sigmoid激活函数,生成1×(W+H)×C/r的第一特征图。将第一特征图按照原来的高度和宽度进行卷积核为1×1的卷积,分别得到两个与初始目标特征图通道数一样的张量,分别为特征图在宽度方向的注意力权重gw和在高度方向的注意力权重gh。最后在原始的目标特征图上通过乘法加权计算,将得到最终在宽度和高度方向上带有注意力权重的特征图,即注意力权重特征图。
本实施例中,在执行注意力操作后还包括选取所述主干网络中若干个预设位置处的Ghost botteneck层输出四个预设尺寸的目标图像特征图。具体的,本实施例中选取主干网络中第5、7、13、和18层输出四个预设尺寸的目标图像特征图。各特征图宽高大小分别为160×160、80×80、40×40和20×20。本实施例中,具体引入CA注意力机制的层次与输出特征图的层次并不做限定,根据方案需求自行调整。本实施例中,采用FPN网络对输出的四个目标图像特征图进行特征融合。FRN网络包含一个自底向上的线路、一个自顶向下的线路和一个横向连接。其中,自底向上的线路就是神经网络普通的前向传播过程;自顶向下的线路是将更抽象、语义更强的高层特征如进行上采样;横向连接则是将上采样的结果和自底向上生成的特征图进行融合,采用1×1的卷积核进行连接。由于本实施例中采用的FPN网络为现有技术中较为常用的特征融合方法,且并未做改进,因此不对该特征融合过程进行详细描述。本实施例中,经过FPN网络进行特征融合后输出四个对应尺寸的融合特征用于负责不同尺寸的目标检测。为了避免网络过于冗余,对输出的四个融合特征图进行剪枝操作,即不将60×160尺寸的融合特征图输入至检测头进行目标位置检测,直接在PANet网络中进行上采样,保留20×20、40×40和80×80三个尺寸的融合特征图的检测输出。在PANet网络中增加160×160特征层负责检测小目标的同时,网络数量必然会相应增加。作为本发明实施例的一个优选方案,为降低网络运算数量,在PANet网络结构中引入深度可分离卷积(Depthwise separable convolution)代替原网络Downsample中普通卷积进行下采样,实现自上而下的特征信息交互,有效减少网络计算量和参数;同时深度可分离卷积可由自身的1×1Filter数量任意决定输出通道数量,解除了普通卷积核个数和步长的限制,代替了池化操作的作用,在节省内存消耗的同时也提高了模型精度。
本发明实施例中使用的YOLO检测头为三分支检测头,其中,第一分支用于检测目标框的类别;第二分支用于检测目标框是否为前景或背景;第三分支用于检测目标框的坐标信息。本实施例中,将20×20×1024尺寸的融合特征图、40×40×512尺寸的融合特征图和80×80×256尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下目标图像内的目标识别结果,具体包括:第一分支采用1×1卷积对三个融合特征图进行降维,将三个不同通道数的融合特征图统一至256通道。其中第二和第三分支为平行分支,第二分支和第三分支分别采用两个3×3卷积对第一分支输出第一分支特征图进行卷积操作,生成对应的第二分支特征图和第三分支特征图。将生成的第二分支特征图和第三分支特征图进行合并。经过检测头解耦后,最后输出特征图调整为80×80×6,40×40×6和20×20×6三个尺寸的检测特征图,并输入至Detect层进行目标检测,生成三个检测特征图内的目标识别结果。
本发明实施例中,还提供了一种基于目标识别设备的数据收集的设备,包括处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序,处理器执行计算机程序时实现上述的基于目标识别设备的数据收集方法。
本发明实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的基于目标识别设备的数据收集。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在基于目标识别设备的数据收集的设备中的执行过程。
所述基于目标识别设备的数据收集的设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于目标识别设备的数据收集的设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是基于目标识别设备的数据收集的设备的示例,并不构成对基于目标识别设备的数据收集的设备的限定,可以包括比所述部件更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于目标识别设备的数据收集的设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于目标识别设备的数据收集的设备的控制中心,利用各种接口和线路连接整个所述基于目标识别设备的数据收集的设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于目标识别设备的数据收集的设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于目标识别设备的数据收集的设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例提供一种基于YOLOv5网络模型的目标识别方法,在初始神经网络模型中引入GhostNet作为主干网络取代原先YOLOv5模型的主干网络。GhostNet是针对轻量级网络进行的研究,主要用于解决大量卷积,在缩减计算开销的同时还可以提高检测速度。同时,对基于GhostNet的主干网络进一步进行优化,引入CA注意力机制。一方面CA注意力机制简单灵活,几乎不会造成计算开销,可以轻量化网络模型;另一方面,CA注意力机制还能捕获方向感知和位置感知的信息,使模型可以更加精准的定位和识别待测目标,提高目标检测精度。通过本申请提供的一种基于YOLOv5网络模型的目标识别方法,可以减少网络模型的计算开销,使目标检测模型的网络结构更为轻量化,且能够提高对个体较小的待测目标以及大面积团簇重叠的多目标识别精度。
实施例2
参见图2,图2是本发明实施例提供的一种基于YOLOv5网络模型的目标识别装置的模块结构图。本发明实施例还提供一种基于YOLOv5网络模型的目标识别装置,包括获取模块201和识别模块202,具体为:
获取模块201用于获取待识别的目标图像;
识别模块202用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果;其中,所述YOLOv5算法网络模型中的主干网络在N个预设位置处的Ghost botteneck层后引入CA注意力机制,N为大于等于4的正整数。
本发明实施例中,识别模块202用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作,具体包括:对所述主干网络中每一Ghost botteneck层的输入目标图像执行缩略预设倍数卷积通道的卷积操作,生成第一特征图;对所述第一特征图进行卷积操作,生成每一所述Ghost botteneck层对应的目标图像特征图。
本发明实施例中,识别模块202用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作,具体为:对引入CA注意力机制的每个所述Ghost botteneck层执行注意力操作;其中,所述注意力操作包括:使用两个预设尺寸的池化核对Ghost botteneck层对应的目标图像特征图每个通道的水平坐标和垂直坐标进行编码,生成水平方向感知特征图和垂直方向感知特征图;将所述水平方向感知特征图和所述垂直方向感知特征图进行拼接,生成第一特征图;根据预设公式获取所述第一特征图在水平方向和垂直方向的注意力权重,生成注意力权重特征图。
本发明实施例中,识别模块202用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作后,还包括:选取所述主干网络中若干个预设位置处的Ghost botteneck层输出四个预设尺寸的目标图像特征图;将所述四个预设尺寸的目标图像特征图进行特征融合,输出对应四个预设尺寸的融合特征图,对所述四个预设尺寸的融合特征图执行剪枝操作。
本发明实施例中,所述对所述四个预设尺寸的融合特征图执行剪枝操作,具体包括:将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果;引入深度可分离卷积对第四预设尺寸的融合特征图进行目标位置检测。
本发明实施例中,所述检测头为三分支检测头,具体为:第一分支用于检测目标框的类别;第二分支用于检测目标框是否为前景或背景;第三分支用于检测目标框的坐标信息。
本发明实施例中,所述将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果,具体包括:对每个所述预设尺寸的融合特征图进行降维,生成统一通道数的对应预设尺寸的第一分支特征图;对每个所述预设尺寸的融合特征图对应的所述第一分支特征图进行卷积操作,生成对应预设尺寸的第二分支特征图和第三分支特征图;将每个预设尺寸的融合特征图对应的第一分支特征图、第二特征图和第三特征图进行合并,生成第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图;对所述第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图进行目标位置检测,生成三个预设尺度检测特征图内的目标识别结果。
所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不在赘述。
本发明实施例提供一种基于YOLOv5网络模型的目标识别装置,在初始神经网络模型中引入GhostNet作为主干网络取代原先YOLOv5模型的主干网络。GhostNet是针对轻量级网络进行的研究,主要用于解决大量卷积,在缩减计算开销的同时还可以提高检测速度。同时,对基于GhostNet的主干网络进一步进行优化,引入CA注意力机制。一方面CA注意力机制简单灵活,几乎不会造成计算开销,可以轻量化网络模型;另一方面,CA注意力机制还能捕获方向感知和位置感知的信息,使模型可以更加精准的定位和识别待测目标,提高目标检测精度。通过本申请提供的一种基于YOLOv5网络模型的目标识别装置可以使目标检测模型的网络结构更为轻量化,且能够提高对个体较小的待测目标以及大面积团簇重叠的多目标识别精度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (10)
1.一种基于YOLOv5网络模型的目标识别方法,其特征在于,包括:
获取待识别的目标图像;
将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果;其中,所述YOLOv5算法网络模型中的主干网络在N个预设位置处的Ghost botteneck层后引入CA注意力机制,N为大于等于4的正整数。
2.如权利要求1所述的一种基于YOLOv5网络模型的目标识别方法,其特征在于,所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作,具体包括:
对所述主干网络中每一Ghost botteneck层的输入目标图像执行缩略预设倍数卷积通道的卷积操作,生成第一特征图;
对所述第一特征图进行卷积操作,生成每一所述Ghost botteneck层对应的目标图像特征图。
3.如权利要求1所述的一种基于YOLOv5网络模型的目标识别方法,其特征在于,所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作,具体为:
对引入CA注意力机制的每个所述Ghost botteneck层执行注意力操作;其中,所述注意力操作包括:使用两个预设尺寸的池化核对Ghost botteneck层对应的目标图像特征图每个通道的水平坐标和垂直坐标进行编码,生成水平方向感知特征图和垂直方向感知特征图;将所述水平方向感知特征图和所述垂直方向感知特征图进行拼接,生成第一特征图;根据预设公式获取所述第一特征图在水平方向和垂直方向的注意力权重,生成注意力权重特征图。
4.如权利要求1所述的一种基于YOLOv5网络模型的目标识别方法,其特征在于,所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行注意力操作后,还包括:
选取所述主干网络中若干个预设位置处的Ghost botteneck层输出四个预设尺寸的目标图像特征图;
将所述四个预设尺寸的目标图像特征图进行特征融合,输出对应四个预设尺寸的融合特征图,
对所述四个预设尺寸的融合特征图执行剪枝操作。
5.如权利要求4所述的一种基于YOLOv5网络模型的目标识别方法,其特征在于,所述对所述四个预设尺寸的融合特征图执行剪枝操作,具体包括:
将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果;
引入深度可分离卷积对第四预设尺寸的融合特征图进行目标位置检测。
6.如权利要求5所述的一种基于YOLOv5网络模型的目标识别方法,其特征在于,所述检测头为三分支检测头,具体为:
第一分支用于检测目标框的类别;
第二分支用于检测目标框是否为前景或背景;
第三分支用于检测目标框的坐标信息。
7.如权利要求5所述的基于YOLOv5网络模型的目标识别方法,其特征在于,所述将第一预设尺寸的融合特征图、第二预设尺寸的融合特征图和第三预设尺寸的融合特征图分别输入至检测头进行目标位置检测,生成三个预设尺度下所述目标图像内的目标识别结果,具体包括:
对每个所述预设尺寸的融合特征图进行降维,生成统一通道数的对应预设尺寸的第一分支特征图;
对每个所述预设尺寸的融合特征图对应的所述第一分支特征图进行卷积操作,生成对应预设尺寸的第二分支特征图和第三分支特征图;
将每个预设尺寸的融合特征图对应的第一分支特征图、第二特征图和第三特征图进行合并,生成第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图;
对所述第一预设尺寸检测特征图、第二预设尺寸检测特征图和第三预设尺寸检测特征图进行目标位置检测,生成三个预设尺度检测特征图内的目标识别结果。
8.一种基于YOLOv5网络模型的目标识别装置,其特征在于,包括:获取模块和识别模块,具体为:
所述获取模块用于获取待识别的目标图像;
所述识别模块用于将所述目标图像输入至YOLOv5算法网络模型中,以使所述YOLOv5算法网络模型基于GhostNet为主干网络对所述目标图像执行卷积操作和执行注意力操作,识别所述目标图像内所有待识别目标的位置,生成所述目标图像的目标识别结果;其中,所述YOLOv5算法网络模型中的主干网络在N个预设位置处的Ghost botteneck层后引入CA注意力机制,N为大于等于4的正整数。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于YOLOv5网络模型的目标识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于YOLOv5网络模型的目标识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210785408.9A CN115223042A (zh) | 2022-07-05 | 2022-07-05 | 基于YOLOv5网络模型的目标识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210785408.9A CN115223042A (zh) | 2022-07-05 | 2022-07-05 | 基于YOLOv5网络模型的目标识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115223042A true CN115223042A (zh) | 2022-10-21 |
Family
ID=83610527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210785408.9A Withdrawn CN115223042A (zh) | 2022-07-05 | 2022-07-05 | 基于YOLOv5网络模型的目标识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115223042A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091781A (zh) * | 2022-11-18 | 2023-05-09 | 中国人民解放军军事科学院系统工程研究院 | 一种用于图像识别的数据处理方法及装置 |
CN116229419A (zh) * | 2023-02-21 | 2023-06-06 | 中国人民解放军军事科学院系统工程研究院 | 一种行人检测方法及装置 |
-
2022
- 2022-07-05 CN CN202210785408.9A patent/CN115223042A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091781A (zh) * | 2022-11-18 | 2023-05-09 | 中国人民解放军军事科学院系统工程研究院 | 一种用于图像识别的数据处理方法及装置 |
CN116229419A (zh) * | 2023-02-21 | 2023-06-06 | 中国人民解放军军事科学院系统工程研究院 | 一种行人检测方法及装置 |
CN116229419B (zh) * | 2023-02-21 | 2024-04-30 | 中国人民解放军军事科学院系统工程研究院 | 一种行人检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740534B (zh) | 图像处理方法、装置及处理设备 | |
Pestana et al. | A full featured configurable accelerator for object detection with YOLO | |
CN111144242B (zh) | 一种三维目标检测方法、装置及终端 | |
CN109086722B (zh) | 混合车牌识别方法、装置、电子设备 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN115223042A (zh) | 基于YOLOv5网络模型的目标识别方法及装置 | |
JP7559063B2 (ja) | フェイスパーシング方法および関連デバイス | |
JP2020187736A (ja) | 地域的特徴を有する分類器学習のための学習データ生成方法およびそのシステム | |
CN111950723A (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
KR20180048930A (ko) | 분류를 위한 강제된 희소성 | |
CN112116001A (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
JP2021507345A (ja) | 畳み込みニューラル・ネットワークの完全なカーネルを近似するためのスパース・カーネルの融合 | |
CN112149694A (zh) | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN114783021A (zh) | 一种口罩佩戴智能检测方法、装置、设备及介质 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN116071300A (zh) | 一种基于上下文特征融合的细胞核分割方法及相关设备 | |
CN111967478B (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
CN117884379A (zh) | 一种矿石分选方法及系统 | |
US20240233325A9 (en) | Method for classifying images and electronic device | |
CN112749576A (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
CN113807407B (zh) | 目标检测模型训练方法、模型性能检测方法及装置 | |
CN113139617B (zh) | 一种输电线路自主定位方法、装置及终端设备 | |
CN108229672A (zh) | 一种深度神经网络及其处理方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221021 |