CN115049851B - 基于YOLOv5网络的目标检测方法、装置和设备终端 - Google Patents

基于YOLOv5网络的目标检测方法、装置和设备终端 Download PDF

Info

Publication number
CN115049851B
CN115049851B CN202210971536.2A CN202210971536A CN115049851B CN 115049851 B CN115049851 B CN 115049851B CN 202210971536 A CN202210971536 A CN 202210971536A CN 115049851 B CN115049851 B CN 115049851B
Authority
CN
China
Prior art keywords
attention
loss function
feature map
target detection
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210971536.2A
Other languages
English (en)
Other versions
CN115049851A (zh
Inventor
陈磊
周有喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Core Computing Integrated Shenzhen Technology Co ltd
Original Assignee
Shenzhen Aishen Yingtong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aishen Yingtong Information Technology Co Ltd filed Critical Shenzhen Aishen Yingtong Information Technology Co Ltd
Priority to CN202210971536.2A priority Critical patent/CN115049851B/zh
Publication of CN115049851A publication Critical patent/CN115049851A/zh
Application granted granted Critical
Publication of CN115049851B publication Critical patent/CN115049851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了目标检测方法、装置、设备终端和可读存储介质,该目标检测方法包括:获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,基于YOLOv5网络,对训练集中的每张训练图片进行目标检测以生成对应的第一预测值;根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成第一目标检测模型;基于第一目标检测模型,对第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值;根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成第二目标检测模型,提高了对应模型的目标检测准确率。

Description

基于YOLOv5网络的目标检测方法、装置和设备终端
技术领域
本申请涉及图像处理领域,具体涉及一种基于YOLOv5网络的目标检测方法、装置、设备终端和可读存储介质。
背景技术
随着深度卷积神经网络在计算机视觉领域的深入应用,以YOLO算法为代表的实时目标检测模型在工业领域以及实际应用场景中发挥了很好的检测效果。
YOLOv5-Lite模型在前代YOLOv4的基础上进行了改进,有着更快的训练速度,并且YOLOv5-Lite有着更小的模型尺寸,利于模型的快速部署。
其中,训练集中通常包括简单样本和困难样本,在实际应用中,交叉熵损失函数是目前主流的目标检测函数之义,但是该损失函数对于困难样本的训练效果不佳,即存在无法解决训练集中复杂度较高的样本(即通常所说的困难样本)的训练问题的缺点,进而使得训练后生成的检测模型的目标检测准确率总体不高。
发明内容
鉴于此,本申请提供一种基于YOLOv5网络的目标检测方法、装置、设备终端和可读存储介质,该目标检测方法能够解决训练集中复杂度较高的样本的训练问题,从整体上提高训练后生成的检测模型的目标检测准确率。
该目标检测方法包括:
获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,第一样本集的复杂度低于第二样本集的复杂度;
基于YOLOv5网络,对训练集中的每张训练图片进行目标检测以生成对应的第一预测值;
根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成对应的第一目标检测模型,第一预设损失函数为交叉熵损失函数;
基于第一目标检测模型,对第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值;
根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型。
在一个实施例中,第二预设损失函数采用以下公式:
Figure 112813DEST_PATH_IMAGE001
其中,Loss表示所述第二预设损失函数,yi表示对应样本i的标签值,Pi表示对应样本i的预测值,
Figure 711285DEST_PATH_IMAGE002
表示调整因子。
在一个实施例中,目标检测方法还包括:
获取第二图片输入数据作为测试集;
根据第二目标检测模型对测试集进行测试,输出对应的目标检测结果。
在一个实施例中,YOLOv5网络包括依次连接的输入端、特征提取单元和预测输出单元,特征提取单元包括依次连接的backbone单元、Neck单元和注意力单元,backbone单元与输入端连接,Neck单元的输出端与注意力单元连接;
基于YOLOv5网络,对训练集中的每张训练图片进行训练以生成对应的第一预测值的步骤包括:
基于backbone单元对训练集中每张训练图片进行切片操作以及卷积操作,以获得初始特征图;
基于Neck单元对初始特征图进行二次特征提取,以得到不同尺度的中间特征图;
根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图;
将各个中间特征图以及各个中间特征图各自对应的注意力提取特征图分别进行特征合并,以得到各个目标特征图;
通过预测输出单元对各个目标特征图分别进行检测以生成对应的第一预测值。
在一个实施例中,注意力单元包括第一注意力子单元和第二注意力子单元,中间特征图的尺度为三种,根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图的步骤包括:
通过第一注意力子单元对第一尺度的中间特征图进行特征提取,以得到对应的第一注意力提取特征图;
通过第二注意力子单元对第二尺度和第三尺度的中间特征图分别进行特征提取,以得到第二注意力提取特征图和第三注意力提取特征图,第一尺度、第二尺度和第三尺度依次减小。
在一个实施例中,注意力单元包括第一注意力子单元、第二注意力子单元和第三注意力子单元,中间特征图的尺度为三种,根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图的步骤包括:
通过第一注意力子单元对第一尺度的中间特征图进行特征提取,以得到对应的第一注意力提取特征图;
通过第二注意力子单元对第二尺度的中间特征图进行特征提取,以得到第二注意力提取特征图;
通过第三注意力子单元对第三尺度的中间特征图进行特征提取,以得到第三注意力提取特征图,第一尺度、第二尺度和第三尺度依次减小。
在一个实施例中,第一注意力子单元为压缩和激励模块,第二注意力子单元为卷积块注意力模块。
此外,还提供一种基于YOLOv5网络的目标检测装置,包括:
训练集建立单元,用于获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,第一样本集的复杂度低于第二样本集的复杂度;
第一预测值生成单元,用于基于YOLOv5网络,对训练集中的每张训练图片进行训练以生成对应的第一预测值;
第一模型生成单元,用于根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成对应的第一目标检测模型,第一预设损失函数为交叉熵损失函数;
第二预测值生成单元,用于基于第一目标检测模型,对第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值;
第二模型生成单元,用于根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型。
此外,还提供一种设备终端,设备终端包括处理器和存储器,存储器用于存储计算机程序,处理器运行计算机程序以使设备终端执行上述目标检测方法。
此外,还提供一种可读存储介质,可读存储介质存储有计算机程序,计算机程序在被处理器执行时实施上述目标检测方法。
上述基于YOLOv5网络的目标检测方法,获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,第一样本集的复杂度低于第二样本集的复杂度;基于YOLOv5网络,对训练集中的每张训练图片进行训练以生成对应的第一预测值;根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成对应的第一目标检测模型;基于第一目标检测模型,对第二样本集中的每张训练图片进行训练以生成对应的第二预测值;根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型,基于YOLOv5网络以及第一预设损失函数对训练集中的每张训练图片进行训练以生成第一目标检测模型,然后在第一目标检测模型的基础上,针对第二样本集中的每张训练图片进行训练,并结合第二预设损失函数生成对应的第二目标检测模型,在不改变第一预设损失函数的训练效果上,通过改进的第二预设损失函数对复杂度较高的第二样本集进行训练直至第二目标检测模型收敛,克服了第一预设损失函对于训练集中复杂度较高的样本(即通常所说的困难样本)的训练效果不佳的缺点,从整体上提高了对应模型的目标检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于YOLOv5网络的目标检测方法的流程示意图;
图2是本申请实施例提供的另一种基于YOLOv5网络的目标检测方法的流程示意图;
图3是本申请实施例提供的一种特征提取单元的结构示意图;
图4是本申请实施例提供的一种得到第一预测值的方法流程示意图;
图5是本申请实施例提供的一种得到各个中间特征图各自对应的注意力提取特征图的方法流程示意图;
图6是本申请实施例提供的另一种得到各个中间特征图各自对应的注意力提取特征图的方法流程示意图;
图7是本申请实施例提供的一种基于YOLOv5网络的目标检测装置的结构框图。
具体实施方式
下面结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例。在不冲突的情况下,下述各个实施例及其技术特征可以相互组合。
如图1所示,提供一种基于YOLOv5网络的目标检测方法,该目标检测方法包括:
步骤S110,获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,第一样本集的复杂度低于第二样本集的复杂度。
其中,训练集中通常包含复杂度不同的样本,通常包括简单样本集和困难样本集,这里第一样本集可理解为简单样本集,第二样本集可理解为困难样本集,即第一样本集的复杂度低于第二样本集的复杂度。
步骤S120,基于YOLOv5网络,对训练集中的每张训练图片进行目标检测以生成对应的第一预测值。
步骤S130,根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成对应的第一目标检测模型,第一预设损失函数为交叉熵损失函数。
其中,第一预设损失函数为交叉熵损失函数,交叉熵损失函数通常对于复杂度较低的第一样本集中的样本的训练效果较好,而对于复杂度较高的第二样本集中的样本的训练效果较差,因而需要进行后续步骤。
步骤S140,基于第一目标检测模型,对第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值。
其中,利用第一预设损失函数训练上述训练集得到第一目标检测模型之后,还需要进一步利用第二预设损失函数对复杂度较高的第二样本集进行目标检测训练,即进入步骤S150。
步骤S150,根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型。
其中,在步骤S140的基础上,基于第一目标检测模型,对第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值,然后对其中的第一预设损失函数进行改进得到第二预设损失函数,然后根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型。
上述基于YOLOv5网络的目标检测方法,通过获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,第一样本集的复杂度低于第二样本集的复杂度;基于YOLOv5网络,对训练集中的每张训练图片进行训练以生成对应的第一预测值;根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成对应的第一目标检测模型;基于第一目标检测模型,对第二样本集中的每张训练图片进行训练以生成对应的第二预测值;根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型,基于YOLOv5网络以及第一预设损失函数对训练集中的每张训练图片进行训练以生成第一目标检测模型,然后在第一目标检测模型的基础上,针对第二样本集中的每张训练图片进行训练,并结合第二预设损失函数生成对应的第二目标检测模型,在不改变第一预设损失函数的训练效果上,通过改进的第二预设损失函数对复杂度较高的第二样本集进行训练直至第二目标检测模型收敛,克服了第一预设损失函对于训练集中复杂度较高的样本(即通常所说的困难样本)的训练效果不佳的缺点,从整体上提高了对应模型的目标检测准确率。
在一个实施例中,第二预设损失函数采用以下公式:
Figure 260078DEST_PATH_IMAGE003
其中,Loss表示第二预设损失函数,yi表示对应样本i的标签值,Pi表示对应样本i的预测值,
Figure 613699DEST_PATH_IMAGE004
表示调整因子。
本实施例中,第二预设损失函数Loss中包含了两部分,第一部分-yilog(Pi)为交叉熵损失函数,第二部分(1-Pi1+γ是通过对焦点损失函数(focal loss)基于泰勒函数展开而得到,即通过将焦点损失函数进行泰勒展开,取对应泰勒展开式中第一项(1-Pi1+γ即可得到,这是因为,泰勒展开式中第一项往往为影响最大,即权重最大的部分,因此,为将焦点损失函数的优点进行利用,则直接取焦点损失函数对应泰勒展开式中第一项(1-Pi1+γ即可。
显然,通过上述第二易预设损失函数,在综合利用交叉熵损失函数的基础上,进一步将焦点损失函数focal loss引入,进而实现对复杂度较高的第二样本集(即困难样本集)进行训练,克服了第一预设损失函对于训练集中复杂度较高的样本(即通常所说的困难样本)的训练效果不佳的缺点,从整体上提高了对应模型的目标检测准确率。
在一个实施例中,如图2所示,目标检测方法还包括:
步骤S160,获取第二图片输入数据作为测试集。
步骤S170,根据第二目标检测模型对测试集进行测试,输出对应的目标检测结果。
在一个实施例中,如图3所示,YOLOv5网络包括依次连接的输入端11、特征提取单元12和预测输出单元13,特征提取单元12包括依次连接的backbone单元、Neck单元和注意力单元12a,backbone单元与输入端11连接,Neck单元的输出端与注意力单元12a连接。
其中,预测输出单元通常指YOLOv5网络中的head部分,
如图4所示,步骤S120包括:
S121,基于backbone单元对训练集中每张训练图片进行切片操作以及卷积操作,以获得初始特征图。
S122,基于Neck单元对初始特征图进行二次特征提取,以得到不同尺度的中间特征图。
S123,根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图。
其中,针对各个中间特征图的尺寸,采用对应合适的注意力子单元分别对各个中间特征图进行特征提取,即可得到各个中间特征图各自对应的注意力提取特征图。
在一个实施例中,得到三种不同尺度的中间特征图,此时,根据各个中间特征图的尺寸,可至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图,其中,一个注意力子单元用于对其中一个尺度的中间特征图进行特征提取,另一个注意力子单元用于分别对剩余两种尺度的中间特征图进行特征提取。
本实施例中,通过对各个不同尺度的中间特征特征图分别采取相应的注意力子单元进行特征提取,进而使得该目标检测模型在针对图片中各个尺寸的目标进行检测时,能够根据各个中间特征图的尺寸,通过各自对应的注意力子单元分别提取对应的特征信息,即对各种尺寸的目标能够分别针对性的进行特征提取和采集。
S124,将各个中间特征图以及各个中间特征图各自对应的注意力提取特征图分别进行特征合并,以得到各个目标特征图。
其中,这里将各个中间特征图以及各个中间特征图各自对应的注意力提取特征图分别进行特征合并,以得到各个目标特征图,一方面,注意力提取特征图就是在原中间特征图上提取了更多的信息,另一方面,又保留了原中间特征图,进而将两个特征图的信息合并,从而得到更多有用的特征信息,进一步从整体上提高了对各个尺寸的目标的检测准确度。
S125,通过预测输出单元对各个目标特征图分别进行检测以生成对应的第一预测值。
本实施例中,通过至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图,进而使得该目标检测模型在针对图片中各个尺寸的目标进行检测时,能够根据各个中间特征图的尺寸,通过各自对应的注意力子单元分别提取对应的特征信息,即对各种尺寸的目标能够分别针对性的进行特征提取和采集,同时,将各个中间特征图以及各个中间特征图各自对应的注意力提取特征图分别进行特征合并,以得到各个目标特征图,一方面,注意力提取特征图就是在原中间特征图上提取了更多的信息,另一方面,又保留了原中间特征图,进而将两个特征图的信息合并,从而得到更多有用的特征信息,进一步从整体上提高了模型的目标检测准确率。
在一个实施例中,注意力单元包括第一注意力子单元和第二注意力子单元,中间特征图的尺度为三种,如图5所示,步骤S123包括:
步骤S123a,通过第一注意力子单元对第一尺度的中间特征图进行特征提取,以得到对应的第一注意力提取特征图。
步骤S123b,通过第二注意力子单元对第二尺度和第三尺度的中间特征图分别进行特征提取,以得到第二注意力提取特征图和第三注意力提取特征图,第一尺度、第二尺度和第三尺度依次减小。
本实施例中,通过第一注意力子单元对尺度最大的中间特征图(即第一尺度的中间特征图)进行特征提取,然后对于尺度较小的第二尺度和第三尺度的中间特征图,则采用第二注意力子单元进行特征提取,这样一来能从尺度较小的中间特征图上提取到更多的特征信息,即能够根据各个中间特征图的尺寸,通过各自对应的注意力子单元分别提取对应的特征信息,从而实现对各种尺寸的目标能够分别针对性的进行特征提取和采集,进一步从整体上提高了模型的目标的检测准确率。
在一个实施例中,注意力单元包括第一注意力子单元、第二注意力子单元和第三注意力子单元,中间特征图的尺度为三种,如图6所示,步骤S123包括:
步骤S123c,通过第一注意力子单元对第一尺度的中间特征图进行特征提取,以得到对应的第一注意力提取特征图。
步骤S123d,通过第二注意力子单元对第二尺度的中间特征图进行特征提取,以得到第二注意力提取特征图。
步骤S123e,通过第三注意力子单元对第三尺度的中间特征图进行特征提取,以得到第三注意力提取特征图,第一尺度、第二尺度和第三尺度依次减小。
本实施例中,通过第一注意力子单元对尺度最大的中间特征图(即第一尺度的中间特征图)进行特征提取,然后对于尺度较小的第二尺度的中间特征图,则采用第二注意力子单元进行特征提取,对于尺度更小的第三尺度的中间特征图,则采用第三注意力子单元进行特征提取,这样一来,能进一步从尺度较小的中间特征图上提取到更多的特征信息,即能够进一步根据各个中间特征图的尺寸,通过各自对应的注意力子单元分别提取对应的特征信息,从而实现对各种尺寸的目标能够分别针对性的进行特征提取和采集,进一步从整体上提高了模型的目标的检测准确率。
在一个实施例中,第一注意力子单元为压缩和激励模块,第二注意力子单元为卷积块注意力模块。
在一个实施例中,第一注意力子单元为压缩和激励模块,第二注意力子单元为卷积块注意力模块。
其中,压缩和激励模块即为(Squeeze-and-Excitation,SE模块),卷积块注意力模块即为(Convolutional Block Attention Module,CBAM模块)。
此外,如图7所示,还提供一种基于YOLOv5网络的目标检测装置200,包括:
训练集生成单元210,获取第一图片输入数据作为训练集,训练集包括第一样本集和第二样本集,第一样本集的复杂度低于第二样本集的复杂度;
第一预测值生成单元220,用于基于YOLOv5网络,对训练集中的每张训练图片进行目标检测以生成对应的第一预测值;
第一模型生成单元230,用于根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第一预设损失函数收敛以生成对应的第一目标检测模型;
第二预测值生成单元240,用于基于第一目标检测模型,对第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值;
第二模型生成单元250,用于根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的第二目标检测模型。
此外,还提供一种设备终端,设备终端包括处理器和存储器,存储器用于存储计算机程序,处理器运行计算机程序以使设备终端执行上述目标检测方法,因此可以产生前述目标检测方法所具有的有益效果。
此外,还提供一种可读存储介质,可读存储介质存储有计算机程序,计算机程序在被处理器执行时实施上述目标检测方法,因此可以产生前述目标检测方法所具有的有益效果。
上述目标检测装置200中各个单元的划分仅用于举例说明,在其他实施例中,可将上述目标检测装置200按照需要划分为不同的单元,以完成上述目标检测装置200的全部或部分功能。关于的上述目标检测装置200具体限定可以参见上文中对于方法的限定,在此不再赘述。
即,以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,例如各实施例之间技术特征的相互结合,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
另外,对于特性相同或相似的结构元件,本申请可采用相同或者不相同的标号进行标识。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“例如”一词是用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何一个实施例不一定被解释为比其它实施例更加优选或更加具优势。为了使本领域任何技术人员能够实现和使用本申请,本申请给出了以上描述。在以上描述中,为了解释的目的而列出了各个细节。
应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实施例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

Claims (9)

1.一种基于YOLOv5网络的目标检测方法,其特征在于,包括:
获取第一图片输入数据作为训练集,所述训练集包括第一样本集和第二样本集,所述第一样本集的复杂度低于所述第二样本集的复杂度;
基于所述YOLOv5网络,对所述训练集中的每张训练图片进行训练以生成对应的第一预测值;
根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至所述第一预设损失函数收敛以生成对应的第一目标检测模型,所述第一预设损失函数为交叉熵损失函数;
基于所述第一目标检测模型,对所述第二样本集中的每张训练图片进行训练以生成对应的第二预测值;
根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至所述第二预设损失函数收敛以生成对应的第二目标检测模型;
所述第二预设损失函数采用以下公式:
Figure 603329DEST_PATH_IMAGE001
其中,Loss表示所述第二预设损失函数,yi表示对应样本i的标签值,Pi表示对应样本i的预测值,
Figure 848365DEST_PATH_IMAGE002
表示调整因子,所述第二预设损失函数Loss中包含两部分,第一部分-yilog(Pi)为交叉熵损失函数,第二部分(1-Pi1+γ是通过将焦点损失函数进行泰勒展开并取对应泰勒展开式中第一项(1-Pi1+γ即可得到。
2.根据权利要求1所述的方法,其特征在于,所述目标检测方法还包括:
获取第二图片输入数据作为测试集;
根据所述第二目标检测模型对所述测试集进行测试,输出对应的目标检测结果。
3.根据权利要求1所述的方法,其特征在于,所述YOLOv5网络包括依次连接的输入端、特征提取单元和预测输出单元,所述特征提取单元包括依次连接的backbone单元、Neck单元和注意力单元,所述backbone单元与所述输入端连接,所述Neck单元的输出端与所述注意力单元连接;
所述基于所述YOLOv5网络,对所述训练集中的每张训练图片进行训练以生成对应的第一预测值的步骤包括:
基于所述backbone单元对所述训练集中每张训练图片进行切片操作以及卷积操作,以获得初始特征图;
基于所述Neck单元对初始特征图进行二次特征提取,以得到不同尺度的中间特征图;
根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图;
将各个中间特征图以及各个中间特征图各自对应的注意力提取特征图分别进行特征合并,以得到各个目标特征图;
通过所述预测输出单元对各个目标特征图分别进行检测以生成对应的第一预测值。
4.根据权利要求3所述的方法,其特征在于,所述注意力单元包括第一注意力子单元和第二注意力子单元,所述中间特征图的尺度为三种,所述根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图的步骤包括:
通过所述第一注意力子单元对第一尺度的中间特征图进行特征提取,以得到对应的第一注意力提取特征图;
通过所述第二注意力子单元对第二尺度和第三尺度的中间特征图分别进行特征提取,以得到第二注意力提取特征图和第三注意力提取特征图,所述第一尺度、第二尺度和第三尺度依次减小。
5.根据权利要求3所述的方法,其特征在于,所述注意力单元包括第一注意力子单元、第二注意力子单元和第三注意力子单元,所述中间特征图的尺度为三种,所述根据各个中间特征图的尺寸,至少获取两个注意力子单元分别对各个中间特征图进行特征提取,以得到各个中间特征图各自对应的注意力提取特征图的步骤包括:
通过所述第一注意力子单元对第一尺度的中间特征图进行特征提取,以得到对应的第一注意力提取特征图;
通过所述第二注意力子单元对第二尺度的中间特征图进行特征提取,以得到第二注意力提取特征图;
通过所述第三注意力子单元对第三尺度的中间特征图进行特征提取,以得到第三注意力提取特征图,所述第一尺度、第二尺度和第三尺度依次减小。
6.根据权利要求4或5所述的方法,其特征在于,所述第一注意力子单元为压缩和激励模块,所述第二注意力子单元为卷积块注意力模块。
7.一种基于YOLOv5网络的目标检测装置,其特征在于,包括:
训练集建立单元,用于获取第一图片输入数据作为训练集,所述训练集包括第一样本集和第二样本集,所述第一样本集的复杂度低于所述第二样本集的复杂度;
第一预测值生成单元,用于基于所述YOLOv5网络,对所述训练集中的每张训练图片进行训练以生成对应的第一预测值;
第一模型生成单元,用于根据对应的第一预测值进行第一预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至所述第一预设损失函数收敛以生成对应的第一目标检测模型,所述第一预设损失函数为交叉熵损失函数;
第二预测值生成单元,用于基于所述第一目标检测模型,对所述第二样本集中的每张训练图片进行目标检测以生成对应的第二预测值;
第二模型生成单元,用于根据对应的第二预测值进行第二预设损失函数计算,获得优化梯度,进行权重和偏置更新,直至所述第二预设损失函数收敛以生成对应的第二目标检测模型,所述第二预设损失函数采用以下公式:
Figure 96944DEST_PATH_IMAGE003
其中,Loss表示所述第二预设损失函数,yi表示对应样本i的标签值,Pi表示对应样本i的预测值,
Figure 836361DEST_PATH_IMAGE004
表示调整因子,所述第二预设损失函数Loss中包含两部分,第一部分-yilog(Pi)为交叉熵损失函数,第二部分(1-Pi1+γ是通过将焦点损失函数进行泰勒展开并取对应泰勒展开式中第一项(1-Pi1+γ即可得到。
8.一种设备终端,其特征在于,所述设备终端包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述设备终端执行权利要求1至6中任一项所述的目标检测方法。
9.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,所述计算机程序在被处理器执行时实施权利要求1至6中任一项所述的目标检测方法。
CN202210971536.2A 2022-08-15 2022-08-15 基于YOLOv5网络的目标检测方法、装置和设备终端 Active CN115049851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210971536.2A CN115049851B (zh) 2022-08-15 2022-08-15 基于YOLOv5网络的目标检测方法、装置和设备终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210971536.2A CN115049851B (zh) 2022-08-15 2022-08-15 基于YOLOv5网络的目标检测方法、装置和设备终端

Publications (2)

Publication Number Publication Date
CN115049851A CN115049851A (zh) 2022-09-13
CN115049851B true CN115049851B (zh) 2023-01-17

Family

ID=83167274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210971536.2A Active CN115049851B (zh) 2022-08-15 2022-08-15 基于YOLOv5网络的目标检测方法、装置和设备终端

Country Status (1)

Country Link
CN (1) CN115049851B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116626166B (zh) * 2023-07-26 2023-10-31 中兴海陆工程有限公司 一种基于改进YOLOv5金属焊缝缺陷检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379734A (zh) * 2021-07-09 2021-09-10 无锡时代天使医疗器械科技有限公司 质量检测方法、装置、设备及计算机可读存储介质
CN113392857A (zh) * 2021-08-17 2021-09-14 深圳市爱深盈通信息技术有限公司 基于yolo网络的目标检测方法、装置和设备终端
CN114677504A (zh) * 2022-05-30 2022-06-28 深圳市爱深盈通信息技术有限公司 目标检测方法、装置、设备终端和可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089832A1 (en) * 2019-09-19 2021-03-25 Cognizant Technology Solutions U.S. Corporation Loss Function Optimization Using Taylor Series Expansion
CN112016450B (zh) * 2020-08-27 2023-09-05 京东方科技集团股份有限公司 机器学习模型的训练方法、装置和电子设备
EP3982299A1 (en) * 2020-10-09 2022-04-13 Naver Corporation Superloss: a generic loss for robust curriculum learning
CN112906502B (zh) * 2021-01-29 2023-08-01 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备以及存储介质
CN112836820B (zh) * 2021-01-31 2023-12-19 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训练方法、装置及系统
CN113850300B (zh) * 2021-09-02 2024-08-23 支付宝(杭州)信息技术有限公司 训练分类模型的方法和装置
CN114091570A (zh) * 2021-10-21 2022-02-25 上海淇玥信息技术有限公司 业务处理系统方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379734A (zh) * 2021-07-09 2021-09-10 无锡时代天使医疗器械科技有限公司 质量检测方法、装置、设备及计算机可读存储介质
CN113392857A (zh) * 2021-08-17 2021-09-14 深圳市爱深盈通信息技术有限公司 基于yolo网络的目标检测方法、装置和设备终端
CN114677504A (zh) * 2022-05-30 2022-06-28 深圳市爱深盈通信息技术有限公司 目标检测方法、装置、设备终端和可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于双注意力机制的遥感图像目标检测;周幸等;《计算机与现代化》;20200815(第08期);正文 *
基于改进YOLOv3的变压器定位检测研究;姚万业等;《电力科学与工程》;20200828(第08期);正文 *
样本不均衡之难易不均衡;小蛋子;《简书》;20201104;正文 *

Also Published As

Publication number Publication date
CN115049851A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN108230359B (zh) 目标检测方法和装置、训练方法、电子设备、程序和介质
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110276377A (zh) 一种基于贝叶斯优化的对抗样本生成方法
CN112016315B (zh) 模型训练、文本识别方法及装置、电子设备、存储介质
CN114387207B (zh) 基于自注意力机制与双重领域自适应的轮胎瑕疵检测方法及模型
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN112465801B (zh) 一种分尺度提取掩码特征的实例分割方法
CN112348028A (zh) 一种场景文本检测方法、批改方法、装置、电子设备及介质
CN111160229A (zh) 基于ssd网络的视频目标检测方法及装置
CN115049851B (zh) 基于YOLOv5网络的目标检测方法、装置和设备终端
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
CN111753870B (zh) 目标检测模型的训练方法、装置和存储介质
CN111435445A (zh) 字符识别模型的训练方法及装置、字符识别方法及装置
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN112613470A (zh) 一种人脸静默活体检测方法、装置、终端及存储介质
CN114677504B (zh) 目标检测方法、装置、设备终端和可读存储介质
CN111967383A (zh) 年龄估计方法、年龄估计模型的训练方法和装置
CN115862119A (zh) 基于注意力机制的人脸年龄估计方法及装置
CN110929644A (zh) 基于启发式算法的多模型融合人脸识别方法、装置、计算机系统与可读介质
CN113569684B (zh) 短视频场景分类方法、系统、电子设备及存储介质
CN114332112A (zh) 一种细胞图像分割方法、装置、电子设备及存储介质
CN112070060A (zh) 识别年龄的方法、年龄识别模型的训练方法和装置
CN112948604A (zh) 具备多语义层级注意能力的遥感影像文本描述生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230620

Address after: 13C-18, Caihong Building, Caihong Xindu, No. 3002, Caitian South Road, Gangsha Community, Futian Street, Futian District, Shenzhen, Guangdong 518033

Patentee after: Core Computing Integrated (Shenzhen) Technology Co.,Ltd.

Address before: 518000 1001, building G3, TCL International e city, Shuguang community, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Aishen Yingtong Information Technology Co.,Ltd.