CN115063672A - 基于改进yolox模型的小目标检测方法 - Google Patents

基于改进yolox模型的小目标检测方法 Download PDF

Info

Publication number
CN115063672A
CN115063672A CN202210822351.5A CN202210822351A CN115063672A CN 115063672 A CN115063672 A CN 115063672A CN 202210822351 A CN202210822351 A CN 202210822351A CN 115063672 A CN115063672 A CN 115063672A
Authority
CN
China
Prior art keywords
model
yolox
improved
features
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210822351.5A
Other languages
English (en)
Inventor
晁人傑
邓亮
郑卓斌
王立磊
刘若辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Coayu Robot Co Ltd
Original Assignee
Guangzhou Coayu Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Coayu Robot Co Ltd filed Critical Guangzhou Coayu Robot Co Ltd
Priority to CN202210822351.5A priority Critical patent/CN115063672A/zh
Publication of CN115063672A publication Critical patent/CN115063672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于改进YOLOX模型的小目标检测方法。通过获取待检测图像,对待检测图像进行特征提取,得到多个初始特征,并将多个初始特征进行跨层特征融合,得到多个融合特征,根据多个融合特征的预测处理结果,得到针对该待检测图像的小目标检测结果。通过多层特征提取和跨层特征融合,使得小目标的浅层特征和深层特征相互融合处理,加强小目标特征提取效果,避免小目标特征丢失,提高对图像中小目标的检测效果。

Description

基于改进YOLOX模型的小目标检测方法
技术领域
本发明涉及目标检测技术领域,特别是涉及一种基于改进YOLOX模型的小目标检测方法。
背景技术
随着目标检测技术的发展,基于深度学习的目标检测算法已超越传统目标检测方法,在机器人所涉目标识别领域得到广泛应用,针对大目标识别效果较好。然而,在扫地机器人家庭场景环境中拥有大量小目标物体,如纸团、硬币、沙发腿等,扫地机器人进行小目标识别识别率较低。
发明内容
基于此,针对小目标识别准确率较低问题,提供了一种基于改进YOLOX模型的小目标检测方法。该方法包括:
获取待检测图像;
对所述待检测图像进行特征提取,得到多个初始特征;
将所述多个初始特征进行跨层特征融合,得到多个融合特征;
将所述多个融合特征进行预测处理,根据处理结果得到所述待检测图像的小目标检测结果。
在其中一个实施例中,所述对所述待检测图像进行特征提取,得到多个初始特征,包括:
对所述待检测图像进行识别,得到所述待检测图像中的待检测目标尺寸;
若特征提取检测头的感受野大于所述待检测目标尺寸,对所述待检测图像进行特征提取,得到多个初始特征。
在其中一个实施例中,所述对所述待检测图像进行特征提取,得到多个初始特征,包括:
将所述待检测图像依次输入改进YOLOX模型的Focus模块和与所述Focus模块串联的多个卷积模块进行特征提取,得到所述多个初始特征。
在其中一个实施例中,所述多个卷积模块中的每个卷积模块包括Dark模块和注意力机制模块,所述注意力机制模块后的嵌入位置配置有检测头。
在其中一个实施例中,所述将所述多个初始特征进行特征融合,得到多个融合特征,包括:
将所述多个初始特征按照预先配置的跨层连接位置进行特征融合,得到所述多个融合特征;
其中,所述跨层连接位置根据所述多个卷积模块和所述改进YOLOX模型的多个特征融合模块的相对位置关系配置得到。
在其中一个实施例中,所述基于所述多个融合特征进行预测处理,根据处理结果得到所述待检测图像的小目标检测结果,包括:
对所述多个融合特征进行预测处理,根据处理结果得到所述小目标检测结果。
在其中一个实施例中,所述方法还包括:
获取初始图像数据集,所述初始图像数据集包括训练集和验证集;
将所述训练集输入至待训练的改进YOLOX模型进行训练,通过所述验证集对改进YOLOX模型进行验证;
更新所述改进YOLOX模型的模型参数直至模型收敛,得到训练后的改进YOLOX模型。
在其中一个实施例中,所述将所述训练集输入至待训练的改进YOLOX模型进行训练之前,所述方法还包括:
获取原始改进YOLOX模型;
将所述原始改进YOLOX模型的网络偏移量初始化为0,通过Kaiming高斯初始化方法对所述原始改进YOLOX模型的网络权重参数进行初始化。所述Kaiming高斯初始化方法服从以下分布;
Figure BDA0003745030450000031
其中,Wl为第l层权重,N为高斯分布,a为ReLU激活函数,nl为第l层的数据维度。
在其中一个实施例中,所述更新所述改进YOLOX模型的模型参数直至模型收敛,包括:
针对训练中的每一次迭代,根据迭代前的梯度和损失函数得到迭代后的梯度,并根据所述迭代后的梯度执行下一次迭代,直至训练完全部训练集;所述梯度包括改进YOLOX模型的权重和偏移量;
针对训练中每一次训练完全部训练集,将前一次的模型参数进行指数滑动平均,以得到所述改进YOLOX模型新的模型参数,根据所述新的模型参数更新所述改进YOLOX模型,直至模型收敛。
在其中一个实施例中,所述方法还包括:
通过如下算法获取训练中的改进YOLOX模型的权重:
Figure BDA0003745030450000032
其中,Wt和Wt+1为第t次迭代和第t+1次迭代的权重,mW为反向传播算法的学习率,
Figure BDA0003745030450000033
为损失函数对权重W的偏导数;
以及,通过如下算法获取训练中的改进YOLOX模型的偏移量:
Figure BDA0003745030450000034
其中,bt和bt+1为第t次迭代和第t+1次迭代的偏移量,mb为反向传播算法的学习率,
Figure BDA0003745030450000035
为损失函数对偏移量b的偏导数;
以及,每轮训练完后通过下列算法对该轮训练后的改进YOLOX模型的模型参数进行指数滑动平均(EMA):
Figure BDA0003745030450000041
Figure BDA0003745030450000042
其中,WEMA,k、bEMA,k分别表示对第k轮训练后的权重和偏移量进行指数滑动平均更新后的参数值,a为衰减因子,
Figure BDA0003745030450000043
为第k-1轮训练后的权重和偏移量。
上述基于改进YOLOX模型的小目标检测方法,通过获取待检测图像,对待检测图像进行特征提取,得到多个初始特征,并将多个初始特征进行跨层特征融合,得到多个融合特征,根据多个融合特征的预测处理结果,得到针对该待检测图像的小目标检测结果。通过多层特征提取和跨层特征融合,使得小目标的浅层特征和深层特征互相融合处理,加强小目标特征提取效果,避免小目标特征丢失,提高对图像中小目标的检测效果。
附图说明
图1为一个实施例中基于改进YOLOX模型的小目标检测方法流程图;
图2为一个实施例中改进YOLOX模型结构图;
图3为一个实施例中改进YOLOX模型训练流程图;
图4为一个实施例中基于改进YOLOX模型的小目标检测方法的检测结果示意图;
图5为一个实施例中基于改进YOLOX模型的小目标检测方法的检测结果示意图。
具体实施方式
为了能更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步详细描述。需说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在以下描述中阐述了诸多具体细节以便充分理解本发明,然而,本发明还可采用其它不同于在此描述的其它方式实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照附图描述本发明一些实施例所述的基于改进YOLOX模型的小目标检测方法。本发明的方法可应用于云端或服务器,也可应用于可进行图像检测的终端,例如移动机器人、可穿戴设备及手机等。以下以将本方法应用于扫地机器人为例进行说明。
如图1所示,本实施例公开了一种基于改进YOLOX模型的小目标检测方法,包括:
步骤S110,获取待检测图像。
其中,待检测图像,指扫地机器人的图像采集设备获取到的图像。该图像的像素和尺寸可根据扫地机器人的图像采集参数确定。
其中,扫地机器人的待检测图像中可能包括纸团、硬币、沙发腿等尺寸较小的目标,而扫地机器人在进行图像采集时,通常按照一致的视角进行。相较墙壁、柜子、宠物等大目标,小目标在图像中的尺寸通常较小,识别难度更大。
具体地,扫地机器人在建图或执行清扫任务时,可通过图像采集设备采集对应待检测图像,以供识别算法进行小目标识别。
步骤S120,对所述待检测图像进行特征提取,得到多个初始特征。
其中,特征提取,指对待检测图像所携带信息进行提取,可以是通过目标检测模型提取的可解释或不可解释的图像特征。
其中,初始特征,可以是目标检测模型识别得到的不同层级的特征,例如浅层特征、深层特征等,其中,浅层和深层是相对概念,浅层特征指距离目标检测模型的输入端较近的层提取得到的特征,通常对图像的解释较为抽象,深层特征指距离目标检测模型的输出端较近的层提取得到的特征,通常对图像的解释较为具体。目标检测模型可以是YOLOX模型或YOLOX模型的改进版本。
步骤S130,将所述多个初始特征进行跨层特征融合,得到多个融合特征。
其中,跨层融合,是指将不同层级的初始特征进行融合,得到对应的融合特征,多个融合特征的数量与目标检测模型的层数相关或相等。例如,对于每个上述初始特征中的全部或部分深层特征和浅层特征进行融合,该融合可以是一次融合,也可以是在一次融合的基础上执行多次融合,以得到多个融合特征。由此,使得浅层特征融合了深层特征的同时,深层特征也融合了浅层特征,可以避免小目标的特征遗漏,提高小目标识别的准确性。
具体地,可将得到的不同层初始特征进行融合,以得到对应数量的多个融合特征。
步骤S140,将所述多个融合特征进行预测处理,根据处理结果得到所述待检测图像的小目标检测结果。
其中,预测处理,可以是对得到的多个融合特征进行目标预测,该预测可以通过目标检测模型的特征预测层进行,例如可以是目标检测模型的Head部执行预测,根据Head部的输出结果或输出结果进行解码后得到处理结果。
其中,小目标检测结果,指的是得到待检测图像中的小目标的物品类别、类别概率、在待检测图像中的坐标或物体标注框等。
具体地,算法可进一步处理多个融合特征,进行预测后,得到待检测图像中的一个或多个小目标的物品类别、类别概率、在待检测图像中的坐标或物体标注框等信息,由此完成识别。
本申请基于改进YOLOX模型的小目标检测方法,通过获取待检测图像对待检测图像进行特征提取,得到多个初始特征,并将多个初始特征进行跨层特征融合,得到多个融合特征,根据多个融合特征的预测处理结果,得到针对该待检测图像的小目标检测结果。通过多层特征提取和跨层特征融合,使得小目标的浅层特征和深层特征相互融合处理,加强小目标特征提取效果,避免小目标特征丢失,提高对图像中小目标的检测效果。
在一个实施例中,步骤S120中确定的对所述待检测图像进行特征提取,得到多个初始特征的步骤,包括:
对所述待检测图像进行识别,得到所述待检测图像中的待检测目标尺寸;若特征提取检测头的感受野大于所述待检测目标尺寸,对所述待检测图像进行特征提取,得到多个初始特征。
神经网络中感受野指卷积神经网络每一层输出的特征图(Feature Map)上的像素点映射回输入图像上的区域大小。通俗的解释是,特征图上一点相对于原图的大小,也是卷积神经网络特征所能看到输入图像的区域。本发明中,特征提取检测头的感受野可作为确定小目标的对比参数,若特征提取检测头的感受野大于所述待检测目标尺寸,则认为待检测图像中存在小目标,可对该待检测图像执行适合小目标检测的目标检测算法,进而提取多个初始特征。
上述实施例的方法,通过进行小目标判断,当待检测图像中存在小目标时,对其执行适合小目标检测的目标检测算法,提高小目标检测的针对性和准确性。
在一个实施例中,对所述待检测图像进行特征提取,得到多个初始特征,包括:
将待检测图像依次输入改进YOLOX模型的Focus模块和与Focus模块串联的多个卷积模块进行特征提取,得到多个初始特征。其中,多个卷积模块中的每个卷积模块包括Dark模块和注意力机制模块,注意力机制模块后的嵌入位置配有检测头。
本实施例中,对待检测图像的特征提取,可通过改进YOLOX模型进行。
本发明的改进YOLOX模型中,包括特征提取层、特征融合层和预测层,其中,特征提取层至少包括一个Focus模块和多个卷积模块,特征融合层包括多个特征融合分支,每一特征融合分支与其它特征融合分支进行特征融合后产生多个特征预测层对目标进行预测。具体地,在进行图像目标识别时,输入图片首先经过Focus模块及与其串联的多个卷积模块后,通过在四个Dark模块后并联特征融合分支得到多个融合特征,输入至多个特征预测层并最终预测最后结果。
以下详细描述该改进YOLOX模型的特征提取层、特征融合层和预测层构成和数据处理过程。其中,卷积模块、特征融合层分支和特征预测层均以四个为例进行说明,如图2所示,该层数可根据实际分析需求进行调整,此处不作多模型层级的限定。
特征提取层中的Focus模块用于图像在进入模型时对图片进行切片操作,具体操作为在一张图片中以不同初始点为起点进行四次2倍下采样,将得到的四个下采样特征在通道上进行拼接得到结果。
与Focus模块串联的多个卷积模块,可以是YOLOX模型中的Dark模块,即图2中的D2至D5部分,在D2至D5的尾部均加入注意力机制模块,其中,D2相对于D3为浅层,以此类推。在浅层使用注意力机制,可以加强浅层特征提取。注意力机制模块的输入深度为前一模块的输出深度,其输出深度应与输入深度一致。
其中,注意力机制模块包括一个通道注意力模块和一个空间注意力模块;通道注意力模块包括一个自适应全局平均池化层和一个最大池化层,通过两个卷积降低计算复杂度;空间注意力模块包括一个卷积层和一个激活函数。该注意力机制模块可为CBAM(Convolutional Block Attention Module,卷积块注意力模块)模块,也可使用其它注意力机制模块,如挤压-激励(Squeeze-and-Excitation,SE)模块、精度增强(AccuracyBooster,AB)模块、精度增强+(Accuracy Booster Plus,ABPlus)模块等。
其中,每个注意力机制模块后的嵌入位置配有检测头,设计该检测头用于专门检测小目标,在浅层配置检测头,使得模型可在浅层以较小感受野对小目标进行预测以便在后续利用跨层融合提高浅层对深层特征的利用,使特征融合层数加深,特征融合跨度更长,提高小目标检测效果。针对目标偏小的扫地机数据,在浅层增加检测头。对于其它任务,若目标偏大,可在深层添加检测头。
特征融合层包括与各个Dark模块串联的多个特征融合分支,如图2中P层和N层,可用于对Dark模块识别的多个初始特征进行特征融合。
其中,P层的融合输出可以是第一预测输出,N层的融合输出可为是第二预测输出,扫地机器人可将特征提取层得到的多个初始特征按照预先配置的跨层连接位置进行至少两次特征融合,得到多个融合特征。
其中,改进YOLOX模型中可预先配置对应的跨层连接位置,该跨层位置用于确定多个初始特征中的一个或多个特征在对应位置的某些特征融合分支中执行融合。该跨层连接位置根据多个卷积模块和改进YOLOX模型的多个特征融合模块的相对位置关系配置得到。通过跨层连接位置的配置,使得改进YOLOX模型可在一些特征融合层中实现浅层特征对深层特征的融合,而在另一些特征融合层中实现深层特征对浅层特征融合,使模型可充分利用全局和局部信息,辅助特征信息不会丢失。跨层连接位置可配置在D2与P4、D3与P5、P4与N2、P5与N3之间。
例如,为了实现跨层连接位置的配置,可在D2层后引出额外第四特征融合层,使用卷积和上采样与其它特征层进行特征融合;在D2层后加入跨层连接位置使其与P4层特征进行直接跨层特征融合;在D3层后加入跨层连接使其与P5层特征进行直接跨层特征融合;在P4层后加入跨层连接使其与N2层特征进行直接跨层特征融合;在P5层后加入跨层连接使其与N3层特征进行直接跨层特征融合;每次特征融合后进行一次卷积操作实现通道压缩。由此,在P层实现了浅层特征对深层特征的融合,而在N层中实现深层特征对浅层特征的融合。
预测层串联各个特征融合分支后,用于对各个特征融合分支输出的融合特征进行预测,该预测通过改进YOLOX模型的Head进行预测,Head的初始预测结果比较抽象,可通过后处理将Head的结果进行解码,其小目标检测结果为在待检测图像中物体框的四个顶点坐标、物体类别、类别概率等。
例如,图2中,四个Head为预测层部分,如果要使用层的概念,第二层的Head3、第三层的Head2、第四层的Head1、第五层的Head0都是预测层。
在一个实施例中,提供了上述各个实施例中的改进YOLOX模型的训练方法,该模型训练过程可以是预先执行的步骤,或是在服务器或云端进行,也可以在终端进行,该训练步骤包括:
步骤S310,获取初始图像数据集。
其中,初始图像数据集包括训练集和验证集。可以扫地机器人采集图像数据集,将数据集划分为训练数据集和验证数据集,将数据集进行标注后得到标签数据。在一些情况下,可以对该图像数据集进行预处理,数据预处理包括对图片进行平移、对称、旋转、色彩增强、mosic数据增强及mixup数据增强,其中,平移、对称、旋转、色彩增强为弱数据增强,mosic、mixup为强数据增强。
例如,训练数据集和验证数据集的比例可为10:1。扫地机器人可使用常用图像标注工具LabelImg对数据集中的图像进行目标标注,得到正确的标签数据。
步骤S320,将所述训练集输入待训练的改进YOLOX模型进行训练,通过所述验证集对改进YOLOX模型进行验证。
其中,在进行模型训练时,可以搭建改进YOLOX目标检测模型,该改进YOLOX模型的结构可为如图2所示结构,针对该模型结构的描述在上述各实施例中已进行,在此不做赘述。可将该训练集输入待训练的改进YOLOX模型进行训练,通过验证集对改进YOLOX模型进行验证以执行模型训练过程。
其中,在模型训练之前,可将原始改进YOLOX模型的网络偏移量初始化为0,通过Kaiming高斯初始化方法对原始改进YOLOX模型的网络权重参数进行初始化;Kaiming高斯初始化方法服从以下分布;
Figure BDA0003745030450000111
其中,Wl为第l层权重,N为高斯分布,a为ReLU激活函数,nl为第l层的数据维度。
步骤S330,更新改进YOLOX模型的模型参数直至模型收敛或达到最大训练轮次,得到训练后的改进YOLOX模型。
其中,该模型训练中,针对训练中的每一次迭代,根据迭代前的梯度和损失函数得到迭代后的梯度,并根据迭代后的梯度执行下一次迭代,直至训练完全部训练集;其中,该梯度包括改进YOLOX模型的权重和偏移量。
通过如下算法获取训练中的改进YOLOX模型的权重:
Figure BDA0003745030450000112
其中,Wt和Wt+1为第t次迭代和第t+1次迭代的权重,mW为反向传播算法的学习率,
Figure BDA0003745030450000113
为损失函数对权重W的偏导数;
以及,通过如下算法获取训练中的改进YOLOX模型的偏移量:
Figure BDA0003745030450000114
其中,bt和bt+1为第t次迭代和第t+1次迭代的偏移量,mb为反向传播算法的学习率,
Figure BDA0003745030450000115
为损失函数对偏移量b的偏导数。
该损失函数L可通过如下算法获取:
Figure BDA0003745030450000116
其中,N为样本数量,Ii为第i张图,Liou为交并比损失,Lcls为分类损失。
Liou=1-IoU
Figure BDA0003745030450000121
其中,IoU为预测框与真实框的交并比,ti表示第i张图片的真实类别,pi表示第i张图片的预测类别。
其中,针对训练中每一轮训练完全部训练集,将前一次的模型参数进行指数滑动平均,以得到改进YOLOX模型新的模型参数,根据新的模型参数更新改进YOLOX模型,直至模型收敛或达到最大训练轮次。该过程在每一轮进行一次,使用指数移动平均将梯度下降法计算的参数更新至模型。其中,一轮表示训练集中所有数据送入网络,完成一次前向计算和反向传播的过程。
每轮训练完后通过下列算法对该轮训练后的改进YOLOX模型的模型参数进行指数滑动平均:
Figure BDA0003745030450000122
Figure BDA0003745030450000123
其中,WEMA,k、bEMA,k分别表示对第k轮训练后的权重和偏移量进行指数滑动平均更新后的参数值,a为衰减因子,
Figure BDA0003745030450000124
为第k-1轮训练后的权重和偏移量。
在一些实施例中,上述改进YOLOX模型的训练过程如图3所示,包括:采集扫地机器人视角的图像,获得训练数据集;标注数据,将其划分为训练集和验证集;搭建改进YOLOX模型,初始化该模型后,执行该模型的训练过程,通过反向梯度传播更新参数,并通过指数滑动平均更新模型参数,若模型收敛或达到最大迭代数,将训练好的模型作为最终使用的模型;若模型未达到收敛或未达到最大迭代数,则继续执行模型训练过程。图4和图5为利用上述模型检测时的识别效果示意图。
以上所述实施例的各技术特征可以进行任意组合,为使描述简洁,未对上述实施例中各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应认为属于本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但不能因此而理解为是对本发明专利范围的限制。应当指出,对于本领域的普通技术人员而言,在不脱离本发明构思的前提下,还可做出若干变形和改进,这些均属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.基于改进YOLOX模型的小目标检测方法,其特征在于,所述方法包括:
获取待检测图像;
对所述待检测图像进行特征提取,得到多个初始特征;
将所述多个初始特征进行跨层特征融合,得到多个融合特征;
将所述多个融合特征进行预测处理,根据处理结果得到所述待检测图像的小目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待检测图像进行特征提取,得到多个初始特征,包括:
对所述待检测图像进行识别,得到所述待检测图像中的待检测目标尺寸;
若特征提取检测头的感受野大于所述待检测目标尺寸,对所述待检测图像进行特征提取,得到多个初始特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述待检测图像进行特征提取,得到多个初始特征,包括:
将所述待检测图像依次输入改进YOLOX模型的Focus模块和与所述Focus模块串联的多个卷积模块进行特征提取,得到所述多个初始特征。
4.根据权利要求3所述的方法,其特征在于,包括:所述多个卷积模块中的每个卷积模块包括Dark模块和注意力机制模块,所述注意力机制模块后的嵌入位置配置有检测头。
5.根据权利要求1所述的方法,其特征在于,所述将所述多个初始特征进行特征融合,得到多个融合特征,包括:
将所述多个初始特征按照预先配置的跨层连接位置进行特征融合,得到所述多个融合特征;
其中,所述跨层连接位置根据所述多个卷积模块和所述改进YOLOX模型的多个特征融合模块的相对位置关系配置得到。
6.根据权利要求3所述的方法,其特征在于,所述基于所述多个融合特征进行预测处理,根据处理结果得到所述待检测图像的小目标检测结果,包括:
对所述多个融合特征进行预测处理,根据处理结果得到所述小目标检测结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
获取初始图像数据集,所述初始图像数据集包括训练集和验证集;
将所述训练集输入至待训练的改进YOLOX模型进行训练,通过所述验证集对改进YOLOX模型进行验证;
更新所述改进YOLOX模型的模型参数直至模型收敛,得到训练后的改进YOLOX模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述训练集输入至待训练的改进YOLOX模型进行训练之前,所述方法还包括:
获取原始改进YOLOX模型;
将所述原始改进YOLOX模型的网络偏移量初始化为0,通过Kaiming高斯初始化方法对所述原始改进YOLOX模型的网络权重参数进行初始化。所述Kaiming高斯初始化方法服从以下分布;
Figure FDA0003745030440000021
其中,Wl为第l层权重,N为高斯分布,a为ReLU激活函数,nl为第l层的数据维度。
9.根据权利要求7所述的方法,其特征在于,所述更新所述改进YOLOX模型的模型参数直至模型收敛,包括:
针对训练中的每一次迭代,根据迭代前的梯度和损失函数得到迭代后的梯度,并根据所述迭代后的梯度执行下一次迭代,直至训练完全部测试集。所述梯度包括改进YOLOX模型的权重和偏移量;
针对训练中每一轮训练完全部训练集,将前一次的模型参数进行指数滑动平均,以得到所述改进YOLOX模型新的模型参数,根据所述新的模型参数更新所述改进YOLOX模型,直至模型收敛或达到最大训练轮次。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
通过如下算法获取训练中的改进YOLOX模型的权重:
Figure FDA0003745030440000031
其中,Wt和Wt+1为第t次迭代和第t+1次迭代的权重,mW为反向传播算法的学习率,
Figure FDA0003745030440000032
为损失函数对权重W的偏导数;
以及,通过如下算法获取训练中的改进YOLOX模型的偏移量:
Figure FDA0003745030440000033
其中,bt和bt+1为第t次迭代和第t+1次迭代的偏移量,mb为反向传播算法的学习率,
Figure FDA0003745030440000034
为损失函数对偏移量b的偏导数;
以及,每轮训练完后通过下列算法对该轮训练后的改进YOLOX模型的模型参数进行指数滑动平均(EMA):
Figure FDA0003745030440000035
Figure FDA0003745030440000036
其中,WEMA,k、bEMA,k分别表示对第k轮训练后的权重和偏移量进行指数滑动平均更新后的参数值,a为衰减因子,
Figure FDA0003745030440000037
为第k-1轮训练后的权重和偏移量。
CN202210822351.5A 2022-07-13 2022-07-13 基于改进yolox模型的小目标检测方法 Pending CN115063672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210822351.5A CN115063672A (zh) 2022-07-13 2022-07-13 基于改进yolox模型的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210822351.5A CN115063672A (zh) 2022-07-13 2022-07-13 基于改进yolox模型的小目标检测方法

Publications (1)

Publication Number Publication Date
CN115063672A true CN115063672A (zh) 2022-09-16

Family

ID=83207184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210822351.5A Pending CN115063672A (zh) 2022-07-13 2022-07-13 基于改进yolox模型的小目标检测方法

Country Status (1)

Country Link
CN (1) CN115063672A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345881A (zh) * 2022-10-18 2022-11-15 上海交强国通智能科技有限公司 一种基于计算机视觉的路面病害检测方法
CN117496384A (zh) * 2023-11-15 2024-02-02 电子科技大学 一种无人机图像物体检测方法
CN117911679A (zh) * 2024-03-15 2024-04-19 青岛国实科技集团有限公司 基于图像增强和微小目标识别的船体识别系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345881A (zh) * 2022-10-18 2022-11-15 上海交强国通智能科技有限公司 一种基于计算机视觉的路面病害检测方法
CN117496384A (zh) * 2023-11-15 2024-02-02 电子科技大学 一种无人机图像物体检测方法
CN117911679A (zh) * 2024-03-15 2024-04-19 青岛国实科技集团有限公司 基于图像增强和微小目标识别的船体识别系统及方法
CN117911679B (zh) * 2024-03-15 2024-05-31 青岛国实科技集团有限公司 基于图像增强和微小目标识别的船体识别系统及方法

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109118467B (zh) 基于生成对抗网络的红外与可见光图像融合方法
CN110119728B (zh) 基于多尺度融合语义分割网络的遥感图像云检测方法
CN110728209B (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN109741331B (zh) 一种图像前景物体分割方法
CN108229504B (zh) 图像解析方法及装置
CN106897673B (zh) 一种基于retinex算法和卷积神经网络的行人再识别方法
CN115063672A (zh) 基于改进yolox模型的小目标检测方法
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN109389096B (zh) 检测方法和装置
KR102158799B1 (ko) 심층신경망 모델을 이용한 건물 식별 방법, 컴퓨터 프로그램 및 장치
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112581462A (zh) 工业产品的外观缺陷检测方法、装置及存储介质
CN111914762A (zh) 基于步态信息的身份识别方法及装置
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN116994000A (zh) 零件边缘特征提取方法和装置、电子设备及存储介质
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN108597172B (zh) 一种森林火灾识别方法、装置、电子设备及存储介质
CN107886093B (zh) 一种字符检测方法、系统、设备及计算机存储介质
CN117173595A (zh) 基于改进YOLOv7的无人机航拍图像目标检测方法
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination