CN115063672A

CN115063672A - 基于改进yolox模型的小目标检测方法

Info

Publication number: CN115063672A
Application number: CN202210822351.5A
Authority: CN
Inventors: 晁人傑; 邓亮; 郑卓斌; 王立磊; 刘若辰
Original assignee: Guangzhou Coayu Robot Co Ltd
Current assignee: Guangzhou Coayu Robot Co Ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-09-16

Abstract

本发明涉及一种基于改进YOLOX模型的小目标检测方法。通过获取待检测图像，对待检测图像进行特征提取，得到多个初始特征，并将多个初始特征进行跨层特征融合，得到多个融合特征，根据多个融合特征的预测处理结果，得到针对该待检测图像的小目标检测结果。通过多层特征提取和跨层特征融合，使得小目标的浅层特征和深层特征相互融合处理，加强小目标特征提取效果，避免小目标特征丢失，提高对图像中小目标的检测效果。

Description

基于改进YOLOX模型的小目标检测方法

技术领域

本发明涉及目标检测技术领域，特别是涉及一种基于改进YOLOX模型的小目标检测方法。

背景技术

随着目标检测技术的发展，基于深度学习的目标检测算法已超越传统目标检测方法，在机器人所涉目标识别领域得到广泛应用，针对大目标识别效果较好。然而，在扫地机器人家庭场景环境中拥有大量小目标物体，如纸团、硬币、沙发腿等，扫地机器人进行小目标识别识别率较低。

发明内容

基于此，针对小目标识别准确率较低问题，提供了一种基于改进YOLOX模型的小目标检测方法。该方法包括：

获取待检测图像；

对所述待检测图像进行特征提取，得到多个初始特征；

将所述多个初始特征进行跨层特征融合，得到多个融合特征；

将所述多个融合特征进行预测处理，根据处理结果得到所述待检测图像的小目标检测结果。

在其中一个实施例中，所述对所述待检测图像进行特征提取，得到多个初始特征，包括：

对所述待检测图像进行识别，得到所述待检测图像中的待检测目标尺寸；

若特征提取检测头的感受野大于所述待检测目标尺寸，对所述待检测图像进行特征提取，得到多个初始特征。

将所述待检测图像依次输入改进YOLOX模型的Focus模块和与所述Focus模块串联的多个卷积模块进行特征提取，得到所述多个初始特征。

在其中一个实施例中，所述多个卷积模块中的每个卷积模块包括Dark模块和注意力机制模块，所述注意力机制模块后的嵌入位置配置有检测头。

在其中一个实施例中，所述将所述多个初始特征进行特征融合，得到多个融合特征，包括：

将所述多个初始特征按照预先配置的跨层连接位置进行特征融合，得到所述多个融合特征；

其中，所述跨层连接位置根据所述多个卷积模块和所述改进YOLOX模型的多个特征融合模块的相对位置关系配置得到。

在其中一个实施例中，所述基于所述多个融合特征进行预测处理，根据处理结果得到所述待检测图像的小目标检测结果，包括：

对所述多个融合特征进行预测处理，根据处理结果得到所述小目标检测结果。

在其中一个实施例中，所述方法还包括：

获取初始图像数据集，所述初始图像数据集包括训练集和验证集；

将所述训练集输入至待训练的改进YOLOX模型进行训练，通过所述验证集对改进YOLOX模型进行验证；

更新所述改进YOLOX模型的模型参数直至模型收敛，得到训练后的改进YOLOX模型。

在其中一个实施例中，所述将所述训练集输入至待训练的改进YOLOX模型进行训练之前，所述方法还包括：

获取原始改进YOLOX模型；

将所述原始改进YOLOX模型的网络偏移量初始化为0，通过Kaiming高斯初始化方法对所述原始改进YOLOX模型的网络权重参数进行初始化。所述Kaiming高斯初始化方法服从以下分布；

其中，W_l为第l层权重，N为高斯分布，a为ReLU激活函数，n_l为第l层的数据维度。

在其中一个实施例中，所述更新所述改进YOLOX模型的模型参数直至模型收敛，包括：

针对训练中的每一次迭代，根据迭代前的梯度和损失函数得到迭代后的梯度，并根据所述迭代后的梯度执行下一次迭代，直至训练完全部训练集；所述梯度包括改进YOLOX模型的权重和偏移量；

针对训练中每一次训练完全部训练集，将前一次的模型参数进行指数滑动平均，以得到所述改进YOLOX模型新的模型参数，根据所述新的模型参数更新所述改进YOLOX模型，直至模型收敛。

在其中一个实施例中，所述方法还包括：

通过如下算法获取训练中的改进YOLOX模型的权重：

其中，W_t和W_t+1为第t次迭代和第t+1次迭代的权重，m_W为反向传播算法的学习率，

为损失函数对权重W的偏导数；

以及，通过如下算法获取训练中的改进YOLOX模型的偏移量：

其中，b_t和b_t+1为第t次迭代和第t+1次迭代的偏移量，m_b为反向传播算法的学习率，

为损失函数对偏移量b的偏导数；

以及，每轮训练完后通过下列算法对该轮训练后的改进YOLOX模型的模型参数进行指数滑动平均(EMA)：

其中，W_EMA,k、b_EMA,k分别表示对第k轮训练后的权重和偏移量进行指数滑动平均更新后的参数值，a为衰减因子，

为第k-1轮训练后的权重和偏移量。

上述基于改进YOLOX模型的小目标检测方法，通过获取待检测图像，对待检测图像进行特征提取，得到多个初始特征，并将多个初始特征进行跨层特征融合，得到多个融合特征，根据多个融合特征的预测处理结果，得到针对该待检测图像的小目标检测结果。通过多层特征提取和跨层特征融合，使得小目标的浅层特征和深层特征互相融合处理，加强小目标特征提取效果，避免小目标特征丢失，提高对图像中小目标的检测效果。

附图说明

图1为一个实施例中基于改进YOLOX模型的小目标检测方法流程图；

图2为一个实施例中改进YOLOX模型结构图；

图3为一个实施例中改进YOLOX模型训练流程图；

图4为一个实施例中基于改进YOLOX模型的小目标检测方法的检测结果示意图；

图5为一个实施例中基于改进YOLOX模型的小目标检测方法的检测结果示意图。

具体实施方式

为了能更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步详细描述。需说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在以下描述中阐述了诸多具体细节以便充分理解本发明，然而，本发明还可采用其它不同于在此描述的其它方式实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照附图描述本发明一些实施例所述的基于改进YOLOX模型的小目标检测方法。本发明的方法可应用于云端或服务器，也可应用于可进行图像检测的终端，例如移动机器人、可穿戴设备及手机等。以下以将本方法应用于扫地机器人为例进行说明。

如图1所示，本实施例公开了一种基于改进YOLOX模型的小目标检测方法，包括：

步骤S110，获取待检测图像。

其中，待检测图像，指扫地机器人的图像采集设备获取到的图像。该图像的像素和尺寸可根据扫地机器人的图像采集参数确定。

其中，扫地机器人的待检测图像中可能包括纸团、硬币、沙发腿等尺寸较小的目标，而扫地机器人在进行图像采集时，通常按照一致的视角进行。相较墙壁、柜子、宠物等大目标，小目标在图像中的尺寸通常较小，识别难度更大。

具体地，扫地机器人在建图或执行清扫任务时，可通过图像采集设备采集对应待检测图像，以供识别算法进行小目标识别。

步骤S120，对所述待检测图像进行特征提取，得到多个初始特征。

其中，特征提取，指对待检测图像所携带信息进行提取，可以是通过目标检测模型提取的可解释或不可解释的图像特征。

其中，初始特征，可以是目标检测模型识别得到的不同层级的特征，例如浅层特征、深层特征等，其中，浅层和深层是相对概念，浅层特征指距离目标检测模型的输入端较近的层提取得到的特征，通常对图像的解释较为抽象，深层特征指距离目标检测模型的输出端较近的层提取得到的特征，通常对图像的解释较为具体。目标检测模型可以是YOLOX模型或YOLOX模型的改进版本。

步骤S130，将所述多个初始特征进行跨层特征融合，得到多个融合特征。

其中，跨层融合，是指将不同层级的初始特征进行融合，得到对应的融合特征，多个融合特征的数量与目标检测模型的层数相关或相等。例如，对于每个上述初始特征中的全部或部分深层特征和浅层特征进行融合，该融合可以是一次融合，也可以是在一次融合的基础上执行多次融合，以得到多个融合特征。由此，使得浅层特征融合了深层特征的同时，深层特征也融合了浅层特征，可以避免小目标的特征遗漏，提高小目标识别的准确性。

具体地，可将得到的不同层初始特征进行融合，以得到对应数量的多个融合特征。

步骤S140，将所述多个融合特征进行预测处理，根据处理结果得到所述待检测图像的小目标检测结果。

其中，预测处理，可以是对得到的多个融合特征进行目标预测，该预测可以通过目标检测模型的特征预测层进行，例如可以是目标检测模型的Head部执行预测，根据Head部的输出结果或输出结果进行解码后得到处理结果。

其中，小目标检测结果，指的是得到待检测图像中的小目标的物品类别、类别概率、在待检测图像中的坐标或物体标注框等。

具体地，算法可进一步处理多个融合特征，进行预测后，得到待检测图像中的一个或多个小目标的物品类别、类别概率、在待检测图像中的坐标或物体标注框等信息，由此完成识别。

本申请基于改进YOLOX模型的小目标检测方法，通过获取待检测图像对待检测图像进行特征提取，得到多个初始特征，并将多个初始特征进行跨层特征融合，得到多个融合特征，根据多个融合特征的预测处理结果，得到针对该待检测图像的小目标检测结果。通过多层特征提取和跨层特征融合，使得小目标的浅层特征和深层特征相互融合处理，加强小目标特征提取效果，避免小目标特征丢失，提高对图像中小目标的检测效果。

在一个实施例中，步骤S120中确定的对所述待检测图像进行特征提取，得到多个初始特征的步骤，包括：

对所述待检测图像进行识别，得到所述待检测图像中的待检测目标尺寸；若特征提取检测头的感受野大于所述待检测目标尺寸，对所述待检测图像进行特征提取，得到多个初始特征。

神经网络中感受野指卷积神经网络每一层输出的特征图(Feature Map)上的像素点映射回输入图像上的区域大小。通俗的解释是，特征图上一点相对于原图的大小，也是卷积神经网络特征所能看到输入图像的区域。本发明中，特征提取检测头的感受野可作为确定小目标的对比参数，若特征提取检测头的感受野大于所述待检测目标尺寸，则认为待检测图像中存在小目标，可对该待检测图像执行适合小目标检测的目标检测算法，进而提取多个初始特征。

上述实施例的方法，通过进行小目标判断，当待检测图像中存在小目标时，对其执行适合小目标检测的目标检测算法，提高小目标检测的针对性和准确性。

在一个实施例中，对所述待检测图像进行特征提取，得到多个初始特征，包括：

将待检测图像依次输入改进YOLOX模型的Focus模块和与Focus模块串联的多个卷积模块进行特征提取，得到多个初始特征。其中，多个卷积模块中的每个卷积模块包括Dark模块和注意力机制模块，注意力机制模块后的嵌入位置配有检测头。

本实施例中，对待检测图像的特征提取，可通过改进YOLOX模型进行。

本发明的改进YOLOX模型中，包括特征提取层、特征融合层和预测层，其中，特征提取层至少包括一个Focus模块和多个卷积模块，特征融合层包括多个特征融合分支，每一特征融合分支与其它特征融合分支进行特征融合后产生多个特征预测层对目标进行预测。具体地，在进行图像目标识别时，输入图片首先经过Focus模块及与其串联的多个卷积模块后，通过在四个Dark模块后并联特征融合分支得到多个融合特征，输入至多个特征预测层并最终预测最后结果。

以下详细描述该改进YOLOX模型的特征提取层、特征融合层和预测层构成和数据处理过程。其中，卷积模块、特征融合层分支和特征预测层均以四个为例进行说明，如图2所示，该层数可根据实际分析需求进行调整，此处不作多模型层级的限定。

特征提取层中的Focus模块用于图像在进入模型时对图片进行切片操作，具体操作为在一张图片中以不同初始点为起点进行四次2倍下采样，将得到的四个下采样特征在通道上进行拼接得到结果。

与Focus模块串联的多个卷积模块，可以是YOLOX模型中的Dark模块，即图2中的D2至D5部分，在D2至D5的尾部均加入注意力机制模块，其中，D2相对于D3为浅层，以此类推。在浅层使用注意力机制，可以加强浅层特征提取。注意力机制模块的输入深度为前一模块的输出深度，其输出深度应与输入深度一致。

其中，注意力机制模块包括一个通道注意力模块和一个空间注意力模块；通道注意力模块包括一个自适应全局平均池化层和一个最大池化层，通过两个卷积降低计算复杂度；空间注意力模块包括一个卷积层和一个激活函数。该注意力机制模块可为CBAM(Convolutional Block Attention Module，卷积块注意力模块)模块，也可使用其它注意力机制模块，如挤压-激励(Squeeze-and-Excitation，SE)模块、精度增强(AccuracyBooster，AB)模块、精度增强+(Accuracy Booster Plus，ABPlus)模块等。

其中，每个注意力机制模块后的嵌入位置配有检测头，设计该检测头用于专门检测小目标，在浅层配置检测头，使得模型可在浅层以较小感受野对小目标进行预测以便在后续利用跨层融合提高浅层对深层特征的利用，使特征融合层数加深，特征融合跨度更长，提高小目标检测效果。针对目标偏小的扫地机数据，在浅层增加检测头。对于其它任务，若目标偏大，可在深层添加检测头。

特征融合层包括与各个Dark模块串联的多个特征融合分支，如图2中P层和N层，可用于对Dark模块识别的多个初始特征进行特征融合。

其中，P层的融合输出可以是第一预测输出，N层的融合输出可为是第二预测输出，扫地机器人可将特征提取层得到的多个初始特征按照预先配置的跨层连接位置进行至少两次特征融合，得到多个融合特征。

其中，改进YOLOX模型中可预先配置对应的跨层连接位置，该跨层位置用于确定多个初始特征中的一个或多个特征在对应位置的某些特征融合分支中执行融合。该跨层连接位置根据多个卷积模块和改进YOLOX模型的多个特征融合模块的相对位置关系配置得到。通过跨层连接位置的配置，使得改进YOLOX模型可在一些特征融合层中实现浅层特征对深层特征的融合，而在另一些特征融合层中实现深层特征对浅层特征融合，使模型可充分利用全局和局部信息，辅助特征信息不会丢失。跨层连接位置可配置在D2与P4、D3与P5、P4与N2、P5与N3之间。

例如，为了实现跨层连接位置的配置，可在D2层后引出额外第四特征融合层，使用卷积和上采样与其它特征层进行特征融合；在D2层后加入跨层连接位置使其与P4层特征进行直接跨层特征融合；在D3层后加入跨层连接使其与P5层特征进行直接跨层特征融合；在P4层后加入跨层连接使其与N2层特征进行直接跨层特征融合；在P5层后加入跨层连接使其与N3层特征进行直接跨层特征融合；每次特征融合后进行一次卷积操作实现通道压缩。由此，在P层实现了浅层特征对深层特征的融合，而在N层中实现深层特征对浅层特征的融合。

预测层串联各个特征融合分支后，用于对各个特征融合分支输出的融合特征进行预测，该预测通过改进YOLOX模型的Head进行预测，Head的初始预测结果比较抽象，可通过后处理将Head的结果进行解码，其小目标检测结果为在待检测图像中物体框的四个顶点坐标、物体类别、类别概率等。

例如，图2中，四个Head为预测层部分，如果要使用层的概念，第二层的Head3、第三层的Head2、第四层的Head1、第五层的Head0都是预测层。

在一个实施例中，提供了上述各个实施例中的改进YOLOX模型的训练方法，该模型训练过程可以是预先执行的步骤，或是在服务器或云端进行，也可以在终端进行，该训练步骤包括：

步骤S310，获取初始图像数据集。

其中，初始图像数据集包括训练集和验证集。可以扫地机器人采集图像数据集，将数据集划分为训练数据集和验证数据集，将数据集进行标注后得到标签数据。在一些情况下，可以对该图像数据集进行预处理，数据预处理包括对图片进行平移、对称、旋转、色彩增强、mosic数据增强及mixup数据增强，其中，平移、对称、旋转、色彩增强为弱数据增强，mosic、mixup为强数据增强。

例如，训练数据集和验证数据集的比例可为10:1。扫地机器人可使用常用图像标注工具LabelImg对数据集中的图像进行目标标注，得到正确的标签数据。

步骤S320，将所述训练集输入待训练的改进YOLOX模型进行训练，通过所述验证集对改进YOLOX模型进行验证。

其中，在进行模型训练时，可以搭建改进YOLOX目标检测模型，该改进YOLOX模型的结构可为如图2所示结构，针对该模型结构的描述在上述各实施例中已进行，在此不做赘述。可将该训练集输入待训练的改进YOLOX模型进行训练，通过验证集对改进YOLOX模型进行验证以执行模型训练过程。

其中，在模型训练之前，可将原始改进YOLOX模型的网络偏移量初始化为0，通过Kaiming高斯初始化方法对原始改进YOLOX模型的网络权重参数进行初始化；Kaiming高斯初始化方法服从以下分布；

步骤S330，更新改进YOLOX模型的模型参数直至模型收敛或达到最大训练轮次，得到训练后的改进YOLOX模型。

其中，该模型训练中，针对训练中的每一次迭代，根据迭代前的梯度和损失函数得到迭代后的梯度，并根据迭代后的梯度执行下一次迭代，直至训练完全部训练集；其中，该梯度包括改进YOLOX模型的权重和偏移量。

通过如下算法获取训练中的改进YOLOX模型的权重：

为损失函数对权重W的偏导数；

以及，通过如下算法获取训练中的改进YOLOX模型的偏移量：

为损失函数对偏移量b的偏导数。

该损失函数L可通过如下算法获取：

其中，N为样本数量，Iⁱ为第i张图，L_iou为交并比损失，L_cls为分类损失。

L_iou＝1-IoU

其中，IoU为预测框与真实框的交并比，t_i表示第i张图片的真实类别，p_i表示第i张图片的预测类别。

其中，针对训练中每一轮训练完全部训练集，将前一次的模型参数进行指数滑动平均，以得到改进YOLOX模型新的模型参数，根据新的模型参数更新改进YOLOX模型，直至模型收敛或达到最大训练轮次。该过程在每一轮进行一次，使用指数移动平均将梯度下降法计算的参数更新至模型。其中，一轮表示训练集中所有数据送入网络，完成一次前向计算和反向传播的过程。

每轮训练完后通过下列算法对该轮训练后的改进YOLOX模型的模型参数进行指数滑动平均：

为第k-1轮训练后的权重和偏移量。

在一些实施例中，上述改进YOLOX模型的训练过程如图3所示，包括：采集扫地机器人视角的图像，获得训练数据集；标注数据，将其划分为训练集和验证集；搭建改进YOLOX模型，初始化该模型后，执行该模型的训练过程，通过反向梯度传播更新参数，并通过指数滑动平均更新模型参数，若模型收敛或达到最大迭代数，将训练好的模型作为最终使用的模型；若模型未达到收敛或未达到最大迭代数，则继续执行模型训练过程。图4和图5为利用上述模型检测时的识别效果示意图。

以上所述实施例的各技术特征可以进行任意组合，为使描述简洁，未对上述实施例中各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应认为属于本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但不能因此而理解为是对本发明专利范围的限制。应当指出，对于本领域的普通技术人员而言，在不脱离本发明构思的前提下，还可做出若干变形和改进，这些均属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。