CN113807472B

CN113807472B - 分级目标检测方法及装置

Info

Publication number: CN113807472B
Application number: CN202111375392.6A
Authority: CN
Inventors: 张雪; 罗壮; 张海强; 李成军
Original assignee: Zhidao Network Technology Beijing Co Ltd
Current assignee: Zhidao Network Technology Beijing Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-22
Anticipated expiration: 2041-11-19
Also published as: CN113807472A

Abstract

本申请涉及一种分级目标检测方法及装置。该方法包括：向分级YOLOV5网络模型输入训练集；通过分级YOLOV5网络模型的3个预测分支分别对训练集中的不同尺寸大小的标注框进行预测，分别获得3个预测分支各自的预测输出；根据分级YOLOV5网络模型3个预测分支各自的预测输出，分别计算3个预测分支各自的损失函数值；如果分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成分级YOLOV5网络模型的训练；向完成训练的分级YOLOV5网络模型输入包含目标的图像，以使完成训练的分级YOLOV5网络模型进行目标检测。本申请提供的方案，能够对大中小不同尺寸的目标都达到最优检测效果。

Description

分级目标检测方法及装置

技术领域

本申请涉及导航技术领域，尤其涉及一种分级目标检测方法及装置。

背景技术

从交通场景中自动地检测交通场景中的各种不同大小的目标（例如，交通标志）是车辆自动驾驶的首要处理步骤。快速、准确地检测交通场景中的各种不同大小的目标，能够为自动驾驶车辆的自动导航提供准确的环境信息，是实现安全驾驶的关键。

相关技术在对大小不一的目标进行检测时，常常融合浅层和深层特征，对大中小不同目标带有信息冗余，且融合时相互干扰，带入部分背景无效噪声数据使得目标无法达到最优检测效果。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种分级目标检测方法及装置，能够对大中小不同尺寸的目标都达到最优检测效果。

本申请第一方面提供一种分级目标检测方法，所述方法包括：

向分级YOLOV5网络模型输入训练集，其中，所述分级YOLOV5网络模型在YOLOV5网络模型的基础上去除3个预测分支的信息交互功能，所述分级YOLOV5网络模型的3个预测分支直接输出检测结果；

通过分级YOLOV5网络模型的3个预测分支分别对训练集中的不同尺寸大小的标注框进行预测，分别获得所述分级YOLOV5网络模型3个预测分支各自的预测输出；

根据所述分级YOLOV5网络模型3个预测分支各自的预测输出，分别计算所述分级YOLOV5网络模型3个预测分支各自的损失函数值；

如果所述分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成所述分级YOLOV5网络模型的训练；

向完成训练的分级YOLOV5网络模型输入包含目标的图像，以使所述完成训练的分级YOLOV5网络模型进行目标检测。

优选的，所述如果所述分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成所述分级YOLOV5网络模型的训练之前，还包括：

根据分级YOLOV5网络模型3个预测分支各自的在一次迭代的一个周期的学习次数，分别完成所述分级YOLOV5网络模型3个预测分支在一次迭代的训练。

优选的，所述根据分级YOLOV5网络模型3个预测分支各自的在一次迭代的一个周期的学习次数，分别完成所述分级YOLOV5网络模型3个预测分支在一次迭代的训练之前，还包括：

根据所述分级YOLOV5网络模型3个预测分支各自的损失函数值，分别确定所述3个预测分支各自的在所述一次迭代的一个周期的学习次数。

优选的，所述通过分级YOLOV5网络模型的3个预测分支分别对训练集中的不同尺寸大小的标注框进行预测，分别获得所述分级YOLOV5网络模型3个预测分支各自的预测输出，包括：

将所述训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类；

通过分级YOLOV5网络模型的小目标预测分支、中等目标预测分支、大目标预测分支分别对小标注框类的标注框、中等标注框类的标注框、大标注框类的标注框进行预测，分别获得所述小目标预测分支对所述小标注框类的标注框的预测输出、所述中等目标预测分支对所述中等标注框类的标注框的预测输出，所述大目标预测分支对所述大标注框类的标注框的预测输出。

优选的，所述将所述训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类，包括：

采用聚类算法根据所述训练集中的不同尺寸大小的标注框聚类得到3个聚类中心框；

根据所述3个聚类中心框，确定将所述训练集中的不同尺寸大小的标注框拆分为3类的边界线；

根据所述确定的边界线，将所述训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类。

本申请第二方面提供一种分级目标检测装置，所述装置包括：

第一输入模块，用于向分级YOLOV5网络模型输入训练集，其中，所述分级YOLOV5网络模型在YOLOV5网络模型的基础上去除3个预测分支的信息交互功能，所述分级YOLOV5网络模型的3个预测分支直接输出检测结果；

预测输出模块，用于通过分级YOLOV5网络模型的3个预测分支分别对所述第一输入模块输入的训练集中的不同尺寸大小的标注框进行预测，分别获得所述分级YOLOV5网络模型3个预测分支各自的预测输出；

损失计算模块，用于根据所述预测输出模块获得的分级YOLOV5网络模型3个预测分支各自的预测输出，分别计算所述分级YOLOV5网络模型3个预测分支各自的损失函数值；

训练完成模块，用于如果所述损失计算模块获得的分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成所述分级YOLOV5网络模型的训练；

第二输入模块，用于向所述训练完成模块确定的完成训练的分级YOLOV5网络模型输入包含目标的图像，以使所述完成训练的分级YOLOV5网络模型进行目标检测。

优选的，所述装置还包括：

训练模块，用于根据分级YOLOV5网络模型3个预测分支各自的在一次迭代的一个周期的学习次数，分别完成所述分级YOLOV5网络模型3个预测分支在一次迭代的训练。

优选的，所述装置还包括：

学习次数计算模块，用于根据所述损失计算模块获得的分级YOLOV5网络模型3个预测分支各自的损失函数值，分别确定所述3个预测分支各自的在所述一次迭代的一个周期的学习次数。

本申请第三方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请的技术方案，分级YOLOV5网络模型的3个预测分支的结构独立、特征独立、输出独立、损失函数值独立，且3个预测分支各分支独立训练，通过分级YOLOV5网络模型的3个预测分支分别对大中小不同尺寸的目标进行检测，分级YOLOV5网络模型的3个预测分支能够直接输出检测结果，避免3个预测分支预测的相互干扰，能够对大中小不同尺寸的目标都达到最优检测效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的分级目标检测方法的流程示意图；

图2是本申请实施例示出的分级目标检测方法的分级YOLOV5网络模型的结构示意图；

图3是本申请实施例示出的分级目标检测方法的另一流程示意图；

图4是本申请实施例示出的分级目标检测装置的结构示意图；

图5是本申请实施例示出的分级目标检测装置的另一结构示意图；

图6是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术YOLOV5网络模型对大中小目标的检测，向YOLOV5网络模型输入含有大目标A、中等目标B和小目标C的图像，输入图像经过YOLOV5网络模型的卷积神经网络后得到不同层次的语义特征F1、F2和F3。

F1为浅层特征，和原图尺度相比8倍下采样，该层次特征每个像素包含的信息量为原图中虚线框101大小范围的总和，F1浅层特征对小目标C的信息表达最为全面，但对大中目标A、B则信息表达不足。

F2为中层特征，和原图尺度相比16倍下采样，该层次特征每个像素包含信息量为原图中虚线框102大小范围的总和，F2层特征对中等目标B的信息表达最为全面，但对大目标A则信息表达不足，对小目标C信息过表达，包含很多除目标C以外的背景信息。

F3为深层特征，和原图尺度相比32倍下采样，该层次特征每个像素包含信息量为原图中虚线框103大小范围的总和，F3层特征对大目标A的信息表达最为全面，但对目标B、C信息过表达，包含很多除目标以外的背景信息。

YOLOV5网络模型为了提高对大中小不同尺寸目标的目标检测能力，将F1、F2和F3不同尺度的信息融合，综合回归不同尺寸目标的检测结果，对总体检测结果进行loss反向传播，优化模型。

对于大目标A，F1和F2增加信息冗余；对于中等目标B，F1增加信息冗余，F3特征的加入会引入很多背景的干扰信息；对于小目标C，F2和F3引入背景干扰。因此，相关技术YOLOV5网络模型对大中小目标检测，无法对大中小不同尺寸的目标都达到最优检测效果。

针对上述问题，本申请实施例提供一种分级目标检测方法，能够对大中小不同尺寸的目标都达到最优检测效果。

以下结合附图详细描述本申请实施例的技术方案。

实施例一：

图1是本申请实施例示出的分级目标检测方法的流程示意图；图2是本申请实施例示出的分级目标检测方法的分级YOLOV5网络模型的结构示意图。

参见图1，一种分级目标检测方法，包括：

在步骤S101中，向分级YOLOV5网络模型输入训练集，其中，分级YOLOV5网络模型在YOLOV5网络模型的基础上去除3个预测分支的信息交互功能，分级YOLOV5网络模型的3个预测分支直接输出检测结果。

在一种实施方式中，如图2所示，分级YOLOV5网络模型包括主干网络20、3个预测分支：小目标预测分支201、中等目标预测分支202、大目标预测分支203。分级YOLOV5网络模型在YOLOV5网络模型基础上去除3个预测分支的信息交互功能，分级YOLOV5网络模型的3个预测分支的结构独立、特征独立、输出独立、损失函数值独立，且3个预测分支各分支独立训练，3个预测分支的输出信息不进行相互交互，可以直接输出检测结果。

在步骤S102中，通过分级YOLOV5网络模型的3个预测分支分别对训练集中的不同尺寸大小的标注框进行预测，分别获得分级YOLOV5网络模型3个预测分支各自的预测输出。

在一种实施方式中，可以根据训练集中标注框的尺寸，将不同尺寸大小的标注框通过标注框的分界线拆分为3类：小标注框类、中等标注框类、大标注框类。通过分级YOLOV5网络模型的小目标预测分支对小标注框类的标注框进行预测输出，获得小目标预测分支预测输出的预测框；通过中等目标预测分支对中等标注框类的标注框进行预测输出，获得中等目标预测分支预测输出的预测框；通过大目标预测分支对大标注框类的标注框进行预测输出，获得大目标预测分支预测输出的预测框。

在步骤S103中，根据分级YOLOV5网络模型3个预测分支各自的预测输出，分别计算分级YOLOV5网络模型3个预测分支各自的损失函数值。

在一种实施方式中，根据分级YOLOV5网络模型的小目标预测分支预测输出的预测框、拆分后的小标注框类的标注框，计算小目标预测分支的损失函数值；根据分级YOLOV5网络模型的中等目标预测分支预测输出的预测框、拆分后的中等标注框类的标注框，计算中等目标预测分支的损失函数值；根据分级YOLOV5网络模型的大目标预测分支预测输出的预测框、拆分后的大标注框类的标注框，计算大目标预测分支的损失函数值。

在步骤S104中，如果分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成分级YOLOV5网络模型的训练。

在一种实施方式中，如果分级YOLOV5网络模型3个预测分支的损失函数值即小目标预测分支的损失函数值、中等目标预测分支的损失函数值和大目标预测分支的损失函数值三个损失函数值的其中最大值小于设定损失阈值时，可以确定完成分级YOLOV5网络模型的训练；和/或，如果对分级YOLOV5网络模型的循环迭代训练次数达到设定迭代次数，也可以确定完成分级YOLOV5网络模型的训练。

在步骤S105中，向完成训练的分级YOLOV5网络模型输入包含目标的图像，以使完成训练的分级YOLOV5网络模型进行目标检测。

本申请实施例示出的分级目标检测方法，分级YOLOV5网络模型的3个预测分支的结构独立、特征独立、输出独立、损失函数值独立，且3个预测分支各分支独立训练，通过分级YOLOV5网络模型的3个预测分支分别对大中小不同尺寸的目标进行检测，分级YOLOV5网络模型的3个预测分支能够直接输出检测结果，避免3个预测分支预测的相互干扰，能够对大中小不同尺寸的目标都达到最优检测效果。

实施例二：

图3是本申请实施例示出的分级目标检测方法的另一流程示意图。图3相对于图1更详细描述了本申请的方案。

在步骤S301中，获取包括采用不同尺寸大小的标注框对多张图像不同尺寸大小的目标进行正确标注的训练集。

在一种实施方式中，图像中包含不同尺寸大小的目标，可以采用不同尺寸大小的标注框对多张图像不同尺寸大小的目标进行正确标注，获得包括多张正确标注图像的训练集。采用不同尺寸大小的标注框对多张图像不同尺寸大小的目标进行正确标注时，可以对多张图像的目标进行分类和标注。

在步骤S302中，向分级YOLOV5网络模型输入训练集，其中，分级YOLOV5网络模型在YOLOV5网络模型的基础上去除3个预测分支的信息交互功能，分级YOLOV5网络模型的3个预测分支直接输出检测结果。

该步骤可以参见步骤S101的描述，此处不再赘述。

在步骤S303中，采用聚类算法根据训练集中的不同尺寸大小的标注框聚类得到3个聚类中心框。

在一种实施方式中，可以采用K-means聚类算法，根据训练集不同尺寸大小的标注框，聚类得到3个聚类中心框：小目标聚类中心框BoxesS、中等目标聚类中心框BoxesM、大目标聚类中心框BoxesL。

在步骤S304中，根据3个聚类中心框，确定将训练集中的不同尺寸大小的标注框拆分为3类的边界线。

在一种实施方式中，将训练集中的不同尺寸大小的标注框拆分为3类的边界线包括第一边界线Split_sm、第二边界线Split_ml。可以根据小目标聚类中心框BoxesS、中等目标聚类中心框BoxesM、大目标聚类中心框BoxesL的高和宽，分别确定第一边界线Split_sm、第二边界线Split_ml。

第一边界线Split_sm = mean(max(BoxesS.w，BoxesS.h)，min(BoxesM.w，BoxesM.h))；

第二边界线Split_ml = mean(max(BoxesM.w，BoxesM.h)，min(BoxesL.w，BoxesL.h))。

式中，BoxesS.w是小目标聚类中心框的宽，BoxesS.h是小目标聚类中心框的高，BoxesM.w是中等目标聚类中心框的宽，BoxesM.h是中等目标聚类中心框的高，max(BoxesS.w，BoxesS.h)是取BoxesS.w、BoxesS.h两者的最大值，min(BoxesM.w，BoxesM.h)是取BoxesM.w、BoxesM.h两者的最小值，BoxesL.w是大目标聚类中心框的宽，BoxesL.h是大目标聚类中心框的高，max(BoxesM.w，BoxesM.h)是取BoxesM.w、BoxesM.h两者的最大值，min(BoxesL.w， BoxesL.h)是取BoxesL.w、BoxesL.h两者的最小值，Mean是指取两者的平均值。

在步骤S305中，根据确定的边界线，将训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类。

在一种实施方式中，对训练集中每张图像（样本）的每个标注框，根据第一边界线Split_sm和第二边界线Split_ml，将训练集中每张图像的不同尺寸大小的标注框，拆分为三类小标注框类targetS类、中等标注框类targetM类和大标注框类targetL类。假设图像中目标的标注框的最窄边为x，如果x≤Split_sm，则与x对应的标注框属于targetS类；如果Split_sm<x<Split_ml，则与x对应的标注框属于targetM类；如果x≥Split_ml，则与x对应的标注框属于targetL类。

在步骤S306中，根据拆分为3类的标注框，分别采用聚类算法生成分级YOLOV5网络模型3个预测分支各自的锚框。

在一种实施方式中，根据属于targetS类的标注框，采用K-means聚类算法，生成小目标预测分支branchS的锚框anchors，小目标预测分支branchS的锚框anchors包括3个锚框；根据属于targetM类的标注框，采用K-means聚类算法，生成中等目标预测分支branchM的锚框anchors，中等目标预测分支branchM的锚框anchors包括3个锚框；根据属于targetL类的标注框，采用K-means聚类算法，生成大目标预测分支branchL的锚框anchors，大目标预测分支branchL的锚框anchors包括3个锚框。

branchS anchors = [BoxesS1.w，BoxesS1.h，BoxesS2.w，BoxesS2.h，BoxesS3.w，BoxesS3.h]；

branchM anchors = [BoxesM1.w，BoxesM1.h，BoxesM2.w，BoxesM2.h，BoxesM3.w，BoxesM3.h]；

branchL anchors = [BoxesL1.w，BoxesL1.h，BoxesL2.w，BoxesL2.h，BoxesL3.w，BoxesL3.h]。

在一种实施方式中，锚框的生成步骤包括：

S3061：给定k个聚类中心点(Wj，Hj)，j取1，2，...，k，其中(Wj，Hj)是原有锚框的宽和高。

S3062：计算每个标注框到每个聚类中心点的距离d，根据距离最近的原则，将标注框分配给“距离d”最近的聚类中心对应的簇中。

S3063：所有标注框分配完毕以后，根据每个簇中所有标注框的宽和高的平均值，重新计算每个簇的聚类中心点。

S3064：重复S3062和S3063这两个步骤，直到聚类中心点的位置变化小于设定阈值，生成锚框。

在一种具体实施方式中，k的取值为3。

在步骤S307中，通过分级YOLOV5网络模型的3个预测分支，分别对3类标注框进行预测，分别获得分级YOLOV5网络模型3个预测分支各自的预测输出。

在一种实施方式中，可以通过分级YOLOV5网络模型的小目标预测分支、中等目标预测分支、大目标预测分支分别对小标注框类的标注框、中等标注框类的标注框、大标注框类的标注框进行预测，分别获得小目标预测分支对小标注框类的标注框的预测输出、中等目标预测分支对中等标注框类的标注框的预测输出，大目标预测分支对大标注框类的标注框的预测输出。

在一种具体实施方式中，小目标预测分支branchS根据其锚框anchors，对属于targetS类的标注框进行预测输出，获得小目标预测分支预测输出的预测框detectS；中等目标预测分支branchM根据其锚框anchors，对属于targetM类的标注框进行预测输出，获得中等目标预测分支预测输出的预测框detectM；大目标预测分支branchL根据其锚框anchors，对属于targetL类的标注框进行预测输出，获得大目标预测分支预测输出的预测框detectL。

在一种具体实施方式中，分级YOLOV5模型的主干网络对训练集中属于targetS类的标注框采用8倍下采样获得小目标特征，对属于targetM类的标注框采用16倍下采样获得中等目标特征，对属于targetL类的标注框采用32倍下采样获得大目标特征。小目标预测分支branchS根据其三个锚框anchor对属于targetS类标注框的小目标特征进行预测输出，预测输出小目标的预测框detectS；中等目标预测分支branchM根据其三个锚框anchor对属于targetM类标注框的中等目标特征进行预测输出，预测输出中等目标的预测框detectM；大目标预测分支branchL根据其三个锚框anchor对属于targetL类标注框的大目标特征进行预测输出，预测输出大目标的预测框detectL。

在步骤308中，根据分级YOLOV5网络模型3个预测分支各自的预测输出，分别计算分级YOLOV5网络模型3个预测分支各自的损失函数值。

在一种实施方式中，损失函数Loss包括采用DIOU_Loss（Distance_IOU_Loss）的位置损失函数、采用Focal Loss的分类损失函数。DIOU_Loss在IOU和GIOU的基础上，考虑边界框中心点距离的信息，收敛速度更快。Focal Loss降低容易分类的样本对损失函数的影响，注重较难分类的样本的训练。根据分级YOLOV5网络模型3个预测分支各自预测前的targetS类的标注框、targetM类的标注框和targetL类的标注框，预测后的预测输出detectS、detectM和detectL，以及损失函数，分别独立计算分级YOLOV5网络模型3个预测分支各自的损失函数值Loss。小目标预测分支的损失函数值LossS=f（targetS，detectS）；中等目标预测分支的损失函数值LossM=f（targetM，detectM）；大目标预测分支的损失函数值LossL=f（targetL，detectL）。

在步骤S309中，根据分级YOLOV5网络模型3个预测分支各自的损失函数值，分别确定3个预测分支各自的在一次迭代的一个周期的学习次数。

在一种实施方式中，在使用同一个训练集对分级YOLOV5网络模型3个独立的预测分支进行独立训练时，3个独立的预测分支的损失函数值大小不一。预测分支的损失函数值越大，采用训练集相同样本对该独立预测分支的训练难度越大，训练学习的次数越大，即在使用同一个训练集对分级YOLOV5网络模型3个独立预测分支进行训练时，3个独立预测分支在一次迭代的一个epoch的学习次数应当是不同的。在一次迭代的一个epoch中，可以根据输入分级YOLOV5网络模型的训练集，3个独立预测分支的损失函数值，分别计算3个独立预测分支在一次迭代的一个epoch的学习次数。

小目标预测分支的学习次数TrainS：

TrainS=round（softmax（LossS，LossM，LossL）[0]*10，0）

=round（

*10，0）；

中等目标预测分支的学习次数TrainM：

TrainM=round（softmax（LossS，LossM，LossL）[1]*10，0）

=round（

*10，0）；

大目标预测分支的学习次数TrainL：

TrainL=round（softmax（LossS，LossM，LossL）[2]*10，0）

=round（

*10，0）。

需要说明的是，在round（X，0）中，如果X小于1，则令round（X，0）=1。例如，TrainL=round（softmax（LossS，LossM，LossL）[2]*10，0）=round（0.02*10，0）=round（0.2，0）=1。

在一种实施方式中，epoch可以理解为“周期”，一次迭代的一个周期（epoch）就是把整个训练集使用一遍。例如，训练集一共有1000个样本，每个样本依次用来训练分级YOLOV5网络模型，当这1000个样本都被用过一遍之后，就说完成了一次迭代的一个周期的分级YOLOV5网络模型训练学习。可以根据分级YOLOV5网络模型小目标预测分支的损失函数值、中等目标预测分支的损失函数值、大目标预测分支的损失函数值，分别计算分级YOLOV5网络模型小目标预测分支、中等目标预测分支、大目标预测分支在一次迭代的一个epoch的学习次数。

在步骤S310中，根据分级YOLOV5网络模型3个预测分支各自的在一次迭代的一个周期的学习次数，分别完成分级YOLOV5网络模型3个预测分支在一次迭代的训练。

在一种实施方式中，分级YOLOV5网络模型一次迭代的epoch可以是一个或多个，一次迭代的每个epoch的学习次数可以相同，也可以不同。由于分级YOLOV5网络模型3个预测分支的结构独立、特征独立、损失函数值独立、训练次数独立，在一次迭代的每个epoch，3个预测分支分开独立训练学习，3个预测分支可以根据各自在一次迭代的一个epoch的学习次数，独立反向传播各自的损失函数值，分别更新3个预测分支各自的参数，完成3个预测分支各自的在一次迭代的每个epoch的学习次数，完成一次迭代的每个epoch，完成一次迭代的训练。

在步骤S311中，判断分级YOLOV5网络模型3个预测分支的损失函数值的最大值是否小于设定损失阈值或循环迭代训练的次数是否达到设定迭代次数；如果是，执行步骤S312；如果否，执行步骤S303。

在一种实施方式中，可以对分级YOLOV5网络模型3个预测分支的损失函数值的最大值和/或循环迭代训练的次数进行判断，如果分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，执行步骤S312；如果分级YOLOV5网络模型3个预测分支的损失函数值的最大值大于或等于设定损失阈值或循环迭代训练的次数没有达到设定迭代次数，执行步骤S303，继续对分级YOLOV5网络模型进行迭代训练，直至分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数。

在步骤S312中，确定完成分级YOLOV5网络模型的训练。

可以理解的，在分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和循环迭代训练的次数达到设定迭代次数两个条件中的任一个条件满足时，确定完成分级YOLOV5网络模型的训练；也可以在分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和循环迭代训练的次数达到设定迭代次数两个条件都满足时，确定完成分级YOLOV5网络模型的训练。

在步骤S313中，向完成训练的分级YOLOV5网络模型输入包含目标的图像，以使完成训练的分级YOLOV5网络模型进行目标检测。

进一步地，本申请实施例示出的分级目标检测方法，采用聚类算法根据训练集中的不同尺寸大小的标注框聚类得到3个聚类中心框；根据3个聚类中心框，确定将训练集中的不同尺寸大小的标注框拆分为3类的边界线；根据确定的边界线，将训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类，使得分级YOLOV5网络模型3个预测分支能够获取各自的最优锚框，能最大包含所在尺寸的标注框，分级YOLOV5网络模型3个预测分支能够相应地、准确地对3类标注框进行预测输出，更利于分级YOLOV5网络模型的训练学习，提高分级YOLOV5网络模型的训练效率。

实施例三：

与前述应用功能实现方法实施例相对应，本申请还提供了一种分级目标检测装置、电子设备及相应的实施例。

图4是本申请实施例示出的分级目标检测装置的结构示意图。

参见图4，一种分级目标检测装置，包括第一输入模块401、预测输出模块402、损失计算模块403、训练完成模块404、第二输入模块405。

第一输入模块401，用于向分级YOLOV5网络模型输入训练集，其中，分级YOLOV5网络模型在YOLOV5网络模型的基础上去除3个预测分支的信息交互功能，分级YOLOV5网络模型的3个预测分支直接输出检测结果。

预测输出模块402，用于通过分级YOLOV5网络模型的3个预测分支分别对第一输入模块401输入的训练集中的不同尺寸大小的标注框进行预测，分别获得分级YOLOV5网络模型3个预测分支各自的预测输出。

损失计算模块403，用于根据预测输出模块402获得的分级YOLOV5网络模型3个预测分支各自的预测输出，分别计算分级YOLOV5网络模型3个预测分支各自的损失函数值。

训练完成模块404，用于如果损失计算模块403获得的分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成分级YOLOV5网络模型的训练。

第二输入模块405，用于向训练完成模块404确定的完成训练的分级YOLOV5网络模型输入包含目标的图像，以使完成训练的分级YOLOV5网络模型进行目标检测。

本申请实施例示出的技术方案，分级YOLOV5网络模型的3个预测分支的结构独立、特征独立、输出独立、损失函数值独立，且3个预测分支各分支独立训练，通过分级YOLOV5网络模型的3个预测分支分别对大中小不同尺寸的目标进行检测，分级YOLOV5网络模型的3个预测分支能够直接输出检测结果，避免3个预测分支预测的相互干扰，能够对大中小不同尺寸的目标都达到最优检测效果。

实施例四：

图5是本申请实施例示出的分级目标检测装置的另一结构示意图。

参见图5，一种分级目标检测装置，包括第一输入模块401、预测输出模块402、损失计算模块403、训练完成模块404、第二输入模块405、学习次数计算模块501、训练模块502。

第一输入模块401，用于获取包括采用不同尺寸大小的标注框对多张图像不同尺寸大小的目标进行正确标注的训练集；向分级YOLOV5网络模型输入训练集，其中，分级YOLOV5网络模型在YOLOV5网络模型的基础上去除3个预测分支的信息交互功能，分级YOLOV5网络模型的3个预测分支直接输出检测结果。

预测输出模块402，用于采用聚类算法根据第一输入模块401输入的训练集中的不同尺寸大小的标注框聚类得到3个聚类中心框；根据3个聚类中心框，确定将训练集中的不同尺寸大小的标注框拆分为3类的边界线；根据确定的边界线，将训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类；根据拆分为3类的标注框，分别采用聚类算法生成分级YOLOV5网络模型3个预测分支各自的锚框；通过分级YOLOV5网络模型的3个预测分支，分别对3类标注框进行预测，分别获得分级YOLOV5网络模型3个预测分支各自的预测输出。

学习次数计算模块501，用于根据损失计算模块403获得的分级YOLOV5网络模型3个预测分支各自的损失函数值，分别确定3个预测分支各自的在一次迭代的一个周期的学习次数。

训练模块502，用于根据学习次数计算模块501确定的分级YOLOV5网络模型3个预测分支各自的在一次迭代的一个周期的学习次数，分别完成分级YOLOV5网络模型3个预测分支在一次迭代的训练。

训练完成模块404，用于判断损失计算模块403获得的分级YOLOV5网络模型3个预测分支的损失函数值的最大值是否小于设定损失阈值或循环迭代训练的次数是否达到设定迭代次数；如果损失计算模块403获得的分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成分级YOLOV5网络模型的训练；如果分级YOLOV5网络模型3个预测分支的损失函数值的最大值大于或等于设定损失阈值或循环迭代训练的次数没有达到设定迭代次数，执行预测输出模块402、损失计算模块403、学习次数计算模块501、训练模块502、训练完成模块404，继续对分级YOLOV5网络模型进行迭代训练，直至训练完成模块404判断分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成分级YOLOV5网络模型的训练。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图6是本申请实施例示出的电子设备的结构示意图。

参见图6，电子设备60包括存储器601和处理器602。

处理器602可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器601可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器602或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器601可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器601可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器601上存储有可执行代码，当可执行代码被处理器602处理时，可以使处理器602执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被电子设备（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种分级目标检测方法，其特征在于，包括：

通过分级YOLOV5网络模型的3个预测分支分别对训练集中的不同尺寸大小的标注框进行预测，分别获得所述分级YOLOV5网络模型3个预测分支各自的预测输出，包括：将所述训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类，通过分级YOLOV5网络模型的小目标预测分支、中等目标预测分支、大目标预测分支分别对小标注框类的标注框、中等标注框类的标注框、大标注框类的标注框进行预测，分别获得所述小目标预测分支对所述小标注框类的标注框的预测输出、所述中等目标预测分支对所述中等标注框类的标注框的预测输出，所述大目标预测分支对所述大标注框类的标注框的预测输出；

2.根据权利要求1所述的方法，其特征在于，所述如果所述分级YOLOV5网络模型3个预测分支的损失函数值的最大值小于设定损失阈值和/或循环迭代训练的次数达到设定迭代次数，确定完成所述分级YOLOV5网络模型的训练之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据分级YOLOV5网络模型3个预测分支各自的在一次迭代的一个周期的学习次数，分别完成所述分级YOLOV5网络模型3个预测分支在一次迭代的训练之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类，包括：

5.一种分级目标检测装置，其特征在于，包括：

预测输出模块，用于通过分级YOLOV5网络模型的3个预测分支分别对所述第一输入模块输入的训练集中的不同尺寸大小的标注框进行预测，分别获得所述分级YOLOV5网络模型3个预测分支各自的预测输出，包括：将所述第一输入模块输入的所述训练集中的不同尺寸大小的标注框拆分为3类：小标注框类、中等标注框类、大标注框类，通过分级YOLOV5网络模型的小目标预测分支、中等目标预测分支、大目标预测分支分别对小标注框类的标注框、中等标注框类的标注框、大标注框类的标注框进行预测，分别获得所述小目标预测分支对所述小标注框类的标注框的预测输出、所述中等目标预测分支对所述中等标注框类的标注框的预测输出，所述大目标预测分支对所述大标注框类的标注框的预测输出；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-4中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-4中任一项所述的方法。