CN114241425A

CN114241425A - 垃圾检测模型的训练方法、装置、存储介质及设备

Info

Publication number: CN114241425A
Application number: CN202210154650.6A
Authority: CN
Inventors: 杨帆; 孙羽勃; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology (Jiangsu) Co.,Ltd.
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-03-25
Anticipated expiration: 2042-02-21
Also published as: CN114241425B

Abstract

本申请公开了一种垃圾检测模型的训练方法、装置、存储介质及设备，属于图像处理技术领域。所述方法包括：根据监控视频获取标注数据集，标注数据集中包含多个视频帧和标注信息，标注信息包含视频帧中垃圾的真实框和类别；获取基于YOLOV5网络创建的垃圾检测模型；利用与YOLOV5网络适配的simOTA，从标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据前m个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本，m取10和n中的最大值，n等于真实框对应的候选正样本的总数和预定系数的乘积，预定系数小于1；根据正负样本对垃圾检测模型进行训练。本申请可以提高垃圾检测模型的检测效果。

Description

垃圾检测模型的训练方法、装置、存储介质及设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种垃圾检测模型的训练方法、装置、存储介质及设备。

背景技术

随着近年来居民生活水平的提升，越来越多的商品出现在居民的生活中，从而产生了很多的生活垃圾。我们可以通过AI（Artificial Intelligence，人工智能）+视频监控技术，对公共区域的垃圾进行检测，在确定有垃圾时及时清理，为居民打造良好的生活环境。

在采用垃圾检测模型来识别视频中的垃圾之前，需要先对垃圾检测模型进行训练。现有的垃圾检测模型大多基于Yolo系列构建，Yolo系列通常是根据预定义的规则来匹配锚框（anchor）与真实框（ground truth），从而确定正负样本。比如，比较交并比（IOU）和指定阈值的大小来划分正负样本，或，通过锚框与真实框的长宽比的范围来划分正负样本。

垃圾是种类多且形态多变的目标，若对不同大小、形状、不同遮挡情况下的样本采用统一的静态匹配策略，会导致正负样本的划分不准确，比如，会对某些目标会引入低质量或难以学习的正样本，强制相同层的相同锚框去学习，可能会导致垃圾检测模型顾此失彼，难以达到更好的检测效果。

发明内容

本申请提供了一种垃圾检测模型的训练方法、装置、存储介质及设备，用于解决Yolo系列的正负样本匹配机制为统一的静态匹配策略，导致正负样本的划分不准确，从而影响垃圾检测模型的检测效果的问题。所述技术方案如下：

一方面，提供了一种垃圾检测模型的训练方法，所述方法包括：

根据监控视频获取标注数据集，所述标注数据集中包含多个视频帧和对应的标注信息，所述标注信息中包含所述视频帧中的垃圾的真实框和类别；

获取基于YOLOV5网络创建的垃圾检测模型；

利用与所述YOLOV5网络适配的simOTA，从所述标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的所述前m个最大交并比生成正样本数量K，根据所述正样本数量K从所述标注数据集中筛选正负样本，m取10和n中的最大值，n等于真实框对应的候选正样本的总数和预定系数的乘积，所述预定系数小于1；

根据所述正负样本对所述垃圾检测模型进行训练。

在一种可能的实现方式中，所述利用与所述YOLOV5网络适配的simOTA，从所述标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，包括：

从所述标注数据集中获取每个真实框对应的候选正样本；

根据偏移公式和每个候选正样本的偏移值，将每个候选正样本的检测框还原到原始的视频帧中，所述偏移值包括中心点偏移值和宽高偏移值，所述中心点偏移值是候选正样本的检测框的中心点相对于视频帧中划分的网格的偏移值，所述宽高偏移值是所述检测框的宽高相对于预设锚框的宽高的偏移值；

在所述原始的视频帧中计算每个候选正样本与对应的真实框的交并比；

利用与所述YOLOV5网络适配的simOTA，筛选出与每个真实框相匹配的前m个最大交并比。

在一种可能的实现方式中，所述偏移公式为

= [P^x，P^y，P^w，P^h]，P^x=(σ(t_x)*2 -0.5 + c_x)*s_k，P^y=(σ(t_y)*2 -0.5 + c_y)*s_k，P^w=A_w (σ(t_w)*2)²，P^h=A_h (σ(t_h)*2) ²，其中，是候选正样本的检测框还原到原始的视频帧的坐标，k是第k个特征图，由P^x，P^y，P^w和P^h组成，t是所述偏移值，σ是sigmoid函数，c是所述网格的坐标，S是下采样倍数，A是预设锚框。

在一种可能的实现方式中，所述从所述标注数据集中获取每个真实框对应的候选正样本，包括：

从所述标注数据集中获取每个真实框；

对于每个视频帧中划分的网格，筛选左上角位于所述真实框和正方形区域内的网格，所述正方形区域是以所述真实框的中心点为中心，以指定数值为半径所构成的区域；

将匹配到的网格所对应的三个预设锚框作为所述真实框的候选正样本。

在一种可能的实现方式中，所述根据所述正样本数量K从所述标注数据集中筛选正负样本，包括：

计算每个候选正样本的代价矩阵；

选择前K个代价矩阵最小的候选正样本作为正样本；

将剩余的候选正样本的全部或部分作为负样本。

在一种可能的实现方式中，所述候选正样本的代价矩阵的计算公式为

，其中，θ是所述垃圾检测模型的参数，

是所述垃圾检测模型预测的第j个结果的分类置信度，

是所述垃圾检测模型预测的第j个结果的检测框还原到原始的视频帧的坐标，

是第i个真实框的类别，

是第i个真实框的坐标，L_cls是交叉商熵损失，L_reg是交并比损失，α是平衡系数。

在一种可能的实现方式中，所述根据筛选出的所述前m个最大交并比生成正样本数量K，包括：

将筛选出的所述前m个最大交并比相加后取整；

将取整后的数值作为所述真实框的正样本数量K。

一方面，提供了一种垃圾检测模型的训练装置，所述装置包括：

获取模块，用于根据监控视频获取标注数据集，所述标注数据集中包含多个视频帧和对应的标注信息，所述标注信息中包含所述视频帧中的垃圾的真实框和类别；

所述获取模块，还用于获取基于YOLOV5网络创建的垃圾检测模型；

筛选模块，用于利用与所述YOLOV5网络适配的simOTA，从所述标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的所述前m个最大交并比生成正样本数量K，根据所述正样本数量K从所述标注数据集中筛选正负样本，m取10和n中的最大值，n等于真实框对应的候选正样本的总数和预定系数的乘积，所述预定系数小于1；

训练模块，用于根据所述正负样本对所述垃圾检测模型进行训练。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的垃圾检测模型的训练方法。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的垃圾检测模型的训练方法。

本申请提供的技术方案的有益效果至少包括：

对于基于YOLOV5网络创建的垃圾检测模型，可以利用与YOLOV5网络适配的simOTA，从标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的前m个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本来训练垃圾检测模型，由于m取10和n中的最大值，且n等于真实框对应的候选正样本的总数和预定系数的乘积，所以，能够根据n和10的大小来选取m的取值，避免m的取值固定时导致正负样本的划分不准确的问题，从而提高了正负样本划分的准确性，最终提高了垃圾检测模型的检测效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的垃圾检测模型的训练方法的方法流程图；

图2是本申请另一实施例提供的垃圾检测模型的训练方法的方法流程图；

图3是本申请另一实施例提供的锚框的示意图；

图4是本申请再一实施例提供的垃圾检测模型的检测效果的示意图；

图5是本申请再一实施例提供的垃圾检测模型的训练装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的垃圾检测模型的训练方法的方法流程图，该垃圾检测模型的训练方法可以应用于计算机设备中。该垃圾检测模型的训练方法，可以包括：

步骤101，根据监控视频获取标注数据集，标注数据集中包含多个视频帧和对应的标注信息，标注信息中包含视频帧中的垃圾的真实框和类别。

监控视频可以是对监控区域进行拍摄得到的视频。

计算机设备可以以预定采样频率从监控视频中采样得到多个视频帧，再根据业务要求对视频帧中的垃圾的真实框和类别进行标注。其中，真实框用于表示垃圾在视频帧中的真实位置，类别可以是垃圾或具体的垃圾种类。

步骤102，获取基于YOLOV5网络创建的垃圾检测模型。

计算机设备可以基于YOLOV5网络创建垃圾检测模型。

步骤103，利用与YOLOV5网络适配的simOTA，从标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的前m个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本，m取10和n中的最大值，n等于真实框对应的候选正样本的总数和预定系数的乘积，预定系数小于1。

原来的simOTA是与YOLOX网络适配的，本实施例中基于原来的simOTA进行了改进，使得改进后的simOTA能够与YOLOV5网络适配。

在YOLOV5网络的正负样本匹配机制中，一个真实框在全部特征图上最多对应27（3*3*3）个正样本，而原来的simOTA中一个真实框最多只有10个正样本与之匹配，数量少于YOLOV5网络的正负样本匹配机制中的正样本数量。为使与YOLOV5网络匹配的simOTA在YOLOV 5网络中可以帮助垃圾检测模型学习到更多的高质量正样本，从而加快收敛，本申请中将原来的simOTA中的10替换成max(10，β*真实框对应的候选正样本的总数量)，β为预定系数。其中，β可以是经验值，本实施例不限定具体数值。

在一个示例中，β=0.5，且改进后的simOTA针对一个真实框筛选出了50个候选正样本，则n=0.5*50=25，由于25＞10，所以，m=25，即，计算机设备筛选出与每个真实框相匹配的前25个最大交并比（IOU），根据筛选出的前25个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本。

步骤104，根据正负样本对垃圾检测模型进行训练。

在得到正负样本后，计算机设备可以基于正负样本对垃圾检测模型进行训练，得到最终的垃圾检测模型。

本实施例中，与YOLOV5网络适配的simOTA可以自动分析每个真实框需要与多少个正样本进行匹配，由哪个特征图进行检测，而不需要再人为制定静态匹配策略。除此之外，动态匹配策略可以对不同大小，尺寸和遮挡程度的目标选择更匹配更合适的正样本，避免强制相同层的相同锚框去学习，从而可以提高正负样本划分的准确性，最终提高了垃圾检测模型的检测效果。

综上所述，本申请实施例提供的垃圾检测模型的训练方法，对于基于YOLOV5网络创建的垃圾检测模型，可以利用与YOLOV5网络适配的simOTA，从标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的前m个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本来训练垃圾检测模型，由于m取10和n中的最大值，且n等于真实框对应的候选正样本的总数和预定系数的乘积，所以，能够根据n和10的大小来选取m的取值，避免m的取值固定时导致正负样本的划分不准确的问题，从而提高了正负样本划分的准确性，最终提高了垃圾检测模型的检测效果。

请参考图2，其示出了本申请另一实施例提供的垃圾检测模型的训练方法的方法流程图，该垃圾检测模型的训练方法可以应用于计算机设备中。该垃圾检测模型的训练方法，可以包括：

步骤201，根据监控视频获取标注数据集，标注数据集中包含多个视频帧和对应的标注信息，标注信息中包含视频帧中的垃圾的真实框和类别。

监控视频可以是对监控区域进行拍摄得到的视频。

步骤202，获取基于YOLOV5网络创建的垃圾检测模型。

计算机设备可以基于YOLOV5网络创建垃圾检测模型。

步骤203，从标注数据集中获取每个真实框对应的候选正样本。

具体的，从标注数据集中获取每个真实框对应的候选正样本，可以包括：从标注数据集中获取每个真实框；对于每个视频帧中划分的网格，筛选左上角位于真实框和正方形区域内的网格，该正方形区域是以真实框的中心点为中心，以指定数值为半径所构成的区域；将匹配到的网格所对应的三个预设锚框作为真实框的候选正样本。

本实施例中，计算机设备可以预先设置两个筛选规则，第一个筛选规则是筛选左上角位于真实框内的网格，这是因为在YOLOV5网络中，每个锚框的中心点为特征图中每个网格左上角的坐标；第二个筛选规则是以真实框的中心点为中心，以指定数值为半径构成的正方形区域，筛选左上角位于该正方形区域内的网格。

由于YOLOV5网络中，一个网格对应三个锚框，若一个网格满足上述两个筛选规则，则该网格对应的三个锚框都可以作为与真实框相匹配的候选正样本，因此，需要将匹配到的网格所对应的三个预设锚框都作为真实框的候选正样本。

步骤204，根据偏移公式和每个候选正样本的偏移值，将每个候选正样本的检测框还原到原始的视频帧中，偏移值包括中心点偏移值和宽高偏移值，中心点偏移值是候选正样本的检测框的中心点相对于视频帧中划分的网格的偏移值，宽高偏移值是检测框的宽高相对于预设锚框的宽高的偏移值。

本实施例中，计算机设备需要计算每个候选正样本的代价矩阵，该代价矩阵包括分类代价矩阵和回归待机矩阵。

在计算回归代价矩阵时，由于YOLOV5网络预测的是检测框的中心点xy相对于网格的偏移值，以及检测框的宽高相对于预设锚框的宽高的偏移值，所以，需要将预测的偏移值还原到原始的视频帧中，再与真实框在该原始的视频帧中的位置进行交并比（IOU）计算。

其中，偏移公式为

= [P^x，P^y，P^w，P^h]，P^x=(σ(t_x)*2 -0.5 + c_x)*s_k，P^y=(σ(t_y)*2-0.5 + c_y)*s_k，P^w=A_w (σ(t_w)*2)²，P^h=A_h (σ(t_h)*2) ²，其中，是候选正样本的检测框还原到原始的视频帧的坐标，k是第k个特征图，由P^x，P^y，P^w和P^h组成，t是偏移值，σ是sigmoid函数，c是网格的坐标，S是下采样倍数，A是预设锚框。

步骤205，在原始的视频帧中计算每个候选正样本与对应的真实框的交并比，利用与YOLOV5网络适配的simOTA，筛选出与每个真实框相匹配的前m个最大交并比，m取10和n中的最大值，n等于真实框对应的候选正样本的总数和预定系数的乘积，预定系数小于1。

在YOLOV5网络的正负样本匹配机制中，一个真实框在全部特征图上最多对应27（3*3*3）个正样本，而原来的simOTA中一个真实框最多只有10个正样本与之匹配，数量少于YOLOV5网络的正负样本匹配机制中的正样本数量。为使与YOLOV5网络匹配的simOTA在YOLOV5网络中可以帮助垃圾检测模型学习到更多的高质量正样本，从而加快收敛，本申请中将原来的simOTA中的10替换成max(10，β*真实框对应的候选正样本的总数量)，β为小于1的预定系数。其中，β可以是经验值，本实施例不限定具体数值。

在一个示例中，β=0.5，且改进后的simOTA针对一个真实框筛选出了50个候选正样本，则n=0.5*50=25，由于25＞10，所以，m=25，即，计算机设备筛选出与每个真实框相匹配的前25个最大交并比（IOU）。

步骤206，根据筛选出的前m个最大交并比生成正样本数量K。

具体的，根据筛选出的前m个最大交并比生成正样本数量K，可以包括：将筛选出的前m个最大交并比相加后取整；将取整后的数值作为真实框的正样本数量K。

步骤207，根据正样本数量K从标注数据集中筛选正负样本。

具体的，根据正样本数量K从标注数据集中筛选正负样本，可以包括：计算每个候选正样本的代价矩阵；选择前K个代价矩阵最小的候选正样本作为正样本；将剩余的候选正样本的全部或部分作为负样本。

候选正样本的代价矩阵的计算公式为

，其中，θ是所述垃圾检测模型的参数，

是所述垃圾检测模型预测的第j个结果的分类置信度，

是第i个真实框的类别，

请参考图3，图3中的白色格子为网格，两个灰色框为真实框，每个灰色框中的深色框为与真实框匹配的锚框。

步骤208，根据正负样本对垃圾检测模型进行训练。

与YOLOV5网络适配的simOTA在垃圾检测上相较于YOLOV5取得了更好的检测效果，如图4所示：上面一条曲线代表采用了与YOLOV5网络适配的simOTA正负样本匹配机制的检测效果，下面一条曲线代表采用了原始YOLOV5网络正负样本匹配机制的检测效果。

请参考图5，其示出了本申请一个实施例提供的垃圾检测模型的训练装置的结构框图，该垃圾检测模型的训练装置可以应用于计算机设备中。该垃圾检测模型的训练装置，可以包括：

获取模块510，用于根据监控视频获取标注数据集，标注数据集中包含多个视频帧和对应的标注信息，标注信息中包含视频帧中的垃圾的真实框和类别；

获取模块510，还用于获取基于YOLOV5网络创建的垃圾检测模型；

筛选模块520，用于利用与YOLOV5网络适配的simOTA，从标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的前m个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本，m取10和n中的最大值，n等于真实框对应的候选正样本的总数和预定系数的乘积，预定系数小于1；

训练模块530，用于根据正负样本对垃圾检测模型进行训练。

在一个可选的实施例中，筛选模块520，还用于：

从标注数据集中获取每个真实框对应的候选正样本；

根据偏移公式和每个候选正样本的偏移值，将每个候选正样本的检测框还原到原始的视频帧中，偏移值包括中心点偏移值和宽高偏移值，中心点偏移值是候选正样本的检测框的中心点相对于视频帧中划分的网格的偏移值，宽高偏移值是检测框的宽高相对于预设锚框的宽高的偏移值；

在原始的视频帧中计算每个候选正样本与对应的真实框的交并比；

在一个可选的实施例中，偏移公式为

= [P^x，P^y，P^w，P^h]，P^x=(σ(t_x)*2 -0.5 +c_x)*s_k，P^y=(σ(t_y)*2 -0.5 + c_y)*s_k，P^w=A_w (σ(t_w)*2)²，P^h=A_h (σ(t_h)*2) ²，其中，是候选正样本的检测框还原到原始的视频帧的坐标，k是第k个特征图，由P^x，P^y，P^w和P^h组成，t是偏移值，σ是sigmoid函数，c是网格的坐标，S是下采样倍数，A是预设锚框。

在一个可选的实施例中，筛选模块520，还用于：

从标注数据集中获取每个真实框；

对于每个视频帧中划分的网格，筛选左上角位于真实框和正方形区域内的网格，正方形区域是以真实框的中心点为中心，以指定数值为半径所构成的区域；

将匹配到的网格所对应的三个预设锚框作为真实框的候选正样本。

在一个可选的实施例中，筛选模块520，还用于：

计算每个候选正样本的代价矩阵；

选择前K个代价矩阵最小的候选正样本作为正样本；

将剩余的候选正样本的全部或部分作为负样本。

在一个可选的实施例中，候选正样本的代价矩阵的计算公式为

，其中，θ是所述垃圾检测模型的参数，

是所述垃圾检测模型预测的第j个结果的分类置信度，

是第i个真实框的类别，

在一个可选的实施例中，筛选模块520，还用于：

将筛选出的前m个最大交并比相加后取整；

将取整后的数值作为真实框的正样本数量K。

综上所述，本申请实施例提供的垃圾检测模型的训练装置，对于基于YOLOV5网络创建的垃圾检测模型，可以利用与YOLOV5网络适配的simOTA，从标注数据集中筛选出与每个真实框相匹配的前m个最大交并比，根据筛选出的前m个最大交并比生成正样本数量K，根据正样本数量K从标注数据集中筛选正负样本来训练垃圾检测模型，由于m取10和n中的最大值，且n等于真实框对应的候选正样本的总数和预定系数的乘积，所以，能够根据n和10的大小来选取m的取值，避免m的取值固定时导致正负样本的划分不准确的问题，从而提高了正负样本划分的准确性，最终提高了垃圾检测模型的检测效果。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的垃圾检测模型的训练方法。

本申请一个实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的垃圾检测模型的训练方法。

需要说明的是：上述实施例提供的垃圾检测模型的训练装置在进行垃圾检测模型的训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将垃圾检测模型的训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的垃圾检测模型的训练装置与垃圾检测模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。