CN112633319A

CN112633319A - 一种不完备数据集中平衡输入数据类别多目标检测方法

Info

Publication number: CN112633319A
Application number: CN202011323339.7A
Authority: CN
Inventors: 杨静; 李少波; 吉晓阳; 杨观赐; 柳庭卿; 白强
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-04-09
Anticipated expiration: 2040-11-23
Also published as: CN112633319B

Abstract

本发明涉及一种不完备数据集中平衡输入数据类别多目标检测方法，本发明通过运用Batch Size平衡数据集类别方法处理因不平衡数据引起模型训练过程中的不稳定性挑战，在不影响原始数据分布的情况下，基于训练数据集类别分布情况平衡Batch Size的输入，使神经网络在每次迭代过程的数据类别均衡并采用多策略的Batch Normalization的方法去平衡训练过程中每个类别的输入数据，确定训练过程中的迭代次数，减少模型在训练过程中过学习和欠学习的情况，将利普希茨连续函数与深度学习的多策略Batch Normalization平衡输入数据方法进行结合，建立满足利普希茨连续函数等式，分析不平衡数据集的正负样本在输入给神经网络模型中，提高检测模型的稳定性，解决数据不平衡分布问题。

Description

一种不完备数据集中平衡输入数据类别多目标检测方法

技术领域

本发明涉及图像数据采集技术领域，尤其涉及一种不完备数据集中平衡输入数据类别多目标检测方法。

背景技术

近年来，随着深度学习得发展，目标检测模型已经取得了较大的进步。主流的目标检测方法包括Two-stage detectors和One-stage detectors方法。Two-stage detectors目标检测网络首先拟合一系列样本候选区域，再通过卷积神经网络对候选区域进行样本分类，这类算法的识别错误率低，速度慢。相较于Two-Stage detectors方法，One-stageDetectors方法不需要候选区域生成阶段，直接在候选区域中产生检测对象的类别概率和位置坐标值，因此有着比Two-Stage Detectors更快的检测速度。但单张图片中存在多个类别，且目标类别间存在数量不均衡问题，使深度学习模型因为输入数据不同而造成训练过程中出现梯度不稳定现象，甚至造成过学习和欠学习等问题。

样本数量类别不均衡问题使得模型在训练过程中存在严重的不稳定性。专家、学者们提出了许多改进方法来缓解该问题，大致可分为3类：一是通过减少多数类样本的欠采样方法和通过增加少数类样本的过采样方法；二是优化神经网络运算过程，如Batch-Normalization和优化损失函数等方法。三是采用数据扩增的方法扩增训练数据，主要包括：图像空间的数据扩增和特征空间/属性引导的数据扩增；尽管以上方法都不同程度上取得了较好得实验结果，但通过优化损失函数的方法是独立与数据的，缺少对数据属性和数据分布的探索。虽然采用过采样和欠采样的方法平衡了不同类别数据的分布，但过采样方法只是重复了正例样本的分布，这种重复采样方法容易引起对正例样本的过拟合，而欠采样方法抛弃了大部分反例数据，可能引起模型的偏差过大。过采样和欠采样的方法都影响了原有的数据分布；在训练过程中采用数据扩增的方法有效的增加了训练数据集，减少了因数据不均衡而引起的不稳定情况，但没有改变原有数据不平衡分布。

发明内容

为此，本发明提供一种不完备数据集中平衡输入数据类别多目标检测方法，用以克服现有技术中数据不平衡分布的问题。

为实现上述目的，本发明提供一种不完备数据集中平衡输入数据类别多目标检测方法，其为规范化Batch Size输入大小的过程，包括：

步骤a，对输入的数据进行清洗，对数据命名进行规范，检查图片文件所对应的标签文件是否为空，以确保每张图片中具有类别实体，没有损坏的文件；

步骤b，依次读取数据集中的Xml文件，获得每张图片中的图片类别，并按照不同的类别对图片进行排序；

步骤c，计算训练数据集中C_i个类别的图片数量，包含Bounding Box数量最少的类别(C_i)_min和Bounding Box数据量最多的类别(C_i)_max以及其它类别中Bounding Box的数量；

步骤d，将C_i个类别中的信息按照{序号，图片名，类别C_i，x,y,w,h}的格式保存在pre_train.txt文件中,x,y表示Bounding Box中心点坐标，w,h表示Bounding Box的宽和高；保存序号是为了让每个Bounding Box都有一个唯一的身份标签；

步骤e，按照类别ID对每类Bounding Box随机打乱次序，根据最少Bounding Box数量类别(C_i)_min的数量(C_i)_{bx_min}-1确定每一次训练中每类Bounding Box的数量，且(C_i)_{bx_min}-1>类别数；

步骤f，在pre_train.txt中取出对应数量的图片，并计算图片的数量Pn，保存在train.txt文件中，train.txt文件内容格式为：{图片名，类别C_i，x,y,w,h}，将图片的数量Pn赋值给Batch Size，确定Batch Size的大小；

步骤g，采用最多类别(C_i)_max的Bounding Box的数量(C_i)_{bx_max}除以64获得Iteration的值，即

步骤h，为了平衡Batch Size中输入的每个类别，运用公式(11)将每次Iteration中单个类别的数据量进行均衡BN_K；

步骤i，当将所有的

执行结束，完成一次Epoch。

进一步地，在一张图片中包括多个不同类别的Bounding Box，对于所有样本寻找一个分类器θ，使得分类损失最小：

其中，P_i,j,k表示第i张图片的第j个候选框属于第k类的概率，τ(.)表示损失函数；当面对二分类问题时，则公式(1)可表示为：

公式(1)中存在图片i包括多个不同的类别，且不同类别的bounding box数量不相等，当一次输入给神经网络多张图片时，公式(1)存在类别不平衡问题,将公式(1)的正负样本分开写，表示为：

其中，j+表示正样本平衡的图片，j-表示负样本不平衡的图片。

进一步地，当公式(1)存在类别不平衡问题时，可将该问题转换为排序问题，公式表示为：

其含义是，对于所有样本对，一个正样本和一个负样本构成一对的损失最小；

对于每幅图像可将公式(4)分解为：

当按照公式(5)来处理输入样本时，产生n₊×n_对样本；存在两种情况：当n-<n₊时，正样本占主导地位；当n_-≥n₊时，负样本占主导地位，正样本的贡献会被负样本所占据。

进一步地，为缓解按照公式(5)来处理输入样本时存在的不平衡问题，不断从多数类中取出部分样本，少数类样本中也随机取出部分样本，建立多个训练组合，将这些组合与Batch Size进行结合输入给深度学习模型的Batch Normalization多类别不平衡数据集训练方法；

当数据集D中具有k个类别的i张图片时，数据集中第i张图片的第j个候选框属于第k类可表示为D_i,j,k，训练集可表示为：

D_i,j,k＝{D_1,1,1,D_1,1,2,,…D_i-1,j-1,k-1…},i>1,j>1,k>2. (6)

每个类别下的bounding box数据量可表示为：

通过公式(7)计算出各个类别的数量，获得数据量最大的类别(D_j,k)_max,数据量中间的类别(D_j,k)_avg和数据量最小的类别(D_j,k)_min；为了保持原有数据分布，并将每个类别中的数据都充分利用，将Batch Size引入到Batch Normalization多类别不平衡数据集训练方法中，Batch Size输入大小用m表示，m＝64。

进一步地，将训练策略与batch size的最优设置进行结合，确定完成一次Epoch的Iteration次数；Iteration为数据量最大的类别(D_j,k)_max除以64，获得随机组合的个数g_r：

为了平衡batch size中输入的每个类别，将每次Iteration中单个类别的数据量进行均衡BN_K，具体方法为：

其中，K为Iteration中类别总个数。

进一步地，当所述检测算法符合利普希茨连续函数时，有等式：

公式中

表示梯度幅值，

和l分别表示有Batch Normalization和Non-BatchNormalization的损失函数，

表示输入为j时的权值激活，σ表示标准差，γ表示常数。

进一步地，Batch Size表示进行一次迭代Iteration所需要的数据量，即一次给训练网络的图片张数；Normalization是进行一种对数值的特殊函数变换的方法，即假设原始的某个数值是x，给一个起到规范化作用的函数，对规范化之前的数值x进行转换，形成一个规范化后的数值：

所述多目标检测算法通过将目标函数f(…)规范化，使输入数据x中的各个类别相等。

与现有技术相比，本发明的有益效果在于，运用Batch Size平衡数据集类别方法处理因不平衡数据引起模型训练过程中的不稳定性挑战。在不影响原始数据分布的情况下，基于训练数据集类别分布情况平衡Batch Size的输入，使神经网络在每次迭代过程的数据类别均衡，在不影响原有数据分布的情况下，采用不完备数据集中平衡输入数据类别多目标检测方法去平衡训练过程中每个类别的输入数据，确定训练过程中的迭代次数，减少模型在训练过程中过学习和欠学习的情况，提高检测模型的稳定性，解决数据不平衡分布问题。

进一步地，通过将利普希茨连续函数与深度学习的不完备数据集中平衡输入数据类别多目标检测方法进行结合，建立满足利普希茨连续函数等式，分析不平衡数据集的正负样本在输入给神经网络模型中，由于负样本的样本类别之间本身存在不平衡问题，引起神经网络在训练过程中的不稳定性的原因，证明了采用本发明所述不完备数据集中平衡输入数据类别多目标检测方法的连续性比没有采用不完备数据集中平衡输入数据类别多目标检测方法的稳定性更好。

附图说明

图1为SUNRGBD数据集19个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线；

图2为为SUNRGBD数据集10个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线；

图3为绞线式弹性毫微型插针图像示例；

图4为绞线式弹性毫微型插针目标类别数据分布图；

图5为不同数据规模下不同方法训练过程中的损失曲线。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

一种不完备数据集中平衡输入数据类别多目标检测方法，包括：

步骤i，当将所有的

执行结束，完成一次Epoch。

具体而言，在一张图片中包括多个不同类别的Bounding Box，对于所有样本寻找一个分类器θ，使得分类损失最小：

具体而言，当公式(1)存在类别不平衡问题时，可将该问题转换为排序问题，公式表示为：

对于每幅图像可将公式(4)分解为：

当按照公式(5)来处理输入样本时，产生n₊×n_-对样本；存在两种情况：当n_-<n₊时，正样本占主导地位；当n_{_}≥n₊时，负样本占主导地位，正样本的贡献会被负样本所占据。

具体而言，为缓解按照公式(5)来处理输入样本时存在的不平衡问题，不断从多数类中取出部分样本，少数类样本中也随机取出部分样本，建立多个训练组合，将这些组合与Batch Size进行结合输入给深度学习模型的Batch Normalization多类别不平衡数据集训练方法；

D_i,j,k＝{D_1,1,1,D_1,1,2,,…D_i-1,j-1,k-1…},i>1,j>1,k>2. (6)

每个类别下的bounding box数据量可表示为：

通过公式(7)计算出各个类别的数量，获得数据量最大的类别(D_j,k)_max,数据量中间的类别(D_j,k)_avg和数据量最小的类别(D_j,k)_min；为了保持原有数据分布，并将每个类别中的数据都充分利用，将Batch Size引入到不完备数据集中平衡输入数据类别多目标检测方法中，Batch Size输入大小用m表示，m＝64。

具体而言，将训练策略与batch size的最优设置进行结合，确定完成一次Epoch的Iteration次数；Iteration为数据量最大的类别(D_j,k)_max除以64，获得随机组合的个数g_r：

其中，K为Iteration中类别总个数。

具体而言，当所述检测算法符合利普希茨连续函数时，有等式：

公式中

表示梯度幅值，

表示输入为j时的权值激活，σ表示标准差，γ表示常数；已知Batch Normalization的Fact C.1定理：

公式(11)中，

是通过BN和另一个函数f：＝f(C),C＝γ.B+β,而B＝BN_k,其中，A^(b)是Batch Size批量大小m的标量元素。结合公式(10),令

将A,B,C代入公式(11)得：

将公式(12)写成向量形式：

当

时，μ_g为梯度向量的均值，

代入公式(13)得：

由

得

则公式(14)可表示为：

对

进行平方运算，由公式(15)得：

因

f：＝f(C),C＝γ.B+β,而B＝BN_k，可BN_K表示网络结构中每次Iteration单个类别的均衡数据量，

将μ_g代入公式(17)得，

而

则可推出，等式(10)恒成立。

具体而言，Batch Size表示进行一次迭代Iteration所需要的数据量，即一次给训练网络的图片张数；Normalization是进行一种对数值的特殊函数变换的方法，即假设原始的某个数值是x，给一个起到规范化作用的函数，对规范化之前的数值x进行转换，形成一个规范化后的数值：

实施例一，将AGA方法作为本发明的Baseline，分别采用本发明所述不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法对普林斯顿大学提供的SUNRGBD数据集进行检测，SUNRGBD数据集包含1067个二维和三维标签的对象类别,具体数据分布见表1。

表1 19个不同类别SUNRGBD数据标签统计

请参阅图1，其为SUNRGBD数据集19个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线。平衡输入类别数据的本发明所述方法的损失曲线平滑性较好，且能较快的下降收敛。

请参阅图2，其为SUNRGBD数据集10个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线，其中Baseline方法在训练过程中损失曲线震动较大，在训练过程中出现了较大的抖动，且存在难以收敛的风险。采用平衡Batch Normalization的方法，通过平等的输入各个类别数据给训练网络，损失曲线是其它方法中最平滑和稳定的，且损失曲线能较快的下降并收敛。

通过比较观察图1和图2不同数据规模下不同方法训练过程中的损失曲线，本发明提出方法的平滑性和稳定性更好。

观察表2，本发明所述不完备数据集中平衡输入数据类别多目标检测方法在bathtub、bookshelf、dresser、night stand、toilet这几类少数样本类别中的分类准确率分别提高1.57％、1.61％、1.97％、2.51％、1.38％。在chair、desk、sofa、table的多数类样本中，分类准确率分别提高了0.60％、0.30％、0.65％。训练数据位于中间类别的bed和sofa分别提高1.34％和1.04％。10类的评价分类准确率比baseline提高了1.28％。这主要是本发明在不影响原始数据分布的情况下，通过平衡每次输入神经网络的数量，提高了少数类样本的检测准确度具有较好的效果，同时，对减轻类别数量不平衡问题影响的过拟合和欠拟合现象。综上分析，本发明所述不完备数据集中平衡输入数据类别多目标检测方法既有利于提高分类准确性，也有利于减少模型在训练过程中的不稳定性。

表2在SUNRGBD测试集中10个类别目标检测mAP

实施例二，建立绞线式弹性毫微型插针缺陷检测工业数据集，主要包括在生产企业现场所获得的缺陷图片数据和在工业在线缺陷检测平通过不断变换检测对象的位置获得的图片数据，共5892张图片，5个类别16210个目标对象，主要包括：针头胖点偏移、尺寸/长度错误、针头有散丝、压扁或鼓包。图片示例如图3所示，表3为绞线式弹性毫微型插针缺陷类别目标数据统计结果。请参阅图4所示，其为绞线式弹性毫微型插针目标类别数据分布图，每个类别之间的数据分布差异很大，如在训练集中，尺寸错误和正常的绞线式弹性毫微型插针之间相差7827个目标类别标签，与针头偏移、压扁和鼓包分别相差4936个和4637个目标类别标签。

表3绞线式弹性毫微型插针类别目标数据统计

请参阅图5所示，其为不同数据规模下不同方法训练过程中的损失曲线，在绞线式弹性毫微型插针数据集下，Baseline方法在训练过程中损失曲线震动较大，在训练过程中出现了较大的抖动，特别是Iteration在15000～30000之间，震荡区间在2.30～7.00之间，震荡区间大，可能存在难以收敛的风险；而特征空间扩增方法在训练过程中增加了每个别的特征数据，可有效的缓减训练过程中的不稳定性，但Iteration在0～10000时，仍然存在较大的抖动现象，整个损失函数曲线震荡区间叫大；采用不完备数据集中平衡输入数据类别多目标检测方法方法，通过平衡的输入各个类别数据给训练网络，模型Iterarion在0～10000时，能快速收敛，虽然模型在开始阶段，仍然存在少量的振荡情况，但相对Baseline方法，震荡较少，综上，不完备数据集中平衡输入数据类别多目标检测方法方法能快速收敛，使训练网络在训练过程中的稳定性更好，缓解训练过程出现过拟合风险。进一步观察(d)Batch Size多策略训练数据方法和特征空间结合的方法，损失曲线是其它方法中最平滑和稳定的，且损失曲线能较快的下降并收敛。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种不完备数据集中平衡输入数据类别多目标检测方法，包括：

步骤d，将C_i个类别中的信息按照{序号，图片名，类别C_i，x，y，w，h}的格式保存在pre_train.txt文件中，x，y表示Bounding Box中心点坐标，w，h表示Bounding Box的宽和高；保存序号是为了让每个Bounding Box都有一个唯一的身份标签；

步骤e，按照类别ID对每类Bounding Box随机打乱次序，根据最少Bounding Box数量类别(C_i)_min的数量(C_i)_{bx_min}-1确定每一次训练中每类Bounding Box的数量，且(C_i)_{bx_min}-1＞类别数；

步骤f，在pre_train.txt中取出对应数量的图片，并计算图片的数量Pn，保存在train.txt文件中，train.txt文件内容格式为：{图片名，类别C_i，x，y，w，h}，将图片的数量Pn赋值给Batch Size，确定Batch Size的大小；

步骤i，当将所有的

执行结束，完成一次Epoch。

2.根据权利要求1所述的不完备数据集中平衡输入数据类别多目标检测方法，其特征在于，在一张图片中包括多个不同类别的Bounding Box，对于所有样本寻找一个分类器θ，使得分类损失最小：

其中，P_i，j，k表示第i张图片的第j个候选框属于第k类的概率，τ(.)表示损失函数；当面对二分类问题时，则公式(1)可表示为：

公式(1)中存在图片i包括多个不同的类别，且不同类别的bounding box数量不相等，当一次输入给神经网络多张图片时，公式(1)存在类别不平衡问题，将公式(1)的正负样本分开写，表示为：

3.根据权利要求2所述的不完备数据集中平衡输入数据类别多目标检测方法，其特征在于，当公式(1)存在类别不平衡问题时，可将该问题转换为排序问题，公式表示为：

对于每幅图像可将公式(4)分解为：

当按照公式(5)来处理输入样本时，产生n₊×n_-对样本；存在两种情况：当n_-＜n₊时，正样本占主导地位；当n_-≥n₊时，负样本占主导地位，正样本的贡献会被负样本所占据。

4.根据权利要求3所述的不完备数据集中平衡输入数据类别多目标检测方法，其特征在于，为缓解按照公式(5)来处理输入样本时存在的不平衡问题，不断从多数类中取出部分样本，少数类样本中也随机取出部分样本，建立多个训练组合，将这些组合与Batch Size进行结合输入给深度学习模型的Batch Normalization多类别不平衡数据集训练方法；

当数据集D中具有k个类别的i张图片时，数据集中第i张图片的第j个候选框属于第k类可表示为D_i，j，k，训练集可表示为：

D_i，j，k＝{D_1，1，1，D_1，1，2，...，D_{i-1，j-1，k-1}...}，i＞1，j＞1，k＞2. (6)

每个类别下的bounding box数据量可表示为：

通过公式(7)计算出各个类别的数量，获得数据量最大的类别(D_j，k)_max，数据量中间的类别(D_j，k)_avg和数据量最小的类别(D_j，k)_min；为了保持原有数据分布，并将每个类别中的数据都充分利用，将Batch Size引入到Batch Normalization多类别不平衡数据集训练方法中，Batch Size输入大小用m表示，m＝64。

5.根据权利要求4所述的不完备数据集中平衡输入数据类别多目标检测方法，其特征在于，将训练策略与batch size的最优设置进行结合，确定完成一次Epoch的Iteration次数；Iteration为数据量最大的类别(D_j，k)_max除以64，获得随机组合的个数g_r：

其中，K为Iteration中类别总个数。

6.根据权利要求4所述的不完备数据集中平衡输入数据类别多目标检测方法，其特征在于，当所述检测算法符合利普希茨连续函数时，有等式：

公式中

表示梯度幅值，

表示输入为j时的权值激活，σ表示标准差，γ表示常数。

7.根据权利要求1所述的不完备数据集中平衡输入数据类别多目标检测方法，其特征在于，Batch Size表示进行一次迭代Iteration所需要的数据量，即一次给训练网络的图片张数；Normalization是进行一种对数值的特殊函数变换的方法，即假设原始的某个数值是x，给一个起到规范化作用的函数，对规范化之前的数值x进行转换，形成一个规范化后的数值：

所述多目标检测算法通过将目标函数f(...)规范化，使输入数据x中的各个类别相等。