CN112633319A - 一种不完备数据集中平衡输入数据类别多目标检测方法 - Google Patents

一种不完备数据集中平衡输入数据类别多目标检测方法 Download PDF

Info

Publication number
CN112633319A
CN112633319A CN202011323339.7A CN202011323339A CN112633319A CN 112633319 A CN112633319 A CN 112633319A CN 202011323339 A CN202011323339 A CN 202011323339A CN 112633319 A CN112633319 A CN 112633319A
Authority
CN
China
Prior art keywords
category
data
data set
class
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011323339.7A
Other languages
English (en)
Other versions
CN112633319B (zh
Inventor
杨静
李少波
吉晓阳
杨观赐
柳庭卿
白强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202011323339.7A priority Critical patent/CN112633319B/zh
Publication of CN112633319A publication Critical patent/CN112633319A/zh
Application granted granted Critical
Publication of CN112633319B publication Critical patent/CN112633319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种不完备数据集中平衡输入数据类别多目标检测方法,本发明通过运用Batch Size平衡数据集类别方法处理因不平衡数据引起模型训练过程中的不稳定性挑战,在不影响原始数据分布的情况下,基于训练数据集类别分布情况平衡Batch Size的输入,使神经网络在每次迭代过程的数据类别均衡并采用多策略的Batch Normalization的方法去平衡训练过程中每个类别的输入数据,确定训练过程中的迭代次数,减少模型在训练过程中过学习和欠学习的情况,将利普希茨连续函数与深度学习的多策略Batch Normalization平衡输入数据方法进行结合,建立满足利普希茨连续函数等式,分析不平衡数据集的正负样本在输入给神经网络模型中,提高检测模型的稳定性,解决数据不平衡分布问题。

Description

一种不完备数据集中平衡输入数据类别多目标检测方法
技术领域
本发明涉及图像数据采集技术领域,尤其涉及一种不完备数据集中平衡输入数据类别多目标检测方法。
背景技术
近年来,随着深度学习得发展,目标检测模型已经取得了较大的进步。主流的目标检测方法包括Two-stage detectors和One-stage detectors方法。Two-stage detectors目标检测网络首先拟合一系列样本候选区域,再通过卷积神经网络对候选区域进行样本分类,这类算法的识别错误率低,速度慢。相较于Two-Stage detectors方法,One-stageDetectors方法不需要候选区域生成阶段,直接在候选区域中产生检测对象的类别概率和位置坐标值,因此有着比Two-Stage Detectors更快的检测速度。但单张图片中存在多个类别,且目标类别间存在数量不均衡问题,使深度学习模型因为输入数据不同而造成训练过程中出现梯度不稳定现象,甚至造成过学习和欠学习等问题。
样本数量类别不均衡问题使得模型在训练过程中存在严重的不稳定性。专家、学者们提出了许多改进方法来缓解该问题,大致可分为3类:一是通过减少多数类样本的欠采样方法和通过增加少数类样本的过采样方法;二是优化神经网络运算过程,如Batch-Normalization和优化损失函数等方法。三是采用数据扩增的方法扩增训练数据,主要包括:图像空间的数据扩增和特征空间/属性引导的数据扩增;尽管以上方法都不同程度上取得了较好得实验结果,但通过优化损失函数的方法是独立与数据的,缺少对数据属性和数据分布的探索。虽然采用过采样和欠采样的方法平衡了不同类别数据的分布,但过采样方法只是重复了正例样本的分布,这种重复采样方法容易引起对正例样本的过拟合,而欠采样方法抛弃了大部分反例数据,可能引起模型的偏差过大。过采样和欠采样的方法都影响了原有的数据分布;在训练过程中采用数据扩增的方法有效的增加了训练数据集,减少了因数据不均衡而引起的不稳定情况,但没有改变原有数据不平衡分布。
发明内容
为此,本发明提供一种不完备数据集中平衡输入数据类别多目标检测方法,用以克服现有技术中数据不平衡分布的问题。
为实现上述目的,本发明提供一种不完备数据集中平衡输入数据类别多目标检测方法,其为规范化Batch Size输入大小的过程,包括:
步骤a,对输入的数据进行清洗,对数据命名进行规范,检查图片文件所对应的标签文件是否为空,以确保每张图片中具有类别实体,没有损坏的文件;
步骤b,依次读取数据集中的Xml文件,获得每张图片中的图片类别,并按照不同的类别对图片进行排序;
步骤c,计算训练数据集中Ci个类别的图片数量,包含Bounding Box数量最少的类别(Ci)min和Bounding Box数据量最多的类别(Ci)max以及其它类别中Bounding Box的数量;
步骤d,将Ci个类别中的信息按照{序号,图片名,类别Ci,x,y,w,h}的格式保存在pre_train.txt文件中,x,y表示Bounding Box中心点坐标,w,h表示Bounding Box的宽和高;保存序号是为了让每个Bounding Box都有一个唯一的身份标签;
步骤e,按照类别ID对每类Bounding Box随机打乱次序,根据最少Bounding Box数量类别(Ci)min的数量(Ci)bx_min-1确定每一次训练中每类Bounding Box的数量,且(Ci)bx_min-1>类别数;
步骤f,在pre_train.txt中取出对应数量的图片,并计算图片的数量Pn,保存在train.txt文件中,train.txt文件内容格式为:{图片名,类别Ci,x,y,w,h},将图片的数量Pn赋值给Batch Size,确定Batch Size的大小;
步骤g,采用最多类别(Ci)max的Bounding Box的数量(Ci)bx_max除以64获得Iteration的值,即
Figure BDA0002793560360000021
步骤h,为了平衡Batch Size中输入的每个类别,运用公式(11)将每次Iteration中单个类别的数据量进行均衡BNK
步骤i,当将所有的
Figure BDA0002793560360000022
执行结束,完成一次Epoch。
进一步地,在一张图片中包括多个不同类别的Bounding Box,对于所有样本寻找一个分类器θ,使得分类损失最小:
Figure BDA0002793560360000031
其中,Pi,j,k表示第i张图片的第j个候选框属于第k类的概率,τ(.)表示损失函数;当面对二分类问题时,则公式(1)可表示为:
Figure BDA0002793560360000032
公式(1)中存在图片i包括多个不同的类别,且不同类别的bounding box数量不相等,当一次输入给神经网络多张图片时,公式(1)存在类别不平衡问题,将公式(1)的正负样本分开写,表示为:
Figure BDA0002793560360000033
其中,j+表示正样本平衡的图片,j-表示负样本不平衡的图片。
进一步地,当公式(1)存在类别不平衡问题时,可将该问题转换为排序问题,公式表示为:
Figure BDA0002793560360000034
其含义是,对于所有样本对,一个正样本和一个负样本构成一对的损失最小;
对于每幅图像可将公式(4)分解为:
Figure BDA0002793560360000035
当按照公式(5)来处理输入样本时,产生n+×n_对样本;存在两种情况:当n-<n+时,正样本占主导地位;当n-≥n+时,负样本占主导地位,正样本的贡献会被负样本所占据。
进一步地,为缓解按照公式(5)来处理输入样本时存在的不平衡问题,不断从多数类中取出部分样本,少数类样本中也随机取出部分样本,建立多个训练组合,将这些组合与Batch Size进行结合输入给深度学习模型的Batch Normalization多类别不平衡数据集训练方法;
当数据集D中具有k个类别的i张图片时,数据集中第i张图片的第j个候选框属于第k类可表示为Di,j,k,训练集可表示为:
Di,j,k={D1,1,1,D1,1,2,,…Di-1,j-1,k-1…},i>1,j>1,k>2. (6)
每个类别下的bounding box数据量可表示为:
Figure BDA0002793560360000041
通过公式(7)计算出各个类别的数量,获得数据量最大的类别(Dj,k)max,数据量中间的类别(Dj,k)avg和数据量最小的类别(Dj,k)min;为了保持原有数据分布,并将每个类别中的数据都充分利用,将Batch Size引入到Batch Normalization多类别不平衡数据集训练方法中,Batch Size输入大小用m表示,m=64。
进一步地,将训练策略与batch size的最优设置进行结合,确定完成一次Epoch的Iteration次数;Iteration为数据量最大的类别(Dj,k)max除以64,获得随机组合的个数gr
Figure BDA0002793560360000042
为了平衡batch size中输入的每个类别,将每次Iteration中单个类别的数据量进行均衡BNK,具体方法为:
Figure BDA0002793560360000043
其中,K为Iteration中类别总个数。
进一步地,当所述检测算法符合利普希茨连续函数时,有等式:
Figure BDA0002793560360000044
公式中
Figure BDA0002793560360000045
表示梯度幅值,
Figure BDA0002793560360000046
和l分别表示有Batch Normalization和Non-BatchNormalization的损失函数,
Figure BDA0002793560360000047
表示输入为j时的权值激活,σ表示标准差,γ表示常数。
进一步地,Batch Size表示进行一次迭代Iteration所需要的数据量,即一次给训练网络的图片张数;Normalization是进行一种对数值的特殊函数变换的方法,即假设原始的某个数值是x,给一个起到规范化作用的函数,对规范化之前的数值x进行转换,形成一个规范化后的数值:
Figure BDA0002793560360000048
所述多目标检测算法通过将目标函数f(…)规范化,使输入数据x中的各个类别相等。
与现有技术相比,本发明的有益效果在于,运用Batch Size平衡数据集类别方法处理因不平衡数据引起模型训练过程中的不稳定性挑战。在不影响原始数据分布的情况下,基于训练数据集类别分布情况平衡Batch Size的输入,使神经网络在每次迭代过程的数据类别均衡,在不影响原有数据分布的情况下,采用不完备数据集中平衡输入数据类别多目标检测方法去平衡训练过程中每个类别的输入数据,确定训练过程中的迭代次数,减少模型在训练过程中过学习和欠学习的情况,提高检测模型的稳定性,解决数据不平衡分布问题。
进一步地,通过将利普希茨连续函数与深度学习的不完备数据集中平衡输入数据类别多目标检测方法进行结合,建立满足利普希茨连续函数等式,分析不平衡数据集的正负样本在输入给神经网络模型中,由于负样本的样本类别之间本身存在不平衡问题,引起神经网络在训练过程中的不稳定性的原因,证明了采用本发明所述不完备数据集中平衡输入数据类别多目标检测方法的连续性比没有采用不完备数据集中平衡输入数据类别多目标检测方法的稳定性更好。
附图说明
图1为SUNRGBD数据集19个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线;
图2为为SUNRGBD数据集10个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线;
图3为绞线式弹性毫微型插针图像示例;
图4为绞线式弹性毫微型插针目标类别数据分布图;
图5为不同数据规模下不同方法训练过程中的损失曲线。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
一种不完备数据集中平衡输入数据类别多目标检测方法,包括:
步骤a,对输入的数据进行清洗,对数据命名进行规范,检查图片文件所对应的标签文件是否为空,以确保每张图片中具有类别实体,没有损坏的文件;
步骤b,依次读取数据集中的Xml文件,获得每张图片中的图片类别,并按照不同的类别对图片进行排序;
步骤c,计算训练数据集中Ci个类别的图片数量,包含Bounding Box数量最少的类别(Ci)min和Bounding Box数据量最多的类别(Ci)max以及其它类别中Bounding Box的数量;
步骤d,将Ci个类别中的信息按照{序号,图片名,类别Ci,x,y,w,h}的格式保存在pre_train.txt文件中,x,y表示Bounding Box中心点坐标,w,h表示Bounding Box的宽和高;保存序号是为了让每个Bounding Box都有一个唯一的身份标签;
步骤e,按照类别ID对每类Bounding Box随机打乱次序,根据最少Bounding Box数量类别(Ci)min的数量(Ci)bx_min-1确定每一次训练中每类Bounding Box的数量,且(Ci)bx_min-1>类别数;
步骤f,在pre_train.txt中取出对应数量的图片,并计算图片的数量Pn,保存在train.txt文件中,train.txt文件内容格式为:{图片名,类别Ci,x,y,w,h},将图片的数量Pn赋值给Batch Size,确定Batch Size的大小;
步骤g,采用最多类别(Ci)max的Bounding Box的数量(Ci)bx_max除以64获得Iteration的值,即
Figure BDA0002793560360000061
步骤h,为了平衡Batch Size中输入的每个类别,运用公式(11)将每次Iteration中单个类别的数据量进行均衡BNK
步骤i,当将所有的
Figure BDA0002793560360000071
执行结束,完成一次Epoch。
具体而言,在一张图片中包括多个不同类别的Bounding Box,对于所有样本寻找一个分类器θ,使得分类损失最小:
Figure BDA0002793560360000072
其中,Pi,j,k表示第i张图片的第j个候选框属于第k类的概率,τ(.)表示损失函数;当面对二分类问题时,则公式(1)可表示为:
Figure BDA0002793560360000073
公式(1)中存在图片i包括多个不同的类别,且不同类别的bounding box数量不相等,当一次输入给神经网络多张图片时,公式(1)存在类别不平衡问题,将公式(1)的正负样本分开写,表示为:
Figure BDA0002793560360000074
其中,j+表示正样本平衡的图片,j-表示负样本不平衡的图片。
具体而言,当公式(1)存在类别不平衡问题时,可将该问题转换为排序问题,公式表示为:
Figure BDA0002793560360000075
其含义是,对于所有样本对,一个正样本和一个负样本构成一对的损失最小;
对于每幅图像可将公式(4)分解为:
Figure BDA0002793560360000076
当按照公式(5)来处理输入样本时,产生n+×n-对样本;存在两种情况:当n-<n+时,正样本占主导地位;当n_≥n+时,负样本占主导地位,正样本的贡献会被负样本所占据。
具体而言,为缓解按照公式(5)来处理输入样本时存在的不平衡问题,不断从多数类中取出部分样本,少数类样本中也随机取出部分样本,建立多个训练组合,将这些组合与Batch Size进行结合输入给深度学习模型的Batch Normalization多类别不平衡数据集训练方法;
当数据集D中具有k个类别的i张图片时,数据集中第i张图片的第j个候选框属于第k类可表示为Di,j,k,训练集可表示为:
Di,j,k={D1,1,1,D1,1,2,,…Di-1,j-1,k-1…},i>1,j>1,k>2. (6)
每个类别下的bounding box数据量可表示为:
Figure BDA0002793560360000081
通过公式(7)计算出各个类别的数量,获得数据量最大的类别(Dj,k)max,数据量中间的类别(Dj,k)avg和数据量最小的类别(Dj,k)min;为了保持原有数据分布,并将每个类别中的数据都充分利用,将Batch Size引入到不完备数据集中平衡输入数据类别多目标检测方法中,Batch Size输入大小用m表示,m=64。
具体而言,将训练策略与batch size的最优设置进行结合,确定完成一次Epoch的Iteration次数;Iteration为数据量最大的类别(Dj,k)max除以64,获得随机组合的个数gr
Figure BDA0002793560360000082
为了平衡batch size中输入的每个类别,将每次Iteration中单个类别的数据量进行均衡BNK,具体方法为:
Figure BDA0002793560360000083
其中,K为Iteration中类别总个数。
具体而言,当所述检测算法符合利普希茨连续函数时,有等式:
Figure BDA0002793560360000084
公式中
Figure BDA0002793560360000085
表示梯度幅值,
Figure BDA0002793560360000086
和l分别表示有Batch Normalization和Non-BatchNormalization的损失函数,
Figure BDA0002793560360000087
表示输入为j时的权值激活,σ表示标准差,γ表示常数;已知Batch Normalization的Fact C.1定理:
Figure BDA0002793560360000088
公式(11)中,
Figure BDA0002793560360000089
是通过BN和另一个函数f:=f(C),C=γ.B+β,而B=BNk,其中,A(b)是Batch Size批量大小m的标量元素。结合公式(10),令
Figure BDA0002793560360000091
将A,B,C代入公式(11)得:
Figure BDA0002793560360000092
将公式(12)写成向量形式:
Figure BDA0002793560360000093
Figure BDA0002793560360000094
时,μg为梯度向量的均值,
Figure BDA0002793560360000095
代入公式(13)得:
Figure BDA0002793560360000096
Figure BDA0002793560360000097
Figure BDA0002793560360000098
则公式(14)可表示为:
Figure BDA0002793560360000099
Figure BDA00027935603600000910
进行平方运算,由公式(15)得:
Figure BDA00027935603600000911
Figure BDA00027935603600000912
f:=f(C),C=γ.B+β,而B=BNk,可BN_K表示网络结构中每次Iteration单个类别的均衡数据量,
Figure BDA00027935603600000913
将μg代入公式(17)得,
Figure BDA00027935603600000914
Figure BDA00027935603600000915
则可推出,等式(10)恒成立。
具体而言,Batch Size表示进行一次迭代Iteration所需要的数据量,即一次给训练网络的图片张数;Normalization是进行一种对数值的特殊函数变换的方法,即假设原始的某个数值是x,给一个起到规范化作用的函数,对规范化之前的数值x进行转换,形成一个规范化后的数值:
Figure BDA00027935603600000916
所述多目标检测算法通过将目标函数f(…)规范化,使输入数据x中的各个类别相等。
实施例一,将AGA方法作为本发明的Baseline,分别采用本发明所述不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法对普林斯顿大学提供的SUNRGBD数据集进行检测,SUNRGBD数据集包含1067个二维和三维标签的对象类别,具体数据分布见表1。
表1 19个不同类别SUNRGBD数据标签统计
Figure BDA0002793560360000101
请参阅图1,其为SUNRGBD数据集19个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线。平衡输入类别数据的本发明所述方法的损失曲线平滑性较好,且能较快的下降收敛。
请参阅图2,其为SUNRGBD数据集10个类别下不完备数据集中平衡输入数据类别多目标检测方法与Baseline方法训练过程中的损失曲线,其中Baseline方法在训练过程中损失曲线震动较大,在训练过程中出现了较大的抖动,且存在难以收敛的风险。采用平衡Batch Normalization的方法,通过平等的输入各个类别数据给训练网络,损失曲线是其它方法中最平滑和稳定的,且损失曲线能较快的下降并收敛。
通过比较观察图1和图2不同数据规模下不同方法训练过程中的损失曲线,本发明提出方法的平滑性和稳定性更好。
观察表2,本发明所述不完备数据集中平衡输入数据类别多目标检测方法在bathtub、bookshelf、dresser、night stand、toilet这几类少数样本类别中的分类准确率分别提高1.57%、1.61%、1.97%、2.51%、1.38%。在chair、desk、sofa、table的多数类样本中,分类准确率分别提高了0.60%、0.30%、0.65%。训练数据位于中间类别的bed和sofa分别提高1.34%和1.04%。10类的评价分类准确率比baseline提高了1.28%。这主要是本发明在不影响原始数据分布的情况下,通过平衡每次输入神经网络的数量,提高了少数类样本的检测准确度具有较好的效果,同时,对减轻类别数量不平衡问题影响的过拟合和欠拟合现象。综上分析,本发明所述不完备数据集中平衡输入数据类别多目标检测方法既有利于提高分类准确性,也有利于减少模型在训练过程中的不稳定性。
表2在SUNRGBD测试集中10个类别目标检测mAP
Figure BDA0002793560360000111
实施例二,建立绞线式弹性毫微型插针缺陷检测工业数据集,主要包括在生产企业现场所获得的缺陷图片数据和在工业在线缺陷检测平通过不断变换检测对象的位置获得的图片数据,共5892张图片,5个类别16210个目标对象,主要包括:针头胖点偏移、尺寸/长度错误、针头有散丝、压扁或鼓包。图片示例如图3所示,表3为绞线式弹性毫微型插针缺陷类别目标数据统计结果。请参阅图4所示,其为绞线式弹性毫微型插针目标类别数据分布图,每个类别之间的数据分布差异很大,如在训练集中,尺寸错误和正常的绞线式弹性毫微型插针之间相差7827个目标类别标签,与针头偏移、压扁和鼓包分别相差4936个和4637个目标类别标签。
表3绞线式弹性毫微型插针类别目标数据统计
Figure BDA0002793560360000112
请参阅图5所示,其为不同数据规模下不同方法训练过程中的损失曲线,在绞线式弹性毫微型插针数据集下,Baseline方法在训练过程中损失曲线震动较大,在训练过程中出现了较大的抖动,特别是Iteration在15000~30000之间,震荡区间在2.30~7.00之间,震荡区间大,可能存在难以收敛的风险;而特征空间扩增方法在训练过程中增加了每个别的特征数据,可有效的缓减训练过程中的不稳定性,但Iteration在0~10000时,仍然存在较大的抖动现象,整个损失函数曲线震荡区间叫大;采用不完备数据集中平衡输入数据类别多目标检测方法方法,通过平衡的输入各个类别数据给训练网络,模型Iterarion在0~10000时,能快速收敛,虽然模型在开始阶段,仍然存在少量的振荡情况,但相对Baseline方法,震荡较少,综上,不完备数据集中平衡输入数据类别多目标检测方法方法能快速收敛,使训练网络在训练过程中的稳定性更好,缓解训练过程出现过拟合风险。进一步观察(d)Batch Size多策略训练数据方法和特征空间结合的方法,损失曲线是其它方法中最平滑和稳定的,且损失曲线能较快的下降并收敛。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种不完备数据集中平衡输入数据类别多目标检测方法,包括:
步骤a,对输入的数据进行清洗,对数据命名进行规范,检查图片文件所对应的标签文件是否为空,以确保每张图片中具有类别实体,没有损坏的文件;
步骤b,依次读取数据集中的Xml文件,获得每张图片中的图片类别,并按照不同的类别对图片进行排序;
步骤c,计算训练数据集中Ci个类别的图片数量,包含Bounding Box数量最少的类别(Ci)min和Bounding Box数据量最多的类别(Ci)max以及其它类别中Bounding Box的数量;
步骤d,将Ci个类别中的信息按照{序号,图片名,类别Ci,x,y,w,h}的格式保存在pre_train.txt文件中,x,y表示Bounding Box中心点坐标,w,h表示Bounding Box的宽和高;保存序号是为了让每个Bounding Box都有一个唯一的身份标签;
步骤e,按照类别ID对每类Bounding Box随机打乱次序,根据最少Bounding Box数量类别(Ci)min的数量(Ci)bx_min-1确定每一次训练中每类Bounding Box的数量,且(Ci)bx_min-1>类别数;
步骤f,在pre_train.txt中取出对应数量的图片,并计算图片的数量Pn,保存在train.txt文件中,train.txt文件内容格式为:{图片名,类别Ci,x,y,w,h},将图片的数量Pn赋值给Batch Size,确定Batch Size的大小;
步骤g,采用最多类别(Ci)max的Bounding Box的数量(Ci)bx_max除以64获得Iteration的值,即
Figure FDA0002793560350000011
步骤h,为了平衡Batch Size中输入的每个类别,运用公式(11)将每次Iteration中单个类别的数据量进行均衡BNK
步骤i,当将所有的
Figure FDA0002793560350000012
执行结束,完成一次Epoch。
2.根据权利要求1所述的不完备数据集中平衡输入数据类别多目标检测方法,其特征在于,在一张图片中包括多个不同类别的Bounding Box,对于所有样本寻找一个分类器θ,使得分类损失最小:
Figure FDA0002793560350000013
其中,Pi,j,k表示第i张图片的第j个候选框属于第k类的概率,τ(.)表示损失函数;当面对二分类问题时,则公式(1)可表示为:
Figure FDA0002793560350000021
公式(1)中存在图片i包括多个不同的类别,且不同类别的bounding box数量不相等,当一次输入给神经网络多张图片时,公式(1)存在类别不平衡问题,将公式(1)的正负样本分开写,表示为:
Figure FDA0002793560350000022
其中,j+表示正样本平衡的图片,j-表示负样本不平衡的图片。
3.根据权利要求2所述的不完备数据集中平衡输入数据类别多目标检测方法,其特征在于,当公式(1)存在类别不平衡问题时,可将该问题转换为排序问题,公式表示为:
Figure FDA0002793560350000023
其含义是,对于所有样本对,一个正样本和一个负样本构成一对的损失最小;
对于每幅图像可将公式(4)分解为:
Figure FDA0002793560350000024
当按照公式(5)来处理输入样本时,产生n+×n-对样本;存在两种情况:当n-<n+时,正样本占主导地位;当n-≥n+时,负样本占主导地位,正样本的贡献会被负样本所占据。
4.根据权利要求3所述的不完备数据集中平衡输入数据类别多目标检测方法,其特征在于,为缓解按照公式(5)来处理输入样本时存在的不平衡问题,不断从多数类中取出部分样本,少数类样本中也随机取出部分样本,建立多个训练组合,将这些组合与Batch Size进行结合输入给深度学习模型的Batch Normalization多类别不平衡数据集训练方法;
当数据集D中具有k个类别的i张图片时,数据集中第i张图片的第j个候选框属于第k类可表示为Di,j,k,训练集可表示为:
Di,j,k={D1,1,1,D1,1,2,...,Di-1,j-1,k-1...},i>1,j>1,k>2. (6)
每个类别下的bounding box数据量可表示为:
Figure FDA0002793560350000025
通过公式(7)计算出各个类别的数量,获得数据量最大的类别(Dj,k)max,数据量中间的类别(Dj,k)avg和数据量最小的类别(Dj,k)min;为了保持原有数据分布,并将每个类别中的数据都充分利用,将Batch Size引入到Batch Normalization多类别不平衡数据集训练方法中,Batch Size输入大小用m表示,m=64。
5.根据权利要求4所述的不完备数据集中平衡输入数据类别多目标检测方法,其特征在于,将训练策略与batch size的最优设置进行结合,确定完成一次Epoch的Iteration次数;Iteration为数据量最大的类别(Dj,k)max除以64,获得随机组合的个数gr
Figure FDA0002793560350000031
为了平衡batch size中输入的每个类别,将每次Iteration中单个类别的数据量进行均衡BNK,具体方法为:
Figure FDA0002793560350000032
其中,K为Iteration中类别总个数。
6.根据权利要求4所述的不完备数据集中平衡输入数据类别多目标检测方法,其特征在于,当所述检测算法符合利普希茨连续函数时,有等式:
Figure FDA0002793560350000033
公式中
Figure FDA0002793560350000034
表示梯度幅值,
Figure FDA0002793560350000037
和l分别表示有Batch Normalization和Non-BatchNormalization的损失函数,
Figure FDA0002793560350000035
表示输入为j时的权值激活,σ表示标准差,γ表示常数。
7.根据权利要求1所述的不完备数据集中平衡输入数据类别多目标检测方法,其特征在于,Batch Size表示进行一次迭代Iteration所需要的数据量,即一次给训练网络的图片张数;Normalization是进行一种对数值的特殊函数变换的方法,即假设原始的某个数值是x,给一个起到规范化作用的函数,对规范化之前的数值x进行转换,形成一个规范化后的数值:
Figure FDA0002793560350000036
所述多目标检测算法通过将目标函数f(...)规范化,使输入数据x中的各个类别相等。
CN202011323339.7A 2020-11-23 2020-11-23 一种不完备数据集中平衡输入数据类别多目标检测方法 Active CN112633319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011323339.7A CN112633319B (zh) 2020-11-23 2020-11-23 一种不完备数据集中平衡输入数据类别多目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011323339.7A CN112633319B (zh) 2020-11-23 2020-11-23 一种不完备数据集中平衡输入数据类别多目标检测方法

Publications (2)

Publication Number Publication Date
CN112633319A true CN112633319A (zh) 2021-04-09
CN112633319B CN112633319B (zh) 2022-11-22

Family

ID=75303759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011323339.7A Active CN112633319B (zh) 2020-11-23 2020-11-23 一种不完备数据集中平衡输入数据类别多目标检测方法

Country Status (1)

Country Link
CN (1) CN112633319B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408743A (zh) * 2021-06-29 2021-09-17 北京百度网讯科技有限公司 联邦模型的生成方法、装置、电子设备和存储介质
CN116383427A (zh) * 2023-06-06 2023-07-04 深圳市微克科技有限公司 一种基于智能穿戴设备的图片批量解析方法、系统及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985342A (zh) * 2018-06-22 2018-12-11 华南理工大学 一种基于深度增强学习的不平衡分类方法
CN109359704A (zh) * 2018-12-26 2019-02-19 北京邮电大学 一种基于自适应平衡集成与动态分层决策的多分类方法
US20200074305A1 (en) * 2018-09-05 2020-03-05 Royal Bank Of Canada System and method for improving deep neural network performance
US20200125949A1 (en) * 2018-10-19 2020-04-23 Google Llc Training neural networks using distributed batch normalization
CN111178897A (zh) * 2019-12-18 2020-05-19 浙江大学 在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法
CN111191835A (zh) * 2019-12-27 2020-05-22 国网辽宁省电力有限公司阜新供电公司 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统
CN111314353A (zh) * 2020-02-19 2020-06-19 重庆邮电大学 一种基于混合采样的网络入侵检测方法及系统
US10769528B1 (en) * 2019-06-07 2020-09-08 Sas Institute Inc. Deep learning model training system
CN111898677A (zh) * 2020-07-30 2020-11-06 大连海事大学 一种基于深度学习的浮游生物自动检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985342A (zh) * 2018-06-22 2018-12-11 华南理工大学 一种基于深度增强学习的不平衡分类方法
US20200074305A1 (en) * 2018-09-05 2020-03-05 Royal Bank Of Canada System and method for improving deep neural network performance
US20200125949A1 (en) * 2018-10-19 2020-04-23 Google Llc Training neural networks using distributed batch normalization
CN109359704A (zh) * 2018-12-26 2019-02-19 北京邮电大学 一种基于自适应平衡集成与动态分层决策的多分类方法
US10769528B1 (en) * 2019-06-07 2020-09-08 Sas Institute Inc. Deep learning model training system
CN111178897A (zh) * 2019-12-18 2020-05-19 浙江大学 在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法
CN111191835A (zh) * 2019-12-27 2020-05-22 国网辽宁省电力有限公司阜新供电公司 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统
CN111314353A (zh) * 2020-02-19 2020-06-19 重庆邮电大学 一种基于混合采样的网络入侵检测方法及系统
CN111898677A (zh) * 2020-07-30 2020-11-06 大连海事大学 一种基于深度学习的浮游生物自动检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
段仲静 等: "深度学习目标检测方法及其主流框架综述", 《激光与光电子学进展》 *
韩笑 等: "基于不均衡数据集成学习的大型电力变压器状态评价方法", 《电网技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408743A (zh) * 2021-06-29 2021-09-17 北京百度网讯科技有限公司 联邦模型的生成方法、装置、电子设备和存储介质
CN113408743B (zh) * 2021-06-29 2023-11-03 北京百度网讯科技有限公司 联邦模型的生成方法、装置、电子设备和存储介质
CN116383427A (zh) * 2023-06-06 2023-07-04 深圳市微克科技有限公司 一种基于智能穿戴设备的图片批量解析方法、系统及介质
CN116383427B (zh) * 2023-06-06 2023-08-11 深圳市微克科技有限公司 一种基于智能穿戴设备的图片批量解析方法、系统及介质

Also Published As

Publication number Publication date
CN112633319B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
US11023806B2 (en) Learning apparatus, identifying apparatus, learning and identifying system, and recording medium
CN112633319B (zh) 一种不完备数据集中平衡输入数据类别多目标检测方法
JP6898562B2 (ja) 機械学習プログラム、機械学習方法、および機械学習装置
EP2431918B1 (en) Graph lattice method for image clustering, classification, and repeated structure finding
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110674846A (zh) 基于遗传算法和k-means聚类的不平衡数据集过采样方法
EP1934860B1 (en) Identification and classification of virus particles in textured electron micrographs
JP5353443B2 (ja) データ分類器作成装置、データ分類装置、データ分類器作成方法、データ分類方法、データ分類器作成プログラム、データ分類プログラム
CN111507504A (zh) 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
JP2010039778A (ja) 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
US20220058435A1 (en) Data classification method and system, and classifier training method and system
CN116166650A (zh) 一种基于生成对抗网络的多源异构数据清洗方法
US7454311B2 (en) Computer-readable storage medium storing data analysis program
JP6573272B2 (ja) 生成装置、生成方法、及び、プログラム
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
CN116186278A (zh) 一种基于超平面投影与关系路径邻域的知识图谱补全方法
CN110069783B (zh) 一种答题内容评测方法及装置
CN111914718A (zh) 基于平均影响值数据变换的特征加权pca人脸识别方法
CN113313138A (zh) 基于概率生成模型的入侵行为特征转换方法、检测方法
CN113610148B (zh) 一种基于偏置加权AdaBoost的故障诊断方法
CN111401528A (zh) 基于模拟退火遗传算法的生成对抗网络过采样方法及装置
Agustin et al. Comparison of SMOTE Sampling Based Algorithm on Imbalanced Data for Classification of New Student Admissions
Budiman et al. Optimization Of Classification Results By Minimizing Class Imbalance On Decision Tree Algorithm
CN110866533A (zh) 训练分类模型的装置和方法、以及分类装置和方法
Zhang et al. REC: fast sparse regression-based multicategory classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant