CN111666872B - 一种数据不平衡下的高效行为识别方法 - Google Patents

一种数据不平衡下的高效行为识别方法 Download PDF

Info

Publication number
CN111666872B
CN111666872B CN202010500433.9A CN202010500433A CN111666872B CN 111666872 B CN111666872 B CN 111666872B CN 202010500433 A CN202010500433 A CN 202010500433A CN 111666872 B CN111666872 B CN 111666872B
Authority
CN
China
Prior art keywords
prediction
sample
basic network
network models
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010500433.9A
Other languages
English (en)
Other versions
CN111666872A (zh
Inventor
谭浩
王昱
刘启和
周世杰
程红蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010500433.9A priority Critical patent/CN111666872B/zh
Publication of CN111666872A publication Critical patent/CN111666872A/zh
Application granted granted Critical
Publication of CN111666872B publication Critical patent/CN111666872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据不平衡下的高效行为识别方法,包括如下步骤:步骤1,根据样本数据量将样本划分为两个类别,然后采用随机均分算法重新构建样本集,得到数据量平衡的样本集D1和D2;步骤2,将样本集D1和D2分别划分训练集和测试集;步骤3,构建两个基础网络模型;步骤4,利用样本集D1和D2的训练集训练两个基础网络模型;步骤5,利用训练好的两个基础网络模型对样本集D1和D2的测试集进行预测。本发明中通过样本划分,并对两个基础网络模型单独进行训练,得到两个在数据更为均衡的情况下完整学习了小类别数据集的SSD模型,能够在现有模型基础上提升少数类的识别率。

Description

一种数据不平衡下的高效行为识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其是一种数据不平衡下的高效行为识别方法。
背景技术
行为识别是计算机视觉领域的一个重要的课题,其在行为检测、视频监控等领域都有着广泛的应用价值。近些年,随着人工智能技术的崛起,深度学习模型也被应用到了人体行为识别任务中去。利用深度学习模型去自动提取特征,良好地避免了人工设计特征过程中的盲目性和差异性。深度学习方法中,SSD(单发多框检测器)模型具有堪比二阶检测算法的准确度,且在速度上比二阶检测算法快得多,同时还为训练和推断提供了统一的框架,是一种优秀的识别算法。
但该算法在实现现实中的分类任务中有以下问题:现有的分类算法,包括SSD通常假定用于训练的数据集是平衡的,即各类所含的样例数大致相等。当遇到类数据不平衡时,以总体分类精度为学习目标的传统分类算法会过多地关注多数类,而使少数类样本的分类性能下降。而在实际应用中,少数类样例被误分的代价要比多数类被误分的代价大。
目前解决分类中数据不平衡的问题有数据重采样(resampling)、训练集划分、分类器集成(Ensemble learning)等方法。其中重采样方式对调整数据不平衡的效果有限,训练集划分和分类器集成方法对少数类识别率的提升较为有效。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种数据不平衡下的高效行为识别方法。
本发明采用的技术方案如下:
一种数据不平衡下的高效行为识别方法,包括如下步骤:
步骤1,根据样本数据量将样本划分为两个类别,然后采用随机均分算法重新构建样本集,得到数据量平衡的样本集D1和D2
步骤2,将样本集D1和D2分别划分训练集和测试集;
步骤3,构建两个基础网络模型;
步骤4,利用样本集D1和D2的训练集训练两个基础网络模型;
步骤5,利用训练好的两个基础网络模型对样本集D1和D2的测试集进行预测。
进一步地,步骤1包括如下子步骤:
步骤1.1,将原始数据集划分为n个普通类别和m个小类别:将n个普通类别记为S1,S2,...,Sn,m个小样本类别记为L1,L2,...,Lm
步骤1.2,将n个普通类别随机均匀分为两份D′1和D′2
步骤1.3,将小类别的所有类别数据L1,L2,...,Lm分别加入D′1和D′2,形成两个样本集:{L1,L2,...,Lm,D′1}和{L1,L2,...,Lm,D′2},记为D1和D2
进一步地,步骤1.2包括如下子步骤:
步骤1.2.1,将第i个(0<i≤n,i为正整数,初始值为1)普通类别的所有样本从1开始编号至Si;令k=1;
步骤1.2.2,计算第k个随机数xk=(axk-1+b)mod(m);其中乘数a须满足a=4p+1,增量b须满足b=2q+1,p,q为正整数;
步骤1.2.3,计算ξk=xk/m×Si,并将编号为ξk的样本放入数据集D′1中;
步骤1.2.4,若
Figure GDA0003656348940000031
则进入步骤1.2.5;否则,令k=k+1,进入步骤1.2.2;
步骤1.2.5,将第i个普通类别中剩余的样本放入数据集D'2中,i=i+1;
步骤1.2.6,若i>n,则结束;否则进入步骤1.2.1。
进一步地,每个所述基础网络模型包括:
基础网络,用于提取样本集中低尺度的特征映射图;
辅助卷积层,用于提取样本集中高尺度的特征映射图;
预测卷积层,用于输出特征映射图的位置信息和分类信息。
进一步地,所述预测卷积层为特征映射图中每个单元生成先验框,然后基于先验框对特征映射图进行以下两部分的检测:
a、对特征映射图进行softmax分类,经过一次批标准化和一次卷积后,得到每个先验框对应每个类别的概率,即特征映射图的分类信息;
b、对特征映射图进行边框回归,经过一次批标准化和一次卷积后,得到每个先验框的左上角和左下角对应坐标,即特征映射图经过先验框调整后的位置信息;
其中,所述先验框是指预测卷积层在特征映射图的每个单元预先定义的不同大小的矩形框,这些矩形框具有不同的宽高比,用于匹配特征映射图中的真实物体。
进一步地,所述先验框的尺度相对于特征映射图的比例采用以下公式计算:
Figure GDA0003656348940000032
其中,m指特征映射图个数;Sk表示先验框的尺度相对于特征映射图的比例,而Smin和Smax表示比例的最小值与最大值;
所述先验框的长宽比ar,计算先验框的宽度和高度:
Figure GDA0003656348940000041
Figure GDA0003656348940000042
进一步地,步骤4包括如下子步骤:
步骤4.1,确定训练基础网络模型的正样本和负样本;
步骤4.2,所述基础网络模型过对损失函数回归优化模型参数;
步骤4.3,使用步骤2得到的样本集D1和D2的训练集,将两个基础网络模型M1、M2分别进行训练。
进一步地,步骤4.1,包括如下子步骤:
步骤4.1.1,计算所有先验框和图像中所有真实目标的jaccard重叠系数;
步骤4.1.2,将每个先验框和与其对应的jaccard重叠系数最高的真实目标进行匹配,匹配失败的是负样本,匹配成功的是正样本;
步骤4.1.3,采用hard negative mining对负样本进行抽样,使正样本和负样本的数据量尽量平衡。
进一步地,步骤4.2中,所述损失函数定义为位置损失与置信度损失的加权和,采用如下公式表示:
L=Lconf+α·Lloc
所述位置损失是偏离位置与真实目标位置的平均smooth L1损失,采用如下公式表示:
Figure GDA0003656348940000043
其中,N为匹配到真实目标的先验框的数量,
Figure GDA0003656348940000044
表示第i个先验框匹配到第j个类别为k的真实目标;
所述置信度损失是正负匹配之间的交叉熵损失之和,采用如下公式表示:
Figure GDA0003656348940000051
其中,N和
Figure GDA0003656348940000052
的含义与在位置损失中的含义相同,c为类别置信度预测值。
进一步地,步骤5包括如下子步骤:
步骤5.1,获取基础模型预测结果:
步骤5.1.1,将测试集分别输入由步骤4得到的两个训练好的基础网络模型M1、M2中,分别获得两个基础网络模型M1和M2对该测试集的预测框;
步骤5.1.2,对于步骤5.1.1获得的每个预测框:
(1)根据类别置信度确定其类别与置信度值,并过滤掉属于背景这一类别的预测框;
(2)根据置信度阈值过滤掉置信度值低于置信度阈值的预测框;
步骤5.1.3,对步骤5.1.2留下的预测框进行解码,获得预测框的位置信息和类别信息;
步骤5.1.4,对步骤5.1.2留下的预测框根据置信度值进行降序排列,仅保留top_k个预测框;
步骤5.1.5,对步骤5.1.4留下的预测框进行非极大抑制算法,过滤掉重叠度超过预设值的预测框,剩余的预测框的位置信息和类别信息即为两个基础网络模型M1、M2的预测结果;
步骤5.2,对步骤5.1获得的两个基础网络模型M1、M2的预测结果进行整合:
步骤5.2.1,设两个基础网络模型M1、M2此时分别预测有m1和m2个预测框,则将分别从两个基础网络模型M1、M2中获取序列(m1,mbox_loc+n_classes)和(m2,mbox_loc+n_classes);结合预测模块首先将这两个序列进行拼接,可以得到(m1+m2,mbox_loc+n_classes)维度的输出;该(m1+m2,mbox_loc+n_classes)维度的输出为两个基础网络模型M1、M2得到的所有预测框的目标类别和分数;
步骤5.2.2,结合预测模块在预测框中先选出有类别最大分数的检测框,将选出的检测框排出预测框集合内,并使用该检测框检测其余所有预测框,若预测框与该检测框的重叠部分不小于重叠阈值Nt,则将其分数按照以下公式重新计算:
Figure GDA0003656348940000061
步骤5.2.3,完成上述步骤后递归计算直至预测框集合为零,并绘制最后预测结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明中通过样本划分,并对两个基础网络模型单独进行训练,得到两个在数据更为均衡的情况下完整学习了小类别数据集的SSD模型,更为充分地利用了卷积神经网络的学习性能,使小类别特征得到更有效地学习,从而实现了基于SSD模型的提高数据不平衡下少数类分类准确率的方法,能够在现有模型基础上提升少数类的识别率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的数据不平衡下的高效行为识别方法的流程图。
图2为本发明的样本划分流程图。
图3为本发明的基础网络结构示意图。
图4为本发明的辅助卷积层结构示意图。
图5为本发明的预测卷积层结构示意图。
具体实施方式
如图1所示,本发明的一种数据不平衡下的高效行为识别方法,包括如下步骤:
步骤1,根据样本数据量将样本划分为两个类别,然后采用随机均分算法重新构建样本集,得到数据量平衡的样本集D1和D2
步骤2,将样本集D1和D2分别划分训练集和测试集;
步骤3,构建两个基础网络模型;
步骤4,利用样本集D1和D2的训练集训练两个基础网络模型;
步骤5,利用训练好的两个基础网络模型对样本集D1和D2的测试集进行预测。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
步骤1,根据样本数据量将样本划分为两个类别,然后采用随机均分算法重新构建样本集,得到数据量平衡的样本集D1和D2
本发明的应用场景是某一部分分类的数据集和其他类的数据集在数量上有10倍或以上的差距,且数量本身较少(如<100)。本方法利用划分训练集的方式来降低数据不平衡的程度。
如样本集中共有N个类别,其中M个类在数据集中数据的数量分别为x1,x2,...,xm,其中0<xi<100,i∈(0,100),i∈R,而其他类别数据的数量都倍级大于xi,且大于100。通过降低数据不平衡的程度,提高数据集中数据较少的类别识别率,本方法首先需要将数据集进行划分。为方便阐述,将数据数量低于100的类别称为小类别,将大于100的类别称为普通类别。
首先标记所有样本图片,并将所有样本图片resize为300*300的大小;然后将所有样本图片建立两个数据量相对平衡的样本集:主要通过降低样本集中普通类别与小类别的比例,来平衡数据集,实现方法为,将现有普通类别的数据集随机均分为两半,分别与小类别数据整合为两个样本集。
具体地,如图2所示,步骤1包括如下子步骤:
步骤1.1,将原始数据集划分为n个普通类别和m个小类别:将n个普通类别记为S1,S2,...,Sn,m个小样本类别记为L1,L2,...,Lm
步骤1.2,将n个普通类别随机均匀分为两份D′1和D′2
两份D′1和D′2中包含被随机均分的每个普通类别的数据,如普通类别Si的样本共有T个,分开的两份普通类别数据集D′1和D′2中,分别有
Figure GDA0003656348940000082
个普通类别Si的样本。
具体地,步骤1.2所述将n个普通类别随机均匀分为两份D′1和D′2的算法为,基于乘法同余法的随机均分算法,包括如下子步骤:
步骤1.2.1,将第i个(0<i≤n,i为正整数,初始值为1)普通类别的所有样本从1开始编号至Si;令k=1;
步骤1.2.2,计算第k个随机数xk=(axk-1+b)mod(m);其中乘数a须满足a=4p+1,增量b须满足b=2q+1,p,q为正整数;m的值越大且与a互质随机效果越好;可任意选取一个正整数值作为x0的初始值,再根据a,b,m,x0的值产生第一个随机数;
步骤1.2.3,计算ξk=xk/m×Si,并将编号为ξk的样本放入数据集D′1中;
步骤1.2.4,若
Figure GDA0003656348940000081
则进入步骤1.2.5;否则,令k=k+1,进入步骤1.2.2;
步骤1.2.5,将第i个普通类别中剩余的样本放入数据集D'2中,i=i+1;
步骤1.2.6,若i>n,则结束;否则进入步骤1.2.1。
步骤1.3,将小类别的所有类别数据L1,L2,...,Lm分别加入D'1和D'2,形成两个样本集:{L1,L2,...,Lm,D'1}和{L1,L2,...,Lm,D'2},记为D1和D2
步骤2,将样本集D1和D2分别划分训练集和测试集:
本发明将样本集分为两个集合,分别是训练集(train set)和测试集(test set)。一般可以将训练集和测试集的比例设置为8:2。由此,将步骤1得到的两个样本集D1和D2分别按照上述比例划分训练集和测试集。
步骤3,构建两个基础网络模型;
本发明选用的基础网络模型为SSD(Single Shot multibox Detector),包括:
基础网络,用于提取样本集中低尺度的特征映射图;
辅助卷积层,用于提取样本集中高尺度的特征映射图;
预测卷积层,用于输出特征映射图的位置信息和分类信息。
具体地:
(1)基础网络
如图3所示,本发明中基础网络使用VGG16-Atrous,同时将VGG16-Atrous中的全连接层用卷积层代替;具体结构为:卷积层conv1_1有64个卷积核,大小为3×3,填充一个像素;卷积层conv1_2有64个卷积核,大小为3×3,填充一个像素;然后为池化层,进行最大池化,卷积核大小为2×2,步长为2;卷积层conv2_1有128个卷积核,大小为3×3,填充一个像素;卷积层conv2_2有128个卷积核,大小为3×3,填充一个像素;然后为池化层,进行最大池化,卷积核大小为2×2,步长为2;卷积层conv3_1有256个卷积核,大小为3×3,填充一个像素;卷积层conv3_2有256个卷积核,大小为3×3,填充一个像素;卷积层conv3_3有256个卷积核,大小为3×3,填充一个像素;然后为池化层,进行最大池化,卷积核大小为2×2,步长为2;卷积层conv4_1有512个卷积核,大小为3×3,填充一个像素;卷积层conv4_2有512个卷积核,大小为3×3,填充一个像素;卷积层conv4_3有512个卷积核,大小为3×3,填充一个像素;然后为池化层,进行最大池化,卷积核大小为2×2,步长为2;卷积层conv5_1有512个卷积核,大小为3×3,填充一个像素;卷积层conv5_2有512个卷积核,大小为3×3,填充一个像素;卷积层conv5_3有512个卷积核,大小为3×3,填充一个像素;然后为池化层,进行最大池化,卷积核大小为3×3,步长为1;卷积层conv6有1024个卷积核,大小为3×3,填充六个像素,膨胀系数为6;卷积层conv7有1024个卷积核,大小为1×1,不填充像素。
(2)辅助卷积层
如图4所示,本发明的辅助卷积层的具体结构为:卷积层conv8_1有256个卷积核,大小为1×1,不填充像素;卷积层conv8_2有512个卷积核,大小为3×3,填充一个像素,步长为2;卷积层conv9_1有128个卷积核,大小为1×1,不填充像素;卷积层conv9_2有256个卷积核,大小为3×3,填充一个像素,步长为2;卷积层conv10_1有128个卷积核,大小为1×1,不填充像素;卷积层conv10_2有256个卷积核,大小为3×3,不填充像素;conv11_1有128个卷积核,大小为1×1,不填充像素;卷积层conv11_2有256个卷积核,大小为3×3,不填充像素。
(3)预测卷积层
如图5所示,从基础网络层中的Conv4_3和Conv7,辅助卷积层的Conv8_2,Conv9_2,Conv10_2,Conv11_2中提取作为检测所用的特征映射图,共提取了6个特征映射图,其大小分别是(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)。得到了特征映射图之后,需要对特征映射图进行卷积得到预测结果,包括特征映射图的位置信息和分类信息。预测卷积层包含两个卷积层,卷积核大小均为3×3,填充一个像素,卷积核个数分别为对应特征图每个位置的先验框数量×4和对应特征图每个位置的先验框数量×物体类别数。具体地:
所述预测卷积层为特征映射图中每个单元(像素点)生成先验框,然后基于先验框对特征映射图进行以下两部分的检测:
a、对特征映射图进行softmax分类,经过一次批标准化和一次卷积后,得到每个先验框对应每个类别的概率,即特征映射图的分类信息;
b、对特征映射图进行边框回归,经过一次批标准化和一次卷积后,得到每个先验框的左上角和左下角对应坐标,即特征映射图经过先验框调整后的位置信息。
其中,所述先验框是指预测卷积层在特征映射图的每个单元预先定义的不同大小的矩形框,这些矩形框具有不同的宽高比,用于匹配特征映射图中的真实物体。需要说明的是,同一个特征映射图上设置的每个单元的先验框的数目相同,不同特征映射图上设置的每个单元的先验框数目不同。
所述先验框的设置,包括尺度(或者说大小)和长宽比:
1)所述先验框的尺度遵守一个线性递增规则:随着特征映射图的大小降低,先验框的尺度线性增加。具体地,先验框的尺度相对于特征映射图的比例采用以下公式计算:
Figure GDA0003656348940000111
其中,m指特征映射图个数,第一层(Conv4_3层)将m的值单独设置5;Sk表示先验框的尺度相对于特征映射图的比例,而Smin和Smax表示比例的最小值与最大值,一般分别取0.2和0.9。
2)所述先验框的长宽比ar,一般选取ar∈{1,2,3,1/2,1/3},计算先验框的宽度和高度:
Figure GDA0003656348940000121
(第K层的min_size=Sk),
Figure GDA0003656348940000122
另外对于ar=2的情况,额外再指定尺度为
Figure GDA0003656348940000123
步骤4,利用样本集D1和D2的训练集训练两个基础网络模型;
具体地,步骤4包括如下子步骤:
步骤4.1,确定训练基础网络模型的正样本和负样本
模型训练首先需要确定训练的正样本和负样本,对于SSD基础模型通过以下几个步骤将先验框筛选为一定比例的正负样本:
步骤4.1.1,计算所有先验框和训练集中所有真实目标的jaccard重叠系数;
步骤4.1.2,将每个先验框和与其对应的jaccard重叠系数最高的真实目标进行匹配,匹配失败的是负样本,匹配成功的是正样本;其中,匹配失败是指最高jaccard重叠系数小于0.5(根据需求进行设定)的先验框,该先验框被认为不包含真实目标;匹配成功是指最高jaccard重叠系数不小于0.5的先验框,该先验框被认为包含真实目标;
步骤4.1.3,采用hard negative mining对负样本进行抽样,使正样本和负样本的数据量尽量平衡。
具体地,采用hard negative mining对负样本进行抽样时,按照置信度误差进行降序排列,选取误差的较大的top-k1作为训练的负样本,以保证正样本和负样本的比例接近1:3。
经过上述步骤4.1.1~步骤4.1.3后,先验框中的正样本将匹配到的真实目标的坐标和类别,作为目标预测坐标和目标预测类别。
步骤4.2,所述基础网络模型过对损失函数回归优化模型参数;
其中,所述损失函数定义为位置损失(locatization loss,loc)与置信度损失(confidence loss,conf)的加权和,采用如下公式表示:
L=Lconf+α·Lloc (1)
所述位置损失是偏离位置与真实目标位置的平均smooth L1损失,采用如下公式表示:
Figure GDA0003656348940000131
其中,N为匹配到真实目标的先验框的数量,
Figure GDA0003656348940000132
表示第i个先验框匹配到第j个类别为k的真实目标;
所述置信度损失是正负匹配之间的交叉熵损失之和,采用如下公式表示:
Figure GDA0003656348940000133
其中,N和
Figure GDA0003656348940000134
的含义与在位置损失中的含义相同,c为类别置信度预测值。
步骤4.3,使用步骤2得到的样本集D1和D2的训练集,将两个基础网络模型M1、M2分别进行训练。一个实施例中,两个基础网络模型M1、M2的优化器使用初始学习率为e-5的Adam,将学习率衰减系数设置为0.1,并将其先验框的尺度设置为0.75、0.5和0.25,先验框的长宽比设置为0.5、1和2,训练代数设置为200代,Batch size设置为16。
步骤5,利用训练好的两个基础网络模型对样本集D1和D2的测试集进行预测;
具体地,步骤5包括如下子步骤:
步骤5.1,获取基础模型预测结果:
步骤5.1.1,将测试集分别输入由步骤4得到的两个训练好的基础网络模型M1、M2中,分别获得两个基础网络模型M1和M2对该测试集的预测框;需要说明的是,预测框和先验框均是一个矩形框,其分别表示该矩形框在预测阶段(步骤5)和训练阶段(步骤4),即先验框是步骤4中训练生成的矩形框;预测框是训练完成后步骤5的预测过程中产生的预测结果。
步骤5.1.2,对于步骤5.1.1获得的每个预测框:
(1)根据类别置信度确定其类别(置信度最大者)与置信度值,并过滤掉属于背景(没有任何行为)这一类别的预测框;
(2)根据置信度阈值(如0.5)过滤掉置信度值低于置信度阈值的预测框;
步骤5.1.3,对步骤5.1.2留下的预测框进行解码,获得预测框的位置信息和类别信息;
步骤5.1.4,对步骤5.1.2留下的预测框根据置信度值进行降序排列,仅保留top_k(如400)个预测框;
步骤5.1.5,对步骤5.1.4留下的预测框进行非极大抑制算法,过滤掉重叠度超过预设值(如0.5)的预测框,剩余的预测框的位置信息和类别信息即为两个基础网络模型M1、M2的预测结果。
步骤5.2,对步骤5.1获得的两个基础网络模型M1、M2的预测结果进行整合。
即,通过步骤5.1获取了两个基础网络模型M1、M2对该测试集的预测框信息,将其整合,得到两个基础网络模型M1、M2全部预测框的位置信息和类别信息。
步骤5.2.1,设两个基础网络模型M1、M2此时分别预测有m1和m2个预测框,则将分别从两个基础网络模型M1、M2中获取序列(m1,mbox_loc+n_classes)和(m2,mbox_loc+n_classes);结合预测模块首先将这两个序列进行拼接,可以得到(m1+m2,mbox_loc+n_classes)维度的输出;该(m1+m2,mbox_loc+n_classes)维度的输出为两个基础网络模型M1、M2得到的所有预测框的目标类别和分数;
步骤5.2.2,为避免两个基础网络模型M1、M2对目标检测的预测框出现对相同目标的重复预测,结合预测模块参考soft-NMS,在预测框中先选出有类别最大分数的检测框,将选出的检测框排出预测框集合内,并使用该检测框检测其余所有预测框,若预测框与该检测框的重叠部分不小于重叠阈值Nt(在本算法中设置值为0.5),则将其分数按照以下公式重新计算:
Figure GDA0003656348940000151
步骤5.2.3,完成上述步骤后递归计算直至预测框集合为零,并绘制最后预测结果。本发明中结合预测模块避免了非最大抑制算法中将相邻预测框的分数均强制归零的问题。结合预测模块可以在真实物体有重叠的情况下,更好的对其进行识别,避免因重叠归零的预测框导致识别效果的降低。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种数据不平衡下的高效行为识别方法,其特征在于,所述行为识别方法用于行为检测,包括如下步骤:
步骤1,首先标记所有样本图片,根据样本数据量将样本划分为两个类别,然后采用随机均分算法重新构建样本集,得到数据量平衡的样本集D1和D2
步骤2,将样本集D1和D2分别划分训练集和测试集;
步骤3,构建两个基础网络模型;
步骤4,利用样本集D1和D2的训练集训练两个基础网络模型;
步骤5,利用训练好的两个基础网络模型对样本集D1和D2的测试集进行预测;
步骤1包括如下子步骤:
步骤1.1,将原始数据集划分为n个普通类别和m个小类别:将n个普通类别记为S1,S2,...,Sn,m个小样本类别记为L1,L2,...,Lm
步骤1.2,将n个普通类别随机均匀分为两份D'1和D'2
步骤1.3,将小类别的所有类别数据L1,L2,...,Lm分别加入D'1和D'2,形成两个样本集:{L1,L2,...,Lm,D'1}和{L1,L2,...,Lm,D'2},记为D1和D2
步骤1.2包括如下子步骤:
步骤1.2.1,将第i个普通类别的所有样本从1开始编号至Si,0<i≤n,i为正整数,初始值为1;令k=1;
步骤1.2.2,计算第k个随机数xk=(axk-1+b)mod(m);其中乘数a须满足a=4p+1,增量b须满足b=2q+1,p,q为正整数;
步骤1.2.3,计算ξk=xk/m×Si,并将编号为ξk的样本放入数据集D'1中;
步骤1.2.4,若
Figure FDA0003656348930000011
则进入步骤1.2.5;否则,令k=k+1,进入步骤1.2.2;
步骤1.2.5,将第i个普通类别中剩余的样本放入数据集D'2中,i=i+1;
步骤1.2.6,若i>n,则结束;否则进入步骤1.2.1;
每个所述基础网络模型包括:
基础网络,用于提取样本集中低尺度的特征映射图;
辅助卷积层,用于提取样本集中高尺度的特征映射图;
预测卷积层,用于输出特征映射图的位置信息和分类信息;
所述预测卷积层为特征映射图中每个单元生成先验框,然后基于先验框对特征映射图进行以下两部分的检测:
a、对特征映射图进行softmax分类,经过一次批标准化和一次卷积后,得到每个先验框对应每个类别的概率,即特征映射图的分类信息;
b、对特征映射图进行边框回归,经过一次批标准化和一次卷积后,得到每个先验框的左上角和左下角对应坐标,即特征映射图经过先验框调整后的位置信息;
其中,所述先验框是指预测卷积层在特征映射图的每个单元预先定义的不同大小的矩形框,这些矩形框具有不同的宽高比,用于匹配特征映射图中的真实物体;
步骤4包括如下子步骤:
步骤4.1,确定训练基础网络模型的正样本和负样本;
步骤4.2,所述基础网络模型过对损失函数回归优化模型参数;
步骤4.3,使用步骤2得到的样本集D1和D2的训练集,将两个基础网络模型M1、M2分别进行训练;
步骤4.1,包括如下子步骤:
步骤4.1.1,计算所有先验框和训练集中所有真实目标的jaccard重叠系数;
步骤4.1.2,将每个先验框和与其对应的jaccard重叠系数最高的真实目标进行匹配,匹配失败的是负样本,匹配成功的是正样本;
步骤4.1.3,采用hard negative mining对负样本进行抽样,使正样本和负样本的数据量尽量平衡;
步骤4.2中,所述损失函数定义为位置损失与置信度损失的加权和,采用如下公式表示:
L=Lconf+α·Lloc
所述位置损失是偏离位置与真实目标位置的平均smooth L1损失,采用如下公式表示:
Figure FDA0003656348930000031
其中,N为匹配到真实目标的先验框的数量,
Figure FDA0003656348930000032
表示第i个先验框匹配到第j个类别为k的真实目标;
所述置信度损失是正负匹配之间的交叉熵损失之和,采用如下公式表示:
Figure FDA0003656348930000033
其中,N和
Figure FDA0003656348930000034
的含义与在位置损失中的含义相同,c为类别置信度预测值;
步骤5包括如下子步骤:
步骤5.1,获取基础模型预测结果:
步骤5.1.1,将测试集分别输入由步骤4得到的两个训练好的基础网络模型M1、M2中,分别获得两个基础网络模型M1和M2对该测试集的预测框;
步骤5.1.2,对于步骤5.1.1获得的每个预测框:
(1)根据类别置信度确定其类别与置信度值,并过滤掉属于背景这一类别的预测框;
(2)根据置信度阈值过滤掉置信度值低于置信度阈值的预测框;
步骤5.1.3,对步骤5.1.2留下的预测框进行解码,获得预测框的位置信息和类别信息;
步骤5.1.4,对步骤5.1.2留下的预测框根据置信度值进行降序排列,仅保留top_k个预测框;
步骤5.1.5,对步骤5.1.4留下的预测框进行非极大抑制算法,过滤掉重叠度超过预设值的预测框,剩余的预测框的位置信息和类别信息即为两个基础网络模型M1、M2的预测结果;
步骤5.2,对步骤5.1获得的两个基础网络模型M1、M2的预测结果进行整合:
步骤5.2.1,设两个基础网络模型M1、M2此时分别预测有m1和m2个预测框,则将分别从两个基础网络模型M1、M2中获取序列(m1,mbox_loc+n_classes)和(m2,mbox_loc+n_classes);结合预测模块首先将这两个序列进行拼接,可以得到(m1+m2,mbox_loc+n_classes)维度的输出;该(m1+m2,mbox_loc+n_classes)维度的输出为两个基础网络模型M1、M2得到的所有预测框的目标类别和分数;
步骤5.2.2,结合预测模块在预测框中先选出有类别最大分数的检测框,将选出的检测框排出预测框集合内,并使用该检测框检测其余所有预测框,若预测框与该检测框的重叠部分不小于重叠阈值Nt,则将其分数按照以下公式重新计算:
Figure FDA0003656348930000041
步骤5.2.3,完成上述步骤后递归计算直至预测框集合为零,并绘制最后预测结果。
2.根据权利要求1所述的数据不平衡下的高效行为识别方法,其特征在于,所述先验框的尺度相对于特征映射图的比例采用以下公式计算:
Figure FDA0003656348930000051
其中,m指特征映射图个数;Sk表示先验框的尺度相对于特征映射图的比例,而Smin和Smax表示比例的最小值与最大值;
所述先验框的长宽比ar,计算先验框的宽度和高度:
Figure FDA0003656348930000052
Figure FDA0003656348930000053
CN202010500433.9A 2020-06-04 2020-06-04 一种数据不平衡下的高效行为识别方法 Active CN111666872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010500433.9A CN111666872B (zh) 2020-06-04 2020-06-04 一种数据不平衡下的高效行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010500433.9A CN111666872B (zh) 2020-06-04 2020-06-04 一种数据不平衡下的高效行为识别方法

Publications (2)

Publication Number Publication Date
CN111666872A CN111666872A (zh) 2020-09-15
CN111666872B true CN111666872B (zh) 2022-08-05

Family

ID=72385971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010500433.9A Active CN111666872B (zh) 2020-06-04 2020-06-04 一种数据不平衡下的高效行为识别方法

Country Status (1)

Country Link
CN (1) CN111666872B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819063B (zh) * 2021-01-28 2022-07-26 南京邮电大学 一种基于改进的Focal损失函数的图像识别方法
CN114997535A (zh) * 2022-08-01 2022-09-02 联通(四川)产业互联网有限公司 一种智慧农业全过程生产大数据智能分析方法及系统平台

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与系统
CN103135961A (zh) * 2011-11-28 2013-06-05 中泽宏 基于具有两个奇素因子的模数生成乘同余随机数的方法
CN108229507A (zh) * 2016-12-14 2018-06-29 中国电信股份有限公司 数据分类方法以及装置
CN109471941A (zh) * 2018-11-07 2019-03-15 中国电子科技集团公司第二十八研究所 一种应对类别不平衡的罪名分类方法
CN110059558A (zh) * 2019-03-15 2019-07-26 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法
CN110490267A (zh) * 2019-08-23 2019-11-22 四川长虹电器股份有限公司 一种基于深度学习的票据分拣方法
CN110659682A (zh) * 2019-09-21 2020-01-07 胡燕祝 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN110826577A (zh) * 2019-11-06 2020-02-21 国网新疆电力有限公司电力科学研究院 一种基于目标跟踪的高压隔离开关状态跟踪识别方法
CN110852396A (zh) * 2019-11-15 2020-02-28 苏州中科华影健康科技有限公司 一种宫颈图像的样本数据处理方法
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与系统
CN103135961A (zh) * 2011-11-28 2013-06-05 中泽宏 基于具有两个奇素因子的模数生成乘同余随机数的方法
CN108229507A (zh) * 2016-12-14 2018-06-29 中国电信股份有限公司 数据分类方法以及装置
CN109471941A (zh) * 2018-11-07 2019-03-15 中国电子科技集团公司第二十八研究所 一种应对类别不平衡的罪名分类方法
CN110059558A (zh) * 2019-03-15 2019-07-26 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法
CN110490267A (zh) * 2019-08-23 2019-11-22 四川长虹电器股份有限公司 一种基于深度学习的票据分拣方法
CN110659682A (zh) * 2019-09-21 2020-01-07 胡燕祝 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN110826577A (zh) * 2019-11-06 2020-02-21 国网新疆电力有限公司电力科学研究院 一种基于目标跟踪的高压隔离开关状态跟踪识别方法
CN110852396A (zh) * 2019-11-15 2020-02-28 苏州中科华影健康科技有限公司 一种宫颈图像的样本数据处理方法
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Action recognition using ensemble weighted multi-instance learning;Guang Chen et al.;《2014 IEEE International Conference on Robotics and Automation (ICRA)》;20140929;4520-4525 *
基于抽样和特征变换的类不平衡组合分类器算法;吴海菲;《中国优秀高级论文全文数据库(信息科技辑)》;20181215;I140-117 *
大熊猫行为识别研究与应用;郭浩然;《中国优秀硕士论文全文数据库(基础科学辑)》;20200115;A006-1409 *

Also Published As

Publication number Publication date
CN111666872A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN108399362B (zh) 一种快速行人检测方法及装置
CN108596053B (zh) 一种基于ssd和车辆姿态分类的车辆检测方法和系统
Chan et al. Bayesian poisson regression for crowd counting
CN111126472A (zh) 一种基于ssd改进的目标检测方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111783772A (zh) 一种基于RP-ResNet网络的抓取检测方法
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN111612002A (zh) 一种基于神经网络的多目标物体运动追踪方法
CN110222718B (zh) 图像处理的方法及装置
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN107273870A (zh) 一种监控场景下融合上下文信息的行人位置检测方法
CN114897779A (zh) 基于融合注意力的宫颈细胞学图像异常区域定位方法及装置
CN111666872B (zh) 一种数据不平衡下的高效行为识别方法
US11120297B2 (en) Segmentation of target areas in images
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN111178367B (zh) 适应多物件尺寸的特征决定装置及方法
CN111126278A (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN114663662B (zh) 超参数搜索方法、装置、计算机设备和存储介质
CN115861715B (zh) 基于知识表示增强的图像目标关系识别算法
CN111291760A (zh) 图像的语义分割方法、装置及电子设备
CN111461145A (zh) 一种基于卷积神经网络进行目标检测的方法
CN116912796A (zh) 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置
CN114821341A (zh) 基于fpn与pan网络的双重注意力的遥感小目标检测方法
CN112966762A (zh) 一种野生动物检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant