CN111666872B

CN111666872B - 一种数据不平衡下的高效行为识别方法

Info

Publication number: CN111666872B
Application number: CN202010500433.9A
Authority: CN
Inventors: 谭浩; 王昱; 刘启和; 周世杰; 程红蓉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2022-08-05
Anticipated expiration: 2040-06-04
Also published as: CN111666872A

Abstract

本发明公开了一种数据不平衡下的高效行为识别方法，包括如下步骤：步骤1，根据样本数据量将样本划分为两个类别，然后采用随机均分算法重新构建样本集，得到数据量平衡的样本集D₁和D₂；步骤2，将样本集D₁和D₂分别划分训练集和测试集；步骤3，构建两个基础网络模型；步骤4，利用样本集D₁和D₂的训练集训练两个基础网络模型；步骤5，利用训练好的两个基础网络模型对样本集D₁和D₂的测试集进行预测。本发明中通过样本划分，并对两个基础网络模型单独进行训练，得到两个在数据更为均衡的情况下完整学习了小类别数据集的SSD模型，能够在现有模型基础上提升少数类的识别率。

Description

一种数据不平衡下的高效行为识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种数据不平衡下的高效行为识别方法。

背景技术

行为识别是计算机视觉领域的一个重要的课题，其在行为检测、视频监控等领域都有着广泛的应用价值。近些年，随着人工智能技术的崛起，深度学习模型也被应用到了人体行为识别任务中去。利用深度学习模型去自动提取特征，良好地避免了人工设计特征过程中的盲目性和差异性。深度学习方法中，SSD(单发多框检测器)模型具有堪比二阶检测算法的准确度，且在速度上比二阶检测算法快得多，同时还为训练和推断提供了统一的框架，是一种优秀的识别算法。

但该算法在实现现实中的分类任务中有以下问题：现有的分类算法，包括SSD通常假定用于训练的数据集是平衡的，即各类所含的样例数大致相等。当遇到类数据不平衡时，以总体分类精度为学习目标的传统分类算法会过多地关注多数类，而使少数类样本的分类性能下降。而在实际应用中，少数类样例被误分的代价要比多数类被误分的代价大。

目前解决分类中数据不平衡的问题有数据重采样(resampling)、训练集划分、分类器集成(Ensemble learning)等方法。其中重采样方式对调整数据不平衡的效果有限，训练集划分和分类器集成方法对少数类识别率的提升较为有效。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种数据不平衡下的高效行为识别方法。

本发明采用的技术方案如下：

一种数据不平衡下的高效行为识别方法，包括如下步骤：

步骤1，根据样本数据量将样本划分为两个类别，然后采用随机均分算法重新构建样本集，得到数据量平衡的样本集D₁和D₂；

步骤2，将样本集D₁和D₂分别划分训练集和测试集；

步骤3，构建两个基础网络模型；

步骤4，利用样本集D₁和D₂的训练集训练两个基础网络模型；

步骤5，利用训练好的两个基础网络模型对样本集D₁和D₂的测试集进行预测。

进一步地，步骤1包括如下子步骤：

步骤1.1，将原始数据集划分为n个普通类别和m个小类别：将n个普通类别记为S₁，S₂，...，S_n，m个小样本类别记为L₁，L₂，...，L_m；

步骤1.2，将n个普通类别随机均匀分为两份D′₁和D′₂；

步骤1.3，将小类别的所有类别数据L₁，L₂，...，L_m分别加入D′₁和D′₂，形成两个样本集：{L₁，L₂，...，L_m，D′₁}和{L₁，L₂，...，L_m，D′₂}，记为D₁和D₂。

进一步地，步骤1.2包括如下子步骤：

步骤1.2.1，将第i个(0＜i≤n，i为正整数，初始值为1)普通类别的所有样本从1开始编号至S_i；令k＝1；

步骤1.2.2，计算第k个随机数x_k＝(ax_k-1+b)mod(m)；其中乘数a须满足a＝4p+1，增量b须满足b＝2q+1，p，q为正整数；

步骤1.2.3，计算ξ_k＝x_k/m×S_i，并将编号为ξ_k的样本放入数据集D′₁中；

步骤1.2.4，若

则进入步骤1.2.5；否则，令k＝k+1，进入步骤1.2.2；

步骤1.2.5，将第i个普通类别中剩余的样本放入数据集D'₂中，i＝i+1；

步骤1.2.6，若i＞n,则结束；否则进入步骤1.2.1。

进一步地，每个所述基础网络模型包括：

基础网络，用于提取样本集中低尺度的特征映射图；

辅助卷积层，用于提取样本集中高尺度的特征映射图；

预测卷积层，用于输出特征映射图的位置信息和分类信息。

进一步地，所述预测卷积层为特征映射图中每个单元生成先验框，然后基于先验框对特征映射图进行以下两部分的检测：

a、对特征映射图进行softmax分类，经过一次批标准化和一次卷积后，得到每个先验框对应每个类别的概率，即特征映射图的分类信息；

b、对特征映射图进行边框回归，经过一次批标准化和一次卷积后，得到每个先验框的左上角和左下角对应坐标，即特征映射图经过先验框调整后的位置信息；

其中，所述先验框是指预测卷积层在特征映射图的每个单元预先定义的不同大小的矩形框，这些矩形框具有不同的宽高比，用于匹配特征映射图中的真实物体。

进一步地，所述先验框的尺度相对于特征映射图的比例采用以下公式计算：

其中，m指特征映射图个数；S_k表示先验框的尺度相对于特征映射图的比例，而S_min和S_max表示比例的最小值与最大值；

所述先验框的长宽比a_r，计算先验框的宽度和高度：

进一步地，步骤4包括如下子步骤：

步骤4.1，确定训练基础网络模型的正样本和负样本；

步骤4.2，所述基础网络模型过对损失函数回归优化模型参数；

步骤4.3，使用步骤2得到的样本集D₁和D₂的训练集，将两个基础网络模型M1、M2分别进行训练。

进一步地，步骤4.1，包括如下子步骤：

步骤4.1.1，计算所有先验框和图像中所有真实目标的jaccard重叠系数；

步骤4.1.2，将每个先验框和与其对应的jaccard重叠系数最高的真实目标进行匹配，匹配失败的是负样本，匹配成功的是正样本；

步骤4.1.3，采用hard negative mining对负样本进行抽样，使正样本和负样本的数据量尽量平衡。

进一步地，步骤4.2中，所述损失函数定义为位置损失与置信度损失的加权和，采用如下公式表示：

L＝L_conf+α·L_loc

所述位置损失是偏离位置与真实目标位置的平均smooth L1损失，采用如下公式表示：

其中，N为匹配到真实目标的先验框的数量，

表示第i个先验框匹配到第j个类别为k的真实目标；

所述置信度损失是正负匹配之间的交叉熵损失之和，采用如下公式表示：

其中，N和

的含义与在位置损失中的含义相同，c为类别置信度预测值。

进一步地，步骤5包括如下子步骤：

步骤5.1，获取基础模型预测结果：

步骤5.1.1，将测试集分别输入由步骤4得到的两个训练好的基础网络模型M1、M2中，分别获得两个基础网络模型M1和M2对该测试集的预测框；

步骤5.1.2，对于步骤5.1.1获得的每个预测框：

(1)根据类别置信度确定其类别与置信度值，并过滤掉属于背景这一类别的预测框；

(2)根据置信度阈值过滤掉置信度值低于置信度阈值的预测框；

步骤5.1.3，对步骤5.1.2留下的预测框进行解码，获得预测框的位置信息和类别信息；

步骤5.1.4，对步骤5.1.2留下的预测框根据置信度值进行降序排列，仅保留top_k个预测框；

步骤5.1.5，对步骤5.1.4留下的预测框进行非极大抑制算法，过滤掉重叠度超过预设值的预测框，剩余的预测框的位置信息和类别信息即为两个基础网络模型M1、M2的预测结果；

步骤5.2，对步骤5.1获得的两个基础网络模型M1、M2的预测结果进行整合：

步骤5.2.1，设两个基础网络模型M1、M2此时分别预测有m₁和m₂个预测框，则将分别从两个基础网络模型M1、M2中获取序列(m₁,mbox_loc+n_classes)和(m₂,mbox_loc+n_classes)；结合预测模块首先将这两个序列进行拼接，可以得到(m₁+m₂,mbox_loc+n_classes)维度的输出；该(m₁+m₂,mbox_loc+n_classes)维度的输出为两个基础网络模型M1、M2得到的所有预测框的目标类别和分数；

步骤5.2.2，结合预测模块在预测框中先选出有类别最大分数的检测框，将选出的检测框排出预测框集合内，并使用该检测框检测其余所有预测框，若预测框与该检测框的重叠部分不小于重叠阈值N_t，则将其分数按照以下公式重新计算：

步骤5.2.3，完成上述步骤后递归计算直至预测框集合为零，并绘制最后预测结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明中通过样本划分，并对两个基础网络模型单独进行训练，得到两个在数据更为均衡的情况下完整学习了小类别数据集的SSD模型，更为充分地利用了卷积神经网络的学习性能，使小类别特征得到更有效地学习，从而实现了基于SSD模型的提高数据不平衡下少数类分类准确率的方法，能够在现有模型基础上提升少数类的识别率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的数据不平衡下的高效行为识别方法的流程图。

图2为本发明的样本划分流程图。

图3为本发明的基础网络结构示意图。

图4为本发明的辅助卷积层结构示意图。

图5为本发明的预测卷积层结构示意图。

具体实施方式

如图1所示，本发明的一种数据不平衡下的高效行为识别方法，包括如下步骤：

步骤2，将样本集D₁和D₂分别划分训练集和测试集；

步骤3，构建两个基础网络模型；

以下结合实施例对本发明的特征和性能作进一步的详细描述。

本发明的应用场景是某一部分分类的数据集和其他类的数据集在数量上有10倍或以上的差距，且数量本身较少(如<100)。本方法利用划分训练集的方式来降低数据不平衡的程度。

如样本集中共有N个类别，其中M个类在数据集中数据的数量分别为x₁,x₂,...,x_m，其中0＜x_i＜100,i∈(0,100),i∈R，而其他类别数据的数量都倍级大于x_i，且大于100。通过降低数据不平衡的程度，提高数据集中数据较少的类别识别率，本方法首先需要将数据集进行划分。为方便阐述，将数据数量低于100的类别称为小类别，将大于100的类别称为普通类别。

首先标记所有样本图片，并将所有样本图片resize为300*300的大小；然后将所有样本图片建立两个数据量相对平衡的样本集：主要通过降低样本集中普通类别与小类别的比例，来平衡数据集，实现方法为，将现有普通类别的数据集随机均分为两半，分别与小类别数据整合为两个样本集。

具体地，如图2所示，步骤1包括如下子步骤：

步骤1.2，将n个普通类别随机均匀分为两份D′₁和D′₂；

两份D′₁和D′₂中包含被随机均分的每个普通类别的数据，如普通类别S_i的样本共有T个，分开的两份普通类别数据集D′₁和D′₂中，分别有

个普通类别S_i的样本。

具体地，步骤1.2所述将n个普通类别随机均匀分为两份D′₁和D′₂的算法为，基于乘法同余法的随机均分算法，包括如下子步骤：

步骤1.2.2，计算第k个随机数x_k＝(ax_k-1+b)mod(m)；其中乘数a须满足a＝4p+1，增量b须满足b＝2q+1，p，q为正整数；m的值越大且与a互质随机效果越好；可任意选取一个正整数值作为x₀的初始值，再根据a，b，m，x₀的值产生第一个随机数；

步骤1.2.4，若

则进入步骤1.2.5；否则，令k＝k+1，进入步骤1.2.2；

步骤1.2.6，若i＞n,则结束；否则进入步骤1.2.1。

步骤1.3，将小类别的所有类别数据L₁,L₂,...,L_m分别加入D'₁和D'₂，形成两个样本集：{L₁,L₂,...,L_m,D'₁}和{L₁,L₂,...,L_m,D'₂}，记为D₁和D₂。

步骤2，将样本集D₁和D₂分别划分训练集和测试集：

本发明将样本集分为两个集合，分别是训练集(train set)和测试集(test set)。一般可以将训练集和测试集的比例设置为8：2。由此，将步骤1得到的两个样本集D₁和D₂分别按照上述比例划分训练集和测试集。

步骤3，构建两个基础网络模型；

本发明选用的基础网络模型为SSD(Single Shot multibox Detector)，包括：

基础网络，用于提取样本集中低尺度的特征映射图；

辅助卷积层，用于提取样本集中高尺度的特征映射图；

预测卷积层，用于输出特征映射图的位置信息和分类信息。

具体地：

(1)基础网络

如图3所示，本发明中基础网络使用VGG16-Atrous,同时将VGG16-Atrous中的全连接层用卷积层代替；具体结构为：卷积层conv1_1有64个卷积核，大小为3×3,填充一个像素；卷积层conv1_2有64个卷积核，大小为3×3,填充一个像素；然后为池化层，进行最大池化，卷积核大小为2×2，步长为2；卷积层conv2_1有128个卷积核，大小为3×3,填充一个像素；卷积层conv2_2有128个卷积核，大小为3×3,填充一个像素；然后为池化层，进行最大池化，卷积核大小为2×2，步长为2；卷积层conv3_1有256个卷积核，大小为3×3,填充一个像素；卷积层conv3_2有256个卷积核，大小为3×3,填充一个像素；卷积层conv3_3有256个卷积核，大小为3×3,填充一个像素；然后为池化层，进行最大池化，卷积核大小为2×2，步长为2；卷积层conv4_1有512个卷积核，大小为3×3,填充一个像素；卷积层conv4_2有512个卷积核，大小为3×3,填充一个像素；卷积层conv4_3有512个卷积核，大小为3×3,填充一个像素；然后为池化层，进行最大池化，卷积核大小为2×2，步长为2；卷积层conv5_1有512个卷积核，大小为3×3,填充一个像素；卷积层conv5_2有512个卷积核，大小为3×3,填充一个像素；卷积层conv5_3有512个卷积核，大小为3×3,填充一个像素；然后为池化层，进行最大池化，卷积核大小为3×3，步长为1；卷积层conv6有1024个卷积核，大小为3×3,填充六个像素，膨胀系数为6；卷积层conv7有1024个卷积核，大小为1×1,不填充像素。

(2)辅助卷积层

如图4所示，本发明的辅助卷积层的具体结构为：卷积层conv8_1有256个卷积核，大小为1×1,不填充像素；卷积层conv8_2有512个卷积核，大小为3×3,填充一个像素，步长为2；卷积层conv9_1有128个卷积核，大小为1×1,不填充像素；卷积层conv9_2有256个卷积核，大小为3×3,填充一个像素，步长为2；卷积层conv10_1有128个卷积核，大小为1×1,不填充像素；卷积层conv10_2有256个卷积核，大小为3×3,不填充像素；conv11_1有128个卷积核，大小为1×1,不填充像素；卷积层conv11_2有256个卷积核，大小为3×3,不填充像素。

(3)预测卷积层

如图5所示，从基础网络层中的Conv4_3和Conv7，辅助卷积层的Conv8_2，Conv9_2，Conv10_2，Conv11_2中提取作为检测所用的特征映射图，共提取了6个特征映射图，其大小分别是(38，38)，(19，19)，(10，10)，(5，5)，(3，3)，(1，1)。得到了特征映射图之后，需要对特征映射图进行卷积得到预测结果，包括特征映射图的位置信息和分类信息。预测卷积层包含两个卷积层，卷积核大小均为3×3,填充一个像素，卷积核个数分别为对应特征图每个位置的先验框数量×4和对应特征图每个位置的先验框数量×物体类别数。具体地：

所述预测卷积层为特征映射图中每个单元(像素点)生成先验框，然后基于先验框对特征映射图进行以下两部分的检测：

b、对特征映射图进行边框回归，经过一次批标准化和一次卷积后，得到每个先验框的左上角和左下角对应坐标，即特征映射图经过先验框调整后的位置信息。

其中，所述先验框是指预测卷积层在特征映射图的每个单元预先定义的不同大小的矩形框，这些矩形框具有不同的宽高比，用于匹配特征映射图中的真实物体。需要说明的是，同一个特征映射图上设置的每个单元的先验框的数目相同，不同特征映射图上设置的每个单元的先验框数目不同。

所述先验框的设置，包括尺度(或者说大小)和长宽比：

1)所述先验框的尺度遵守一个线性递增规则：随着特征映射图的大小降低，先验框的尺度线性增加。具体地，先验框的尺度相对于特征映射图的比例采用以下公式计算：

其中，m指特征映射图个数，第一层(Conv4_3层)将m的值单独设置5；S_k表示先验框的尺度相对于特征映射图的比例，而S_min和S_max表示比例的最小值与最大值，一般分别取0.2和0.9。

2)所述先验框的长宽比a_r，一般选取a_r∈{1,2,3,1/2,1/3}，计算先验框的宽度和高度：

(第K层的min_size＝S_k)，

另外对于a_r＝2的情况，额外再指定尺度为

具体地，步骤4包括如下子步骤：

步骤4.1，确定训练基础网络模型的正样本和负样本

模型训练首先需要确定训练的正样本和负样本，对于SSD基础模型通过以下几个步骤将先验框筛选为一定比例的正负样本：

步骤4.1.1，计算所有先验框和训练集中所有真实目标的jaccard重叠系数；

步骤4.1.2，将每个先验框和与其对应的jaccard重叠系数最高的真实目标进行匹配，匹配失败的是负样本，匹配成功的是正样本；其中，匹配失败是指最高jaccard重叠系数小于0.5(根据需求进行设定)的先验框，该先验框被认为不包含真实目标；匹配成功是指最高jaccard重叠系数不小于0.5的先验框，该先验框被认为包含真实目标；

具体地，采用hard negative mining对负样本进行抽样时，按照置信度误差进行降序排列，选取误差的较大的top-k1作为训练的负样本，以保证正样本和负样本的比例接近1:3。

经过上述步骤4.1.1～步骤4.1.3后，先验框中的正样本将匹配到的真实目标的坐标和类别，作为目标预测坐标和目标预测类别。

其中，所述损失函数定义为位置损失(locatization loss，loc)与置信度损失(confidence loss,conf)的加权和，采用如下公式表示：

L＝L_conf+α·L_loc (1)

其中，N为匹配到真实目标的先验框的数量，

表示第i个先验框匹配到第j个类别为k的真实目标；

其中，N和

的含义与在位置损失中的含义相同，c为类别置信度预测值。

步骤4.3，使用步骤2得到的样本集D₁和D₂的训练集，将两个基础网络模型M1、M2分别进行训练。一个实施例中，两个基础网络模型M1、M2的优化器使用初始学习率为e^-5的Adam，将学习率衰减系数设置为0.1，并将其先验框的尺度设置为0.75、0.5和0.25，先验框的长宽比设置为0.5、1和2，训练代数设置为200代，Batch size设置为16。

步骤5，利用训练好的两个基础网络模型对样本集D₁和D₂的测试集进行预测；

具体地，步骤5包括如下子步骤：

步骤5.1，获取基础模型预测结果：

步骤5.1.1，将测试集分别输入由步骤4得到的两个训练好的基础网络模型M1、M2中，分别获得两个基础网络模型M1和M2对该测试集的预测框；需要说明的是，预测框和先验框均是一个矩形框，其分别表示该矩形框在预测阶段(步骤5)和训练阶段(步骤4)，即先验框是步骤4中训练生成的矩形框；预测框是训练完成后步骤5的预测过程中产生的预测结果。

步骤5.1.2，对于步骤5.1.1获得的每个预测框：

(1)根据类别置信度确定其类别(置信度最大者)与置信度值，并过滤掉属于背景(没有任何行为)这一类别的预测框；

(2)根据置信度阈值(如0.5)过滤掉置信度值低于置信度阈值的预测框；

步骤5.1.4，对步骤5.1.2留下的预测框根据置信度值进行降序排列，仅保留top_k(如400)个预测框；

步骤5.1.5，对步骤5.1.4留下的预测框进行非极大抑制算法，过滤掉重叠度超过预设值(如0.5)的预测框，剩余的预测框的位置信息和类别信息即为两个基础网络模型M1、M2的预测结果。

步骤5.2，对步骤5.1获得的两个基础网络模型M1、M2的预测结果进行整合。

即，通过步骤5.1获取了两个基础网络模型M1、M2对该测试集的预测框信息，将其整合，得到两个基础网络模型M1、M2全部预测框的位置信息和类别信息。

步骤5.2.2，为避免两个基础网络模型M1、M2对目标检测的预测框出现对相同目标的重复预测，结合预测模块参考soft-NMS，在预测框中先选出有类别最大分数的检测框，将选出的检测框排出预测框集合内，并使用该检测框检测其余所有预测框，若预测框与该检测框的重叠部分不小于重叠阈值N_t(在本算法中设置值为0.5)，则将其分数按照以下公式重新计算：

步骤5.2.3，完成上述步骤后递归计算直至预测框集合为零，并绘制最后预测结果。本发明中结合预测模块避免了非最大抑制算法中将相邻预测框的分数均强制归零的问题。结合预测模块可以在真实物体有重叠的情况下，更好的对其进行识别，避免因重叠归零的预测框导致识别效果的降低。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。