CN112733960B

CN112733960B - 一种基于人工合成数据过采样技术的不平衡物体识别方法

Info

Publication number: CN112733960B
Application number: CN202110098965.9A
Authority: CN
Inventors: 张雪松
Original assignee: Dalian Jiaotong University
Current assignee: Dalian Jiaotong University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-06-20
Anticipated expiration: 2041-01-25
Also published as: CN112733960A

Abstract

本发明公开了一种基于人工合成数据过采样技术的不平衡物体识别方法，基于源领域和目标领域的少数类训练样本配对来进行人工合成少数类样本，实现了跨领域间少数类样本的人工合成，进一步提高了少数类训练样本的类内多样性。为了有效地避免跨领域人工合成数据导致的源领域知识负迁移，依据源领域少数类样本在目标领域的k个近邻样本中所包含的所述目标领域多数类训练样本数量，将源领域少数类训练样本分为孤立型、危险型、安全型三种类型。本发明在图像分类器训练的数据预处理阶段通过人工合成少数类训练样本的方法，再平衡训练数据的类标签分布，解决了类绝对不平衡条件下的二分类物体识别中遇到的分类器有偏性、易于过拟合等问题。

Description

一种基于人工合成数据过采样技术的不平衡物体识别方法

技术领域

本发明涉及不平衡物体识别技术领域，尤其涉及一种基于人工合成数据过采样技术的不平衡物体识别方法。

背景技术

在进行图像分类(物体识别)时，训练数据不足、训练样本类标签分布不平衡和高维度特征等问题与挑战交织在一起，使用标准机器学习算法训练的分类器常常带有偏向性和易于过拟合，即分类器预测时总是偏向于输出多数类样本的类标签以及分类器模型在训练数据上表现良好但是在测试数据上泛化能力很差。

为了提高不平衡数据分类模型的性能，现有技术中提出的解决方法主要分为数据级方法、算法级方法和混合方法。数据级方法主要通过数据采样技术来再平衡训练数据的类分布。机器学习领域中类不平衡学习的数据采样方法主要有三类：1)随机欠采样。随机地移除部分多数类样本，该方法可能会丢失部分有用的信息，导致分类器性能下降。2)随机过采样。随机地复制少数类样本，使得数据的类分布平衡，该方法由于反复复制少数类样本，增加了分类器过拟合的可能性。3)人工合成采样。人工合成少数类过采样技术(SyntheticMinority Oversampling Technique，简称SMOTE)是不平衡分类领域中最有影响力的一种数据过采样方法。SMOTE方法的核心思想是基于目标领域中已有的少数类训练样本人工合成出一些少数类训练数据，以此来再平衡训练样本的类标签分布。SMOTE主要通过在目标领域少数类训练样本及其k-近邻样本间进行插值的方式来实现扩增少数类样本数量。如图4所示，十字形表示少数类训练样本，实心圆点表示使用其中1个少数类训练样本及其5-近邻少数类样本通过插值方式人工合成出的5个少数类样本。

目前，基于SMOTE技术的变种版算法不少于85个。已有的SMOTE算法普遍局限在单一领域内，即在人工合成数据时使用的少数类样本及其k-近邻均来自同一个目标领域，这就导致样本的类内很有局限性，不平衡数据分类模型的性能仍需提高。

另外，现有技术中还有一种加权跨领域SMOTE的方法，基于TrAdaboost框架和人工合成样本的加权策略有效地避免了源领域知识的负迁移的问题。但是，该技术的不足是过度依赖TrAdaboost框架，若直接应用于其它常见的标准分类器的预训练阶段时，无法有效地避免负迁移的发生。

发明内容

本发明提供一种基于人工合成数据过采样技术的不平衡物体识别方法，以克服上述技术问题。

本发明一种基于人工合成数据过采样技术的不平衡物体识别方法，包括：

S1、将源领域少数类样本与目标领域训练样本混合；所述目标领域训练样本，包括：目标领域少数类训练样本和目标领域多数类训练样本；

S2、对每个所述源领域少数类样本在目标领域训练样本中查找k个近邻，并标记k个近邻样本中所包含的所述目标领域多数类训练样本数量为m个；

S3、若m与k相等，将当前的所述源领域少数类样本设置为孤立型，对当前孤立型所述源领域少数类样本进行标记，返回S2；

S4、若m不小于k/2且不大于k时，将当前的所述源领域少数类样本设置为危险型，并通过计算人工合成出k个第一目标领域少数类训练样本，返回S2；

S5、若m不小于0且不大于k/2时，将当前的所述源领域少数类样本设置为安全型，并通过计算人工合成出k个第二目标领域少数类训练样本，返回S2；

S6、过滤掉所有标记的孤立型所述源领域少数类样本，将原始的所述目标领域训练样本和第一目标领域少数类训练样本、第二目标领域少数类训练样本混合构建为新的训练样本集；判断所述新的训练样本集中不平衡率是否小于预先设置的目标值，若小于所述目标值则返回S2，若不小于所述目标值，则得到最终的训练样本集；

S7、根据所述最终的训练样本集通过机器学习算法训练图像分类器，进行物体识别。

进一步地，所述源领域少数类样本由式(1)表示：

所述目标领域训练样本由式(2)表示：

式中，i表示训练样本序号，src和tgt分别表示源领域和目标领域，s表示源领域少数类训练样本个数，p表示目标领域少数类训练样本个数，n表示目标领域多数类训练样本个数，上标+和-表示的是类标号，+表示少数类，-表示多数类。

进一步地，所述若m与k相等，将当前的所述源领域少数类样本设置为孤立型，对当前孤立型所述源领域少数类样本进行标记，包括：

寻找所述源领域少数类样本中的每个样本

在D_tgt中的k个近邻样本，若/>

在所述目标领域训练样本的k近邻样本中所述目标领域多数类训练样本的个数为k，则将样本

标记为孤立型。

进一步地，所述若m不小于k/2且不大于k，将当前的所述源领域少数类样本设置为危险型，并通过计算人工合成出k个第一目标领域少数类训练样本，包括：寻找危险型源领域少数类样本

在/>

中的k个近邻样本，构造样本对集合/>

对于V中每个样本对/>

通过式(3)合成为k个新的源领域少数类样本q_i；

式中，

和/>

表示集合V中第i个样本对中源领域样本和目标领域样本，假设均为d维特征向量，rand(1,d)表示生成一个1×d的随机向量，该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。

进一步地，所述若m不小于0且不大于k/2，将当前的所述源领域少数类样本设置为安全型，并通过计算人工合成出k个第二目标领域少数类训练样本，包括：寻找安全型源领域少数类样本

在/>

中的k个近邻样本，构造样本对集合/>

对于U中每个样本对/>

通过式(4)人工合成为k个新的目标领域少数类训练样本pi；

式中，

和/>

表示集合U中第i个样本对中源领域样本和目标领域样本，假设均为d维特征向量，rand(1,d)表示生成一个1×d的随机向量，该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。

本发明基于源领域和目标领域的少数类训练样本配对来进行人工合成少数类样本，实现了跨领域间少数类样本的合成，进一步提高了少数类训练样本的类内多样性。为了有效地避免跨领域人工合成导致的源领域知识负迁移，依据源领域少数类样本在目标领域的k个近邻样本中所包含的所述目标领域多数类训练样本数量，将源领域少数类训练样本分为孤立型、危险型、安全型三种类型。本发明在图像分类器训练的数据预处理阶段通过人工合成少数类训练样本的方法，再平衡训练数据的类标签分布，解决了类绝对不平衡二分类物体识别时，分类器有偏性、易于过拟合等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2a为本发明的初始训练数据集示意图；

图2b为本发明的孤立型源领域少数类样本图；

图2c为本发明的危险型和安全型源领域少数类样本图；

图2d为本发明采用CD-SMOTE算法最终合成的训练样本集示意图；

图3为本发明的实施例中的CD-SMOTE算法流程图；

图4基于5-近邻的SMOTE概念演示图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图3所示，本实施例提供了一种基于人工合成数据过采样技术的不平衡物体识别方法，在本实施例中称本方法为CD-SMOTE算法，包括：

S1、将源领域少数类样本与目标领域训练样本混合；目标领域训练样本，包括：目标领域少数类训练样本和目标领域多数类训练样本；

具体而言，源领域少数类样本由式(1)表示：

目标领域训练样本由式(2)表示：

式中，上标i表示训练样本序号，下标src和tgt表示的是源领域和目标领域，s表示源领域少数类训练样本个数，p表示目标领域少数类训练样本个数，n表示目标领域多数类训练样本个数，上标+和-表示的是类标号，+表示少数类，-表示多数类。

再将源领域少数类样本

和目标领域训练样本D_tgt混合。

S2、对每个源领域少数类样本在目标领域训练样本中查找k个近邻，并标记k个近邻样本中所包含的目标领域多数类训练样本数量为m个；

具体而言，对

中的每个样本/>

在D_tgt中寻找其k近邻并将其中多数类标签个数记为m。假设少数类样本的类标签为+1，多数类样本的类标签为-1。

S3、若m与k相等，将当前的源领域少数类样本设置为孤立型，对当前孤立型源领域少数类样本进行标记，返回S2；

具体而言，若m＝k，即当前的源领域少数类样本的目标领域k-近邻样本的类标签全部是-1。这说明该源领域少数类样本的k-近邻全部是目标领域多数类样本，将该源领域少数类样本类型定义为“孤立型”。寻找所述源领域少数类样本中的每个样本

在D_tgt中的k个近邻样本，若/>

在目标领域训练样本的k-近邻样本中目标领域多数类训练样本个数m等于k，则将样本/>

进行标记。因为利用孤立型源领域少数类样本与目标领域少数类样本配对后再进行跨领域SMOTE会导致知识的“负迁移”。所以，CD-SMOTE算法会考虑首先过滤掉所有孤立型源领域少数类样本。

S4、若m不小于k/2且不大于k时，将当前的源领域少数类样本设置为危险型，并通过计算人工合成出k个第一目标领域少数类训练样本，返回S2；

具体而言，若k/2≤m≤k，即当前的源领域少数类样本的目标领域k-近邻样本中，类标签为-1的样本数量多于类标签为+1的样本个数。这说明该源领域少数类样本在目标领域训练数据集中搜索k-近邻后，少数类样本的数量小于多数类样本的数量，将该源领域少数类样本类型定义为“危险型”。由于危险型源领域少数类样本在目标领域的k近邻中存在超过半数的多数类样本，使用危险型源领域少数类样本与目标领域少数类样本配对后进行跨领域SMOTE带有一定的风险性。因此，CD-SMOTE算法在跨领域人工合成少数类样本时会离目标领域少数类样本近一些。

通过计算人工合成出k个新的所述第一目标领域少数类训练样本，包括：

寻找危险型源领域少数类样本

在/>

中的k近邻构造样本对集合

对于V中每个样本对/>

通过式(3)合成为k个新的源领域少数类样本q_i；

式中，

和/>

S5、若m不小于0且不大于k/2时，将当前的源领域少数类样本设置为安全型，并通过计算人工合成出k个第二目标领域少数类训练样本，返回S2；

具体而言，若0≤m≤k/2，即当前的源领域少数类样本的目标领域k-近邻样本中类标签为-1的样本数量少于类标签为+1的样本个数，这说明在该源领域少数类样本的k-近邻中，目标领域少数类样本的数量多于多数类样本的数量，我们将其称为“安全型”源领域少数类样本。利用“安全型”源领域少数类样本与目标领域少数类样本配对后进行跨领域SMOTE比较安全。因此，CD-SMOTE算法在跨领域人工合成少数类样本时会离源领域少数类样本近一些。

通过计算人工合成出k个新的所述第二目标领域少数类训练样本，包括：

寻找安全型源领域少数类样本

在/>

中的k个近邻样本，构造样本对集合

对于U中每个样本对/>

通过式(4)人工合成为k个新的目标领域训练样本p_i；

式中，

和/>

具体而言，首先将原始的所述目标领域训练样本和第一目标领域少数类训练样本、第二目标领域少数类训练样本混合构建为新的训练样本集；判断所述新的训练样本集中不平衡率是否小于预先设置的目标值，若小于所述目标值则返回S2，若不小于所述目标值，则得到最终的训练样本集。物体识别通过对图片提取特征后获得高维特征向量构造训练样本集，然后进行分类器训练和分类器预测物体类标签。基于深度卷积神经网络或者词包(Bag-of-Words)模型得到源领域和目标领域训练图片的高维特征向量表示，然后基于这些特征向量进行跨领域SMOTE数据过采样再平衡类标签分布。最后，基于扩增的新训练样本集训练分类器，实现物体识别(图像分类)。

在实际应用中，S4和S5中通过计算人工合成出的样本数量可以任意设置。假设一个源领域少数类样本和k近邻个目标领域少数类样本构成k个样本对，在每个样本对之间可以通过插值的方式生成任意数量的人工合成少数类样本。为简化表述，这里假设每个样本对之间只生成一个人工合成样本。

源领域和目标领域训练样本的编码方式采用典型的图像特征编码方式，例如基于词包模型的SURF特征、基于卷积神经网络的DeCAF特征等。

不平衡率(Imbalance Ratio，简称为IR)是不平衡学习领域的常见术语，用于表示数据的不平衡程度，数学表示如下所示：

IR＝n_maj/n_min，

其中，n_maj表示多数类样本的数量，n_min表示少数类样本的数量。

如图2a-图2d所示的在二维仿真数据集上的CD-SMOTE算法运行概念演示，展示了三种类型的源领域少数类样本和CD-SMOTE算法跨领域合成200个少数类样本后的运行效果。TargetMajority表示目标领域多数类样本，Target Minority表示目标领域少数类样本，Source Minority表示源领域少数类样本。初始训练数据集如图2a所示。如图2b所示，实心五角星表示的是孤立型源领域少数类样本，它们的5近邻都是目标领域多数类样本，它们在进行跨领域人工合成样本前要被删除。如图2c所示，空心菱形表示的是安全型源领域少数类样本，实心矩形表示的是危险型源领域少数类样本。如图2d所示，实心菱形表示使用CD-SMOTE算法合成的200个少数类样本。可以直观的看到，虽然经过了跨领域样本的合成，新生成的少数类样本和目标领域多数类样本没有交集，有效地避免了知识的负迁移。

下面给出了CD-SMOTE算法的伪代码描述，对于每个源领域少数类样本仅合成出k个样本。

输入:

源领域少数类样本:

目标领域训练样本:

k:k-NN算法中的参数k；

kNN(D,x,k):kNN搜索，返回x在数据集D中的k近邻；

rand(M,N):随机矩阵生成函数，返回一大小个M*N的随机数矩阵，随机数服从(0,1)的标准均匀分布队列:Q₁,Q₂,T₁,T₂；

enqueue(Q,x):将元素x插入队列Q的尾部；

dequeue(Q):返回队列Q的队首元素；

输出:

S：人工合成少数类样本集合

处理:

第2-6行：扫描

中的每个源领域少数类实例，过滤孤立型源领域少数类实例。

第7-8行：将安全型源领域少数类实例入队列Q₁。

第9-10行：将危险性源领域少数类实例入队列Q₂。

第12-20行：对于Q₁中每个安全型源领域少数类实例x在

中搜索其k近邻并靠近x人工合成出k个少数类样本。

第21-28行，对于Q₂中每个危险型源领域少数类实例z在

中搜索其k近邻并靠近其k近邻人工合成出k个少数类样本。

在第14和23行使用的T₁和T₂是两个临时队列，用于存储安全型和危险型源领域实例。

另外，在实践中可以设置第15行和第24行中的随机向量r，采用两种方式生成随机向量，即向量的每个维度元素可以是相同或不同的随机数。

CD-SMOTE算法性能评估：

如表1所示的二分类问题的混淆矩阵，实验中使用Balanced Accuracy(BAC)和G-mean两种度量公式评估算法的性能。

表1

其中，Sensitivity＝TP/(TP+FN),Specificity＝TN/(TN+FP)

式中，TP(True Positive)表示真实是正例预测也为正例的情况(正确的肯定)，FP(False Positive)表示真实是负例预测为正例的情况(错误的肯定)，FN(False Negative)表示真实是正例预测为负例的情况(错误的否定)，TN(True Negative)表示真实是负例，预测也为负例的情况(正确的否定)。特异性(Specificity)表示对于正例的检测准确率，灵敏度(sensitivity)对于负例的检测准确率，灵感度高则表示漏报率低，特异度高则表示误报率低。G-mean和BAC综合了特异性和灵敏度两个指标来评估分类器模型的性能，是不平衡学习领域两个常用的模型度量指标，在实验中G-mean和BAC的值越高表示分类器模型性能越好。

实验对比分析：

为了验证所提出算法在物体识别应用中的优越性，实验验证选择了Office31数据集，Office31数据集中含有31个物体类别和三个领域(Amazon,DSLR,Webcam)，如表2所示的训练样本总数(正样本数/负样本数)，数据集:Office31,不平衡率≈1:30。将Amazon领域设为目标领域，选择Webcam为源领域。对于某一个物体类别，将其视为少数类，其余物体类别则均视为多数类。随机选择了其中9个物体类别，如表2所示，图像特征编码采用了DeCAF6，为了加快人工合成数据的速度，使用了PCA降维的方法，将DeCAF6特征的维度从4096降低到400维。实验结果如表3所示，采用5轮stratified holdout方法划分训练和测试数据集，实验结果取平均值。实验结果表明，将CD-SMOTE和Borderline-SMOTE算法结合，优于单独使用Borderline-SMOTE算法和WSMOTE算法，可以进一步提高分类器的性能。

表2

表3

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。