CN112733960B - 一种基于人工合成数据过采样技术的不平衡物体识别方法 - Google Patents

一种基于人工合成数据过采样技术的不平衡物体识别方法 Download PDF

Info

Publication number
CN112733960B
CN112733960B CN202110098965.9A CN202110098965A CN112733960B CN 112733960 B CN112733960 B CN 112733960B CN 202110098965 A CN202110098965 A CN 202110098965A CN 112733960 B CN112733960 B CN 112733960B
Authority
CN
China
Prior art keywords
samples
minority
training
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110098965.9A
Other languages
English (en)
Other versions
CN112733960A (zh
Inventor
张雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Jiaotong University
Original Assignee
Dalian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Jiaotong University filed Critical Dalian Jiaotong University
Priority to CN202110098965.9A priority Critical patent/CN112733960B/zh
Publication of CN112733960A publication Critical patent/CN112733960A/zh
Application granted granted Critical
Publication of CN112733960B publication Critical patent/CN112733960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种基于人工合成数据过采样技术的不平衡物体识别方法,基于源领域和目标领域的少数类训练样本配对来进行人工合成少数类样本,实现了跨领域间少数类样本的人工合成,进一步提高了少数类训练样本的类内多样性。为了有效地避免跨领域人工合成数据导致的源领域知识负迁移,依据源领域少数类样本在目标领域的k个近邻样本中所包含的所述目标领域多数类训练样本数量,将源领域少数类训练样本分为孤立型、危险型、安全型三种类型。本发明在图像分类器训练的数据预处理阶段通过人工合成少数类训练样本的方法,再平衡训练数据的类标签分布,解决了类绝对不平衡条件下的二分类物体识别中遇到的分类器有偏性、易于过拟合等问题。

Description

一种基于人工合成数据过采样技术的不平衡物体识别方法
技术领域
本发明涉及不平衡物体识别技术领域,尤其涉及一种基于人工合成数据过采样技术的不平衡物体识别方法。
背景技术
在进行图像分类(物体识别)时,训练数据不足、训练样本类标签分布不平衡和高维度特征等问题与挑战交织在一起,使用标准机器学习算法训练的分类器常常带有偏向性和易于过拟合,即分类器预测时总是偏向于输出多数类样本的类标签以及分类器模型在训练数据上表现良好但是在测试数据上泛化能力很差。
为了提高不平衡数据分类模型的性能,现有技术中提出的解决方法主要分为数据级方法、算法级方法和混合方法。数据级方法主要通过数据采样技术来再平衡训练数据的类分布。机器学习领域中类不平衡学习的数据采样方法主要有三类:1)随机欠采样。随机地移除部分多数类样本,该方法可能会丢失部分有用的信息,导致分类器性能下降。2)随机过采样。随机地复制少数类样本,使得数据的类分布平衡,该方法由于反复复制少数类样本,增加了分类器过拟合的可能性。3)人工合成采样。人工合成少数类过采样技术(SyntheticMinority Oversampling Technique,简称SMOTE)是不平衡分类领域中最有影响力的一种数据过采样方法。SMOTE方法的核心思想是基于目标领域中已有的少数类训练样本人工合成出一些少数类训练数据,以此来再平衡训练样本的类标签分布。SMOTE主要通过在目标领域少数类训练样本及其k-近邻样本间进行插值的方式来实现扩增少数类样本数量。如图4所示,十字形表示少数类训练样本,实心圆点表示使用其中1个少数类训练样本及其5-近邻少数类样本通过插值方式人工合成出的5个少数类样本。
目前,基于SMOTE技术的变种版算法不少于85个。已有的SMOTE算法普遍局限在单一领域内,即在人工合成数据时使用的少数类样本及其k-近邻均来自同一个目标领域,这就导致样本的类内很有局限性,不平衡数据分类模型的性能仍需提高。
另外,现有技术中还有一种加权跨领域SMOTE的方法,基于TrAdaboost框架和人工合成样本的加权策略有效地避免了源领域知识的负迁移的问题。但是,该技术的不足是过度依赖TrAdaboost框架,若直接应用于其它常见的标准分类器的预训练阶段时,无法有效地避免负迁移的发生。
发明内容
本发明提供一种基于人工合成数据过采样技术的不平衡物体识别方法,以克服上述技术问题。
本发明一种基于人工合成数据过采样技术的不平衡物体识别方法,包括:
S1、将源领域少数类样本与目标领域训练样本混合;所述目标领域训练样本,包括:目标领域少数类训练样本和目标领域多数类训练样本;
S2、对每个所述源领域少数类样本在目标领域训练样本中查找k个近邻,并标记k个近邻样本中所包含的所述目标领域多数类训练样本数量为m个;
S3、若m与k相等,将当前的所述源领域少数类样本设置为孤立型,对当前孤立型所述源领域少数类样本进行标记,返回S2;
S4、若m不小于k/2且不大于k时,将当前的所述源领域少数类样本设置为危险型,并通过计算人工合成出k个第一目标领域少数类训练样本,返回S2;
S5、若m不小于0且不大于k/2时,将当前的所述源领域少数类样本设置为安全型,并通过计算人工合成出k个第二目标领域少数类训练样本,返回S2;
S6、过滤掉所有标记的孤立型所述源领域少数类样本,将原始的所述目标领域训练样本和第一目标领域少数类训练样本、第二目标领域少数类训练样本混合构建为新的训练样本集;判断所述新的训练样本集中不平衡率是否小于预先设置的目标值,若小于所述目标值则返回S2,若不小于所述目标值,则得到最终的训练样本集;
S7、根据所述最终的训练样本集通过机器学习算法训练图像分类器,进行物体识别。
进一步地,所述源领域少数类样本由式(1)表示:
Figure BDA0002915334710000021
所述目标领域训练样本由式(2)表示:
Figure BDA0002915334710000031
式中,i表示训练样本序号,src和tgt分别表示源领域和目标领域,s表示源领域少数类训练样本个数,p表示目标领域少数类训练样本个数,n表示目标领域多数类训练样本个数,上标+和-表示的是类标号,+表示少数类,-表示多数类。
进一步地,所述若m与k相等,将当前的所述源领域少数类样本设置为孤立型,对当前孤立型所述源领域少数类样本进行标记,包括:
寻找所述源领域少数类样本中的每个样本
Figure BDA0002915334710000032
在Dtgt中的k个近邻样本,若/>
Figure BDA0002915334710000033
在所述目标领域训练样本的k近邻样本中所述目标领域多数类训练样本的个数为k,则将样本
Figure BDA0002915334710000034
标记为孤立型。
进一步地,所述若m不小于k/2且不大于k,将当前的所述源领域少数类样本设置为危险型,并通过计算人工合成出k个第一目标领域少数类训练样本,包括:寻找危险型源领域少数类样本
Figure BDA0002915334710000035
在/>
Figure BDA0002915334710000036
中的k个近邻样本,构造样本对集合/>
Figure BDA0002915334710000037
对于V中每个样本对/>
Figure BDA0002915334710000038
通过式(3)合成为k个新的源领域少数类样本qi
Figure BDA0002915334710000039
式中,
Figure BDA00029153347100000310
和/>
Figure BDA00029153347100000311
表示集合V中第i个样本对中源领域样本和目标领域样本,假设均为d维特征向量,rand(1,d)表示生成一个1×d的随机向量,该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。
进一步地,所述若m不小于0且不大于k/2,将当前的所述源领域少数类样本设置为安全型,并通过计算人工合成出k个第二目标领域少数类训练样本,包括:寻找安全型源领域少数类样本
Figure BDA00029153347100000312
在/>
Figure BDA00029153347100000313
中的k个近邻样本,构造样本对集合/>
Figure BDA00029153347100000314
对于U中每个样本对/>
Figure BDA00029153347100000315
通过式(4)人工合成为k个新的目标领域少数类训练样本pi;
Figure BDA00029153347100000316
式中,
Figure BDA00029153347100000317
和/>
Figure BDA00029153347100000318
表示集合U中第i个样本对中源领域样本和目标领域样本,假设均为d维特征向量,rand(1,d)表示生成一个1×d的随机向量,该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。
本发明基于源领域和目标领域的少数类训练样本配对来进行人工合成少数类样本,实现了跨领域间少数类样本的合成,进一步提高了少数类训练样本的类内多样性。为了有效地避免跨领域人工合成导致的源领域知识负迁移,依据源领域少数类样本在目标领域的k个近邻样本中所包含的所述目标领域多数类训练样本数量,将源领域少数类训练样本分为孤立型、危险型、安全型三种类型。本发明在图像分类器训练的数据预处理阶段通过人工合成少数类训练样本的方法,再平衡训练数据的类标签分布,解决了类绝对不平衡二分类物体识别时,分类器有偏性、易于过拟合等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2a为本发明的初始训练数据集示意图;
图2b为本发明的孤立型源领域少数类样本图;
图2c为本发明的危险型和安全型源领域少数类样本图;
图2d为本发明采用CD-SMOTE算法最终合成的训练样本集示意图;
图3为本发明的实施例中的CD-SMOTE算法流程图;
图4基于5-近邻的SMOTE概念演示图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图3所示,本实施例提供了一种基于人工合成数据过采样技术的不平衡物体识别方法,在本实施例中称本方法为CD-SMOTE算法,包括:
S1、将源领域少数类样本与目标领域训练样本混合;目标领域训练样本,包括:目标领域少数类训练样本和目标领域多数类训练样本;
具体而言,源领域少数类样本由式(1)表示:
Figure BDA0002915334710000051
目标领域训练样本由式(2)表示:
Figure BDA0002915334710000052
式中,上标i表示训练样本序号,下标src和tgt表示的是源领域和目标领域,s表示源领域少数类训练样本个数,p表示目标领域少数类训练样本个数,n表示目标领域多数类训练样本个数,上标+和-表示的是类标号,+表示少数类,-表示多数类。
再将源领域少数类样本
Figure BDA0002915334710000053
和目标领域训练样本Dtgt混合。
S2、对每个源领域少数类样本在目标领域训练样本中查找k个近邻,并标记k个近邻样本中所包含的目标领域多数类训练样本数量为m个;
具体而言,对
Figure BDA0002915334710000054
中的每个样本/>
Figure BDA0002915334710000055
在Dtgt中寻找其k近邻并将其中多数类标签个数记为m。假设少数类样本的类标签为+1,多数类样本的类标签为-1。
S3、若m与k相等,将当前的源领域少数类样本设置为孤立型,对当前孤立型源领域少数类样本进行标记,返回S2;
具体而言,若m=k,即当前的源领域少数类样本的目标领域k-近邻样本的类标签全部是-1。这说明该源领域少数类样本的k-近邻全部是目标领域多数类样本,将该源领域少数类样本类型定义为“孤立型”。寻找所述源领域少数类样本中的每个样本
Figure BDA0002915334710000056
在Dtgt中的k个近邻样本,若/>
Figure BDA0002915334710000057
在目标领域训练样本的k-近邻样本中目标领域多数类训练样本个数m等于k,则将样本/>
Figure BDA0002915334710000058
进行标记。因为利用孤立型源领域少数类样本与目标领域少数类样本配对后再进行跨领域SMOTE会导致知识的“负迁移”。所以,CD-SMOTE算法会考虑首先过滤掉所有孤立型源领域少数类样本。
S4、若m不小于k/2且不大于k时,将当前的源领域少数类样本设置为危险型,并通过计算人工合成出k个第一目标领域少数类训练样本,返回S2;
具体而言,若k/2≤m≤k,即当前的源领域少数类样本的目标领域k-近邻样本中,类标签为-1的样本数量多于类标签为+1的样本个数。这说明该源领域少数类样本在目标领域训练数据集中搜索k-近邻后,少数类样本的数量小于多数类样本的数量,将该源领域少数类样本类型定义为“危险型”。由于危险型源领域少数类样本在目标领域的k近邻中存在超过半数的多数类样本,使用危险型源领域少数类样本与目标领域少数类样本配对后进行跨领域SMOTE带有一定的风险性。因此,CD-SMOTE算法在跨领域人工合成少数类样本时会离目标领域少数类样本近一些。
通过计算人工合成出k个新的所述第一目标领域少数类训练样本,包括:
寻找危险型源领域少数类样本
Figure BDA0002915334710000061
在/>
Figure BDA0002915334710000062
中的k近邻构造样本对集合
Figure BDA0002915334710000063
对于V中每个样本对/>
Figure BDA0002915334710000064
通过式(3)合成为k个新的源领域少数类样本qi
Figure BDA0002915334710000065
式中,
Figure BDA0002915334710000066
和/>
Figure BDA0002915334710000067
表示集合V中第i个样本对中源领域样本和目标领域样本,假设均为d维特征向量,rand(1,d)表示生成一个1×d的随机向量,该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。
S5、若m不小于0且不大于k/2时,将当前的源领域少数类样本设置为安全型,并通过计算人工合成出k个第二目标领域少数类训练样本,返回S2;
具体而言,若0≤m≤k/2,即当前的源领域少数类样本的目标领域k-近邻样本中类标签为-1的样本数量少于类标签为+1的样本个数,这说明在该源领域少数类样本的k-近邻中,目标领域少数类样本的数量多于多数类样本的数量,我们将其称为“安全型”源领域少数类样本。利用“安全型”源领域少数类样本与目标领域少数类样本配对后进行跨领域SMOTE比较安全。因此,CD-SMOTE算法在跨领域人工合成少数类样本时会离源领域少数类样本近一些。
通过计算人工合成出k个新的所述第二目标领域少数类训练样本,包括:
寻找安全型源领域少数类样本
Figure BDA0002915334710000068
在/>
Figure BDA0002915334710000069
中的k个近邻样本,构造样本对集合
Figure BDA00029153347100000610
对于U中每个样本对/>
Figure BDA00029153347100000611
通过式(4)人工合成为k个新的目标领域训练样本pi
Figure BDA00029153347100000612
式中,
Figure BDA00029153347100000613
和/>
Figure BDA00029153347100000614
表示集合U中第i个样本对中源领域样本和目标领域样本,假设均为d维特征向量,rand(1,d)表示生成一个1×d的随机向量,该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。
S6、过滤掉所有标记的孤立型所述源领域少数类样本,将原始的所述目标领域训练样本和第一目标领域少数类训练样本、第二目标领域少数类训练样本混合构建为新的训练样本集;判断所述新的训练样本集中不平衡率是否小于预先设置的目标值,若小于所述目标值则返回S2,若不小于所述目标值,则得到最终的训练样本集;
S7、根据所述最终的训练样本集通过机器学习算法训练图像分类器,进行物体识别。
具体而言,首先将原始的所述目标领域训练样本和第一目标领域少数类训练样本、第二目标领域少数类训练样本混合构建为新的训练样本集;判断所述新的训练样本集中不平衡率是否小于预先设置的目标值,若小于所述目标值则返回S2,若不小于所述目标值,则得到最终的训练样本集。物体识别通过对图片提取特征后获得高维特征向量构造训练样本集,然后进行分类器训练和分类器预测物体类标签。基于深度卷积神经网络或者词包(Bag-of-Words)模型得到源领域和目标领域训练图片的高维特征向量表示,然后基于这些特征向量进行跨领域SMOTE数据过采样再平衡类标签分布。最后,基于扩增的新训练样本集训练分类器,实现物体识别(图像分类)。
在实际应用中,S4和S5中通过计算人工合成出的样本数量可以任意设置。假设一个源领域少数类样本和k近邻个目标领域少数类样本构成k个样本对,在每个样本对之间可以通过插值的方式生成任意数量的人工合成少数类样本。为简化表述,这里假设每个样本对之间只生成一个人工合成样本。
源领域和目标领域训练样本的编码方式采用典型的图像特征编码方式,例如基于词包模型的SURF特征、基于卷积神经网络的DeCAF特征等。
不平衡率(Imbalance Ratio,简称为IR)是不平衡学习领域的常见术语,用于表示数据的不平衡程度,数学表示如下所示:
IR=nmaj/nmin
其中,nmaj表示多数类样本的数量,nmin表示少数类样本的数量。
如图2a-图2d所示的在二维仿真数据集上的CD-SMOTE算法运行概念演示,展示了三种类型的源领域少数类样本和CD-SMOTE算法跨领域合成200个少数类样本后的运行效果。TargetMajority表示目标领域多数类样本,Target Minority表示目标领域少数类样本,Source Minority表示源领域少数类样本。初始训练数据集如图2a所示。如图2b所示,实心五角星表示的是孤立型源领域少数类样本,它们的5近邻都是目标领域多数类样本,它们在进行跨领域人工合成样本前要被删除。如图2c所示,空心菱形表示的是安全型源领域少数类样本,实心矩形表示的是危险型源领域少数类样本。如图2d所示,实心菱形表示使用CD-SMOTE算法合成的200个少数类样本。可以直观的看到,虽然经过了跨领域样本的合成,新生成的少数类样本和目标领域多数类样本没有交集,有效地避免了知识的负迁移。
下面给出了CD-SMOTE算法的伪代码描述,对于每个源领域少数类样本仅合成出k个样本。
输入:
源领域少数类样本:
Figure BDA0002915334710000081
目标领域训练样本:
Figure BDA0002915334710000082
k:k-NN算法中的参数k;
kNN(D,x,k):kNN搜索,返回x在数据集D中的k近邻;
rand(M,N):随机矩阵生成函数,返回一大小个M*N的随机数矩阵,随机数服从(0,1)的标准均匀分布队列:Q1,Q2,T1,T2
enqueue(Q,x):将元素x插入队列Q的尾部;
dequeue(Q):返回队列Q的队首元素;
输出:
S:人工合成少数类样本集合
处理:
Figure BDA0002915334710000083
Figure BDA0002915334710000091
第2-6行:扫描
Figure BDA0002915334710000092
中的每个源领域少数类实例,过滤孤立型源领域少数类实例。
第7-8行:将安全型源领域少数类实例入队列Q1
第9-10行:将危险性源领域少数类实例入队列Q2
第12-20行:对于Q1中每个安全型源领域少数类实例x在
Figure BDA0002915334710000093
中搜索其k近邻并靠近x人工合成出k个少数类样本。
第21-28行,对于Q2中每个危险型源领域少数类实例z在
Figure BDA0002915334710000094
中搜索其k近邻并靠近其k近邻人工合成出k个少数类样本。
在第14和23行使用的T1和T2是两个临时队列,用于存储安全型和危险型源领域实例。
另外,在实践中可以设置第15行和第24行中的随机向量r,采用两种方式生成随机向量,即向量的每个维度元素可以是相同或不同的随机数。
CD-SMOTE算法性能评估:
如表1所示的二分类问题的混淆矩阵,实验中使用Balanced Accuracy(BAC)和G-mean两种度量公式评估算法的性能。
表1
Figure BDA0002915334710000101
Figure BDA0002915334710000102
Figure BDA0002915334710000103
其中,Sensitivity=TP/(TP+FN),Specificity=TN/(TN+FP)
式中,TP(True Positive)表示真实是正例预测也为正例的情况(正确的肯定),FP(False Positive)表示真实是负例预测为正例的情况(错误的肯定),FN(False Negative)表示真实是正例预测为负例的情况(错误的否定),TN(True Negative)表示真实是负例,预测也为负例的情况(正确的否定)。特异性(Specificity)表示对于正例的检测准确率,灵敏度(sensitivity)对于负例的检测准确率,灵感度高则表示漏报率低,特异度高则表示误报率低。G-mean和BAC综合了特异性和灵敏度两个指标来评估分类器模型的性能,是不平衡学习领域两个常用的模型度量指标,在实验中G-mean和BAC的值越高表示分类器模型性能越好。
实验对比分析:
为了验证所提出算法在物体识别应用中的优越性,实验验证选择了Office31数据集,Office31数据集中含有31个物体类别和三个领域(Amazon,DSLR,Webcam),如表2所示的训练样本总数(正样本数/负样本数),数据集:Office31,不平衡率≈1:30。将Amazon领域设为目标领域,选择Webcam为源领域。对于某一个物体类别,将其视为少数类,其余物体类别则均视为多数类。随机选择了其中9个物体类别,如表2所示,图像特征编码采用了DeCAF6,为了加快人工合成数据的速度,使用了PCA降维的方法,将DeCAF6特征的维度从4096降低到400维。实验结果如表3所示,采用5轮stratified holdout方法划分训练和测试数据集,实验结果取平均值。实验结果表明,将CD-SMOTE和Borderline-SMOTE算法结合,优于单独使用Borderline-SMOTE算法和WSMOTE算法,可以进一步提高分类器的性能。
表2
Figure BDA0002915334710000111
表3
Figure BDA0002915334710000112
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种基于人工合成数据过采样技术的不平衡物体识别方法,其特征在于,包括:
S1、将源领域少数类样本与目标领域训练样本混合;所述目标领域训练样本,包括:目标领域少数类训练样本和目标领域多数类训练样本;
S2、对每个所述源领域少数类样本在目标领域训练样本中查找k个近邻,并标记k个近邻样本中所包含的所述目标领域多数类训练样本数量为m个;
S3、若m与k相等,将当前的所述源领域少数类样本设置为孤立型,对当前孤立型所述源领域少数类样本进行标记,返回S2;
S4、若m不小于k/2且不大于k时,将当前的所述源领域少数类样本设置为危险型,并通过计算人工合成出k个第一目标领域少数类训练样本,返回S2;
S5、若m不小于0且不大于k/2时,将当前的所述源领域少数类样本设置为安全型,并通过计算人工合成出k个第二目标领域少数类训练样本,返回S2;
S6、过滤掉所有标记的孤立型所述源领域少数类样本,将原始的所述目标领域训练样本和第一目标领域少数类训练样本、第二目标领域少数类训练样本混合构建为新的训练样本集;判断所述新的训练样本集中不平衡率是否小于预先设置的目标值,若小于所述目标值则返回S2,若不小于所述目标值,则得到最终的训练样本集;
S7、根据所述最终的训练样本集通过机器学习算法训练图像分类器,进行物体识别。
2.根据权利要求1所述的一种基于人工合成数据过采样技术的不平衡物体识别方法,其特征在于,所述源领域少数类样本由式(1)表示:
Figure FDA0002915334700000011
所述目标领域训练样本由式(2)表示:
Figure FDA0002915334700000012
式中,i表示训练样本序号,src和tgt分别表示源领域和目标领域,s表示源领域少数类训练样本个数,p表示目标领域少数类训练样本个数,n表示目标领域多数类训练样本个数,上标+和-表示的是类标号,+表示少数类,-表示多数类。
3.根据权利要求2所述的一种基于人工合成数据过采样技术的不平衡物体识别方法,其特征在于,所述若m与k相等,将当前的所述源领域少数类样本设置为孤立型,对当前孤立型所述源领域少数类样本进行标记,包括:
寻找所述源领域少数类样本中的每个样本
Figure FDA0002915334700000021
在Dtgt中的k个近邻样本,若/>
Figure FDA0002915334700000022
在所述目标领域训练样本的k近邻样本中所述目标领域多数类训练样本的个数为k,则将样本/>
Figure FDA0002915334700000023
标记为孤立型。
4.根据权利要求2所述的一种基于人工合成数据过采样技术的不平衡物体识别方法,其特征在于,所述若m不小于k/2且不大于k,将当前的所述源领域少数类样本设置为危险型,并通过计算人工合成出k个第一目标领域少数类训练样本,包括:
寻找危险型源领域少数类样本
Figure FDA0002915334700000024
在/>
Figure FDA0002915334700000025
中的k个近邻样本,构造样本对集合
Figure FDA0002915334700000026
对于V中每个样本对/>
Figure FDA0002915334700000027
通过式(3)合成为k个新的源领域少数类样本qi
Figure FDA0002915334700000028
式中,
Figure FDA0002915334700000029
和/>
Figure FDA00029153347000000210
表示集合V中第i个样本对中源领域样本和目标领域样本,假设均为d维特征向量,rand(1,d)表示生成一个1×d的随机向量,该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。
5.根据权利要求2所述的一种基于人工合成数据过采样技术的不平衡物体识别方法,其特征在于,所述若m不小于0且不大于k/2,将当前的所述源领域少数类样本设置为安全型,并通过计算人工合成出k个第二目标领域少数类训练样本,包括:
寻找安全型源领域少数类样本
Figure FDA00029153347000000211
在/>
Figure FDA00029153347000000212
中的k个近邻样本,构造样本对集合
Figure FDA00029153347000000213
对于U中每个样本对/>
Figure FDA00029153347000000214
通过式(4)人工合成为k个新的目标领域少数类训练样本pi
Figure FDA00029153347000000215
式中,
Figure FDA00029153347000000216
和/>
Figure FDA00029153347000000217
表示集合U中第i个样本对中源领域样本和目标领域样本,假设均为d维特征向量,rand(1,d)表示生成一个1×d的随机向量,该向量的每一个元素是(0,1)区间上服从标准均匀分布的一个随机数。
CN202110098965.9A 2021-01-25 2021-01-25 一种基于人工合成数据过采样技术的不平衡物体识别方法 Active CN112733960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110098965.9A CN112733960B (zh) 2021-01-25 2021-01-25 一种基于人工合成数据过采样技术的不平衡物体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110098965.9A CN112733960B (zh) 2021-01-25 2021-01-25 一种基于人工合成数据过采样技术的不平衡物体识别方法

Publications (2)

Publication Number Publication Date
CN112733960A CN112733960A (zh) 2021-04-30
CN112733960B true CN112733960B (zh) 2023-06-20

Family

ID=75595315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110098965.9A Active CN112733960B (zh) 2021-01-25 2021-01-25 一种基于人工合成数据过采样技术的不平衡物体识别方法

Country Status (1)

Country Link
CN (1) CN112733960B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389480A (zh) * 2015-12-14 2016-03-09 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统
WO2019041629A1 (zh) * 2017-08-30 2019-03-07 哈尔滨工业大学深圳研究生院 基于svm的高维不平衡数据分类方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389480A (zh) * 2015-12-14 2016-03-09 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统
WO2019041629A1 (zh) * 2017-08-30 2019-03-07 哈尔滨工业大学深圳研究生院 基于svm的高维不平衡数据分类方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ADASYN和SMOTE相结合的不平衡数据分类算法;蒋华;江日辰;王鑫;王慧娇;;计算机仿真(03);全文 *
BOS:一种用于不平衡数据学习的边界过采样方法;祝团飞;孙婧;李益洲;李梦龙;;四川大学学报(自然科学版)(03);全文 *
一种改进的不平衡数据过采样算法BN-SMOTE;杨赛华;周从华;蒋跃明;张付全;张婷;;计算机与数字工程(09);全文 *
基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法;霍玉丹;谷琼;蔡之华;袁磊;;计算机应用(01);全文 *

Also Published As

Publication number Publication date
CN112733960A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
US10474929B2 (en) Cyclic generative adversarial network for unsupervised cross-domain image generation
CN108023876B (zh) 基于可持续性集成学习的入侵检测方法及入侵检测系统
CN110808971B (zh) 一种基于深度嵌入的未知恶意流量主动检测系统及方法
CN110334806A (zh) 一种基于生成式对抗网络的对抗样本生成方法
Wang et al. Efficient learning by directed acyclic graph for resource constrained prediction
US11335118B2 (en) Signal retrieval apparatus, method, and program
Cao et al. Adversarial learning with local coordinate coding
CN109492075B (zh) 一种基于循环生成对抗网络的迁移学习排序方法
WO2016201648A1 (zh) 一种基于局部学习的信息隐藏检测方法
US11658989B1 (en) Method and device for identifying unknown traffic data based dynamic network environment
Bodström et al. State of the art literature review on network anomaly detection with deep learning
Lin PCA/SVM-based method for pattern detection in a multisensor system
Fang et al. Unsupervised face morphing attack detection via self-paced anomaly detection
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
CN110598794A (zh) 一种分类对抗的网络攻击检测方法及系统
Sarasamma et al. Min-max hyperellipsoidal clustering for anomaly detection in network security
Badawi Fish classification using extraction of appropriate feature set.
CN112465003B (zh) 一种加密离散序列报文的识别方法及系统
CN112733960B (zh) 一种基于人工合成数据过采样技术的不平衡物体识别方法
Amini et al. Deepfp: A deep learning framework for user fingerprinting via mobile motion sensors
Zhang et al. Network traffic classification method based on improved capsule neural network
Alam et al. Deepmalware: a deep learning based malware images classification
CN113887357B (zh) 一种人脸表示攻击检测方法、系统、装置及介质
WO2018203551A1 (ja) 信号検索装置、方法、及びプログラム
CN115664970A (zh) 基于双曲空间的网络异常点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant