CN108062563A - 一种基于类别均衡的代表样本发现方法 - Google Patents

一种基于类别均衡的代表样本发现方法 Download PDF

Info

Publication number
CN108062563A
CN108062563A CN201711316558.0A CN201711316558A CN108062563A CN 108062563 A CN108062563 A CN 108062563A CN 201711316558 A CN201711316558 A CN 201711316558A CN 108062563 A CN108062563 A CN 108062563A
Authority
CN
China
Prior art keywords
representative sample
classification
sample
representative
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711316558.0A
Other languages
English (en)
Inventor
袁玉波
顾依依
谈询滔
阮彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201711316558.0A priority Critical patent/CN108062563A/zh
Publication of CN108062563A publication Critical patent/CN108062563A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方法公开了一种基于类别均衡的代表样本发现方法。在确保智能分类系统分类准确率的条件下,以提升机器学习的效率为目标。本方法核心技术包括:第一、候选样本集合预处理及分割方法,将用户给出的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割;第二、代表样本数量分配,给出类别均衡的定义并分配代表样本个数;第三、多标准选择代表,按照最大、最小和平均三种标准进行选举代表样本工作。此方法在保持分类准确率基本不变的情况下,有效地减少智能分类系统建模时间和内存空间。为了验证方法有效性,选择了5类智能分类算法在25个UCI数据库上展开试验,结果说明本方法选择得到了有意义的代表样本。

Description

一种基于类别均衡的代表样本发现方法
技术领域
本发明主要涉及人工智能技术,具体涉及一种基于类别均衡的代表样本发现方法。
背景技术
随着经济的迅速发展,科技的不断进步,现实世界中各个方面的数据量呈爆炸式增长,迎来了当今的大数据时代。在此背景下,有关数据驱动的各种智能系统的设计和研究成为当今的热点,尤其是人工智能以及其核心技术机器学习,备受瞩目。传统的数据处理技术已经无法应用在大规模数据之上,因此要对处理技术做出改进,以适应时代的变化。但当移动终端时代的来临,对数据的规模有了十分严格的要求,要尽量的少,包含的信息要足够全,以保证智能系统的速度足够快。因此,为了提升智能系统的性能,就要提升训练样本的质量,应用于智能系统的样本应该少而精。在此问题的驱动下,本文的研究目标是提出有效地发现高质量的代表样本的方法。
本方法是基于类别均衡的一种样本发现方法。首先,给出类别均衡的定义公式,
其中,N是用户给定的总代表数,N0是总样本数,k是数据集包含的类别个数,xi是第i类样本数,li是第i类代表数。上式表述了总代表以及总样本的构成。
上式为本方法中类别均衡的定义公式,它表述了每个类别的样本数与代表数的比值应近似相等,并且近似等于总样本数与总代表数的比值。通过此类别均衡的公式,确定的每个类别应选的代表样本的个数,最终选到的总代表样本,包含了原始数据集中的每个类别,并且保持了原始数据集中类别比例的结构,可以更好地代表原始数据集。
代表样本的发现方法是基于日常选举代表人员的思想来设计实现的。在现实生活中,我们要选出若干个代表去参加一个会议,可以根据参选人员的收入选择收入较高的、中等的、较低的去参加会议;也可以选择年龄中较大、适中的、较小的去参加会议。其中,收入和年龄就相当于数据集中的属性,而较高、中等、较低则为在属性中选择样本的标准。因此,本文的代表样本发现方法,则是在某些属性中按照最大、最小、平均这三个标准进行样本的选择工作。
在样本的与预处理过程中,对异常值的处理通常是直接将含有异常值的记录剔除,但在去除含异常值的记录前,首先需要明确哪些是异常值。一般可以选择箱型图对数据集进行异常值的分析,其好处是不需要数据服从某种特定的分布,它是根据实际的数据来绘制箱型图的。箱型图主要包含上边缘、上四分位数Q1、中位数、下四分位数Q2、下边缘、异常值,这六个结点,其中异常值被定义为大于Q1+1.5IQR或小于Q2-1.5IQR,IQR为四分位距。由此可知,箱型图判断异常值以四分位数和四分位距为标准。因为四分位数不会受到异常值的干扰,所以四分位数具有一定的耐抗性,使得用箱型图来识别异常值会比较客观。
进行特征选择或特征降维的工作一般选用主成分分析法,即PCA。通常,现实世界中的数据所构建的数据集,包含的大多数属性之间是具有一定的相关性。PCA就是去除这些属性中信息重叠的部分,合并得到新的属性,这些新属性之间两两不相关,并尽可能的保持原有的信息。其处理过程是,将原始的P个属性作线性组合F,选择一个或多个F用来代表原始的P个属性。F的方差越大,说明其包含的信息量越多。因此,按照F方差由大到小依次选择,并且每次选择的F不能包含已选择的F中的信息,直到选择到足以代表原始P个属性。本文的代表样本发现方法,就是将原始数据集利用PCA合成新的数据集,在合成的新属性中选择贡献度大的,按照标准在其中进行样本选择。
发明内容
本发明的目的在于提出一种基于类别均衡的代表样本发现方法。在基于类别均衡的概念上,通过代表选举的思想选择代表样本,使得在约减样本数量的同时,可以完整的代表原始数据集的特征。
本发明的技术方案如下:
步骤1,候选集合分割:对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割。
对原始数据库进行预处理的方法为,直接删除含缺失值的记录,利用箱型图按照类别进行异常值的识别与删除,再按照类别划分子集。
步骤2,代表样本数量分配:给出类别均衡的定义,并根据用户给定的所需选取的代表样本个数,确定每个类别中应选出的代表样本个数。
其核心思想在于类别均衡的定义,定义公式如下:
其中,N是用户给定的所需选取的代表样本个数,N0是原始数据库中总样本数,k是原始数据库包含的类别个数,xi是第i类样本数,li是第i类代表数。已知N,N0,xi,可以根据上述公式计算得到在每个类别中应选出的代表样本的个数。
步骤3,代表样本选择:根据每个类别应选的代表个数,在相应的类别子集中,按照三种标准进行样本发现工作。
步骤3根据步骤2中确定的每个类别中应选的代表样本个数,在步骤1划分的子集中,在特征中按照最大、最小、平均三种标准来进行代表样本发现工作,在发现过程中,如果li小于特征的个数,那么将利用PCA合成新特征,在前li个特征中进行样本发现工作。如果在选择样本的过程中,存在选不到的样本,将会进行样本补全工作。最终,得到三组个数为用户给定的总代表数,并且是分别通过最大、最小、平均标准选出的代表样本,以及一组将这三组样本进行合并得到的代表样本。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1为本发明基于类别均衡的代表样本发现方法的流程图;
图2为25个原始训练样本数、合并后代表样本数、单一标准代表个数的数据量对比图;
图3为原始训练集、合并后代表样本、最大、最小、平均标准所得样本,在NaiveBayes分类器上的分类准确率对比图;
图4为原始训练集、合并后代表样本、最大、最小、平均标准所得样本,在J48分类器上的分类准确率对比图;
图5为原始训练集、合并后代表样本、最大、最小、平均标准所得样本,在DecisionTable分类器上的分类准确率对比图;
图6为原始训练集、合并后代表样本、最大、最小、平均标准所得样本,在AdaBoostM1分类器上的分类准确率对比图;
图7为原始训练集、合并后代表样本、最大、最小、平均标准所得样本,在LibSVM分类器上的分类准确率对比图;
图8为应用在五种分类算法上的效率分析图,效率的定义为:
其中代表样本量与代表样本准确率的值,是由25个数据集在对应的分类算法上所得分类准确率最高的一组代表样本所确定。
具体实施方式
步骤1,候选集合分割:对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割。
对原始数据库进行预处理的方法为,直接删除含缺失值的记录,利用箱型图在每个类别的数据子集中,对每个属性进行异常值的识别,并删除识别到的异常值所在的记录;最后,按照类别划分子集。
步骤2,代表样本数量分配:给出类别均衡的定义,并根据用户给定的所需选取的代表样本个数,确定每个类别中应选出的代表样本个数。
其核心思想在于类别均衡的定义,定义公式如下:
其中,N是用户给定的所需选取的代表样本个数,N0是原始数据库中总样本数,k是原始数据库包含的类别个数,xi是第i类样本数,li是第i类代表数。已知N,N0,xi,可以根据上述公式计算得到在每个类别中应选出的代表样本的个数,即li的值。
步骤3,代表样本选择:根据每个类别应选的代表个数,在相应的类别子集中,按照三种标准进行样本发现工作。
步骤3根据步骤2中确定的每个类别中应选的代表样本个数,在步骤1划分的子集中,在特征中按照最大、最小、平均三种标准来进行代表样本发现工作。在发现过程中,(1)如果li<特征的个数F,(a)可供选择样本数>特征的个数时,利用PCA将可供选择的样本子集进行变换,合成新特征,在前li个新特征中通过最大、最小、平均三种标准选出三组li个样本号后,在原始数据集中根据样本号提取记录作为代表样本;(b)可供选择样本数<特征的个数时,判断所有可供选择样本之间两两的相关性,选择相关性最小的前li条记录作为代表样本。(2)如果li>特征的个数F,执行次如下操作:生成一个随机的特征选择顺序,根据这个顺序,在相应的特征中按最大、最小、平均三种标准分别选择代表样本F个,并在原始数据集中删除已选择的样本;对于最后一次不足F个代表样本发现工作,执行同(1)的操作。在步骤(1)(a)和(2)中所选择到的代表样本之间的相关性不满足强相关性的条件,即代表样本之间的相关性应小于0.8,若因相关性过大而选择不到样本,将进行样本补全工作。最终,得到三组个数为用户给定的总代表数,并且是分别通过最大、最小、平均标准选出的代表样本,以及一组将这三组样本进行合并得到的代表样本。

Claims (4)

1.一种基于类别均衡的代表样本发现方法,其特征在于:对数据分类训练数据库进行样本发现工作时,进行了以下步骤,
步骤1,候选集合分割:对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割;
步骤2,代表样本数量分配:给出类别均衡的定义,并根据用户给定的所需选取的代表样本个数,确定每个类别中应选出的代表样本个数;
步骤3,代表样本选择:根据每个类别应选的代表个数,在相应的类别子集中,按照三种标准进行样本发现工作。
2.根据权利要求1所述的基于类别均衡的代表样本发现方法,其特征在于:步骤1所述的对原始数据库进行预处理的方法为,直接删除含缺失值的记录,利用箱型图在每个类别的数据子集中,对每个属性进行异常值的识别,并删除识别到的异常值所在的记录;最后,按照类别划分子集。
3.根据权利要求1所述的基于类别均衡的代表样本发现方法,其特征在于:对类别均衡的概念给出了定义,其公式为:其中,N是用户给定的所需选取的代表样本个数,N0是原始数据库中总样本数,k是原始数据库包含的类别个数,xi是第i类样本数,li是第i类代表数;已知N,N0,xi,可以根据上述公式计算得到在每个类别中应选出的代表样本的个数,即li的值。
4.根据权利要求1所述的基于类别均衡的代表样本发现方法,其特征在于:在特征中按照最大、最小、平均三种标准来进行代表样本发现工作;在发现过程中,(1)如果li<特征的个数F,(a)可供选择样本数>特征的个数时,利用PCA合成新特征,在前li个新特征中通过最大、最小、平均三种标准选出三组个数为li的代表样本;(b)可供选择样本数<特征的个数时,判断所有可供选择样本之间的相关性,选择相关性最小的前li条记录作为代表样本;(2)如果li>特征的个数F,执行次如下操作:生成一个随机的特征选择顺序,在相应的特征中按最大、最小、平均三种标准分别选择代表样本F个;对于剩余的不足F个代表样本发现工作,执行同(1)的操作;在步骤(1)(a)和(2)中所选择到的代表样本之间的相关性不满足强相关性的条件,即代表样本之间的相关性应小于0.8,若因相关性过大而选择不到样本,将进行样本补全工作;最终,得到三组个数为用户给定的总代表数,并且是分别通过最大、最小、平均标准选出的代表样本,以及一组将这三组样本进行合并得到的代表样本。
CN201711316558.0A 2017-12-12 2017-12-12 一种基于类别均衡的代表样本发现方法 Pending CN108062563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711316558.0A CN108062563A (zh) 2017-12-12 2017-12-12 一种基于类别均衡的代表样本发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711316558.0A CN108062563A (zh) 2017-12-12 2017-12-12 一种基于类别均衡的代表样本发现方法

Publications (1)

Publication Number Publication Date
CN108062563A true CN108062563A (zh) 2018-05-22

Family

ID=62138199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711316558.0A Pending CN108062563A (zh) 2017-12-12 2017-12-12 一种基于类别均衡的代表样本发现方法

Country Status (1)

Country Link
CN (1) CN108062563A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046254A (zh) * 2019-04-18 2019-07-23 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN114996256A (zh) * 2022-06-14 2022-09-02 东方联信科技有限公司 一种基于类别平衡的数据清洗方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046254A (zh) * 2019-04-18 2019-07-23 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN110046254B (zh) * 2019-04-18 2022-03-08 阿波罗智联(北京)科技有限公司 用于生成模型的方法和装置
CN114996256A (zh) * 2022-06-14 2022-09-02 东方联信科技有限公司 一种基于类别平衡的数据清洗方法

Similar Documents

Publication Publication Date Title
CN107256246B (zh) 基于卷积神经网络的印花织物图像检索方法
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN108984642B (zh) 一种基于哈希编码的印花织物图像检索方法
CN107871101A (zh) 一种人脸检测方法及装置
CN110210555A (zh) 基于深度学习的钢轨鱼鳞伤损检测方法
CN107239529A (zh) 一种基于深度学习的舆情热点类别划分方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN107563280A (zh) 基于多模型的人脸识别方法和装置
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
US20180165413A1 (en) Gene expression data classification method and classification system
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN109948143A (zh) 社区问答系统的答案抽取方法
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
CN107392241A (zh) 一种基于加权列抽样XGBoost的图像目标分类方法
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
CN107947921A (zh) 基于递归神经网络和概率上下文无关文法的密码生成系统
CN107832412B (zh) 一种基于文献引用关系的刊物聚类方法
CN105956570B (zh) 基于唇部特征和深度学习的笑脸识别方法
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN107506362A (zh) 基于用户群优化的图像分类仿脑存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180522

WD01 Invention patent application deemed withdrawn after publication