CN109615002A - 基于pso的决策树svm大学生消费行为评价方法 - Google Patents

基于pso的决策树svm大学生消费行为评价方法 Download PDF

Info

Publication number
CN109615002A
CN109615002A CN201811486699.1A CN201811486699A CN109615002A CN 109615002 A CN109615002 A CN 109615002A CN 201811486699 A CN201811486699 A CN 201811486699A CN 109615002 A CN109615002 A CN 109615002A
Authority
CN
China
Prior art keywords
university student
pso
decision tree
class
student
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811486699.1A
Other languages
English (en)
Inventor
张登银
陈慧
赵莎莎
王鑫泽
周言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201811486699.1A priority Critical patent/CN109615002A/zh
Publication of CN109615002A publication Critical patent/CN109615002A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于PSO的决策树SVM大学生消费行为评价方法,包括如下步骤:步骤1:将大学生按支付信息分类,采集每类大学生的消费信息,从消费信息中选取若干个特征,以若干个特征构成的特征向量为样本;步骤2:利用自变异PSO聚类算法将每类大学生的样本集分类,得到若干个子节点;步骤3:采用支持向量机技术训练出每类大学生的各个子节点的分类器,所有的子节点的分类器构成该类大学生的总分类器;步骤4:判断待评价大学生的支付信息所属分类,将该大学生的特征向量输入所属分类的总分类器中,得到该大学生的消费行为类别。本发明不仅能准确具体的评价出大学生每天的消费情况,并具备较好的推广能力和适应能力。

Description

基于PSO的决策树SVM大学生消费行为评价方法
技术领域
本发明属于大学生消费行为评价领域,具体为一种基于PSO的决策树SVM(支持向量机)大学生消费行为评价方法。
背景技术
近年来随着独生子女成为大学生的主体,在校大学生的消费能力和消费水平有了大幅度的提高,消费习惯也发生着相应的改变,逐渐成为社会消费体系中很重要的一部分。但是,盲目消费,从众消费,超额消费等不良现象在大学生群体中屡见不鲜。与此同时,随着支付宝微信等在线支付平台的普及,很多在校大学生并没有感觉到自身消费的异常,导致消费后期发生经济拮据、贷款消费等现象。目前,针对大学生消费行为的研究,只局限于对校园卡消费数据的分析,使用基于恩格尔系数的决策树进行相应的数据挖掘,而在校园中,大学生的消费远不止校园卡消费,且使用恩格尔系数进行判断评价也很有片面性,不能全面的反映大学生的消费现状。
支持向量机技术是数据挖掘中的一项新技术,它在分类领域获得了广泛的应用,主要思想即通过寻找到数据集中的一个超平面,使其尽可能多地将两类数据点正确分开,同时使分开的两类数据点距离分类面最短。可是传统支持向量机多分类方法存在的不可分区域和误差积累现象。而使用自变异的PSO聚类算法可以在每一决策节点自动寻找最优或近优分类决策,将数据集划分为两类,直至叶子节点为止,最终根据最优决策树构建SVM多分类结构,训练各个节点SVM分类器。
发明内容
发明目的:为了解决上述问题,本文发明了一种基于PSO的决策树SVM大学生消费行为评价方法,通过优化的支持向量机分类算法,对大学生消费数据进行合理分类,得出每一类别中,大学生消费行为的共性和个性,从而让在校大学生清楚的知道,自己每天的消费情况。
为实现上述目的,本发明采用如下技术方案:
基于PSO的决策树SVM大学生消费行为评价方法,包括如下步骤:
步骤1:将大学生按支付信息分类,采集每类大学生的消费信息,从消费信息中选取若干个特征,以若干个特征构成的特征向量为样本;
步骤2:利用自变异PSO聚类算法将每类大学生的样本集分类,得到每类大学生的决策树结构;
步骤3:采用支持向量机技术训练出每类大学生的决策树结构的各个子节点的分类器,所有的子节点的分类器构成该类大学生的总分类器;
步骤4:判断待评价大学生的支付信息所属分类,将该大学生的特征向量输入所属分类的总分类器中,得到该大学生的消费行为类别。
优选的,步骤1中,所述支付信息为qi={ti,xi,gi},其中,ti为第i位大学生的购买时间,xi为第i位大学生的性别标记,gi为第i位大学生的年级标记。
优选的,步骤1中,所述特征向量为:pi=(si,ci,yfi,cwi,cxi,yxi,cxi),其中si为理论每日生活费,ci为实际每日支出总额,yfi为每日购买服装总额,cwi为每日购买食物总额,cxi为每日出行总额,yxi为每日游戏支出,cxi为每日化妆品类支出。
优选的,步骤2的具体步骤为:
步骤2.1:将每类大学生的样本集作为根节点,在根节点调用自变异PSO聚类算法,将该样本集划分为两类,一类为si≥ci,另一类为si<ci,形成两个第一子节点;
步骤2.2:对两个第一子节点分别调用自变异PSO聚类算法将步骤2.1得到的两类样本集分别划分为两类,一类为yfi,cwi,cxi,yxi,cxi支出比例合理,另一类为yfi,cwi,cxi,yxi,cxi支出比例不合理,得到四个第二子节点;
步骤2.3:第二子节点即为叶子节点,算法结束,分类完成。
优选的,步骤1中,从物联网消费平台获取大学生消费信息。
有益效果:
与大学生消费行为分析领域的相关研究相比,本发明具有以下优势:
1、本发明不再简单考虑校园卡消费,综合支付软件收集的所有数据进行分析,考虑到不同同学的消费习惯和消费能力的不同,对大量数据集进行科学分类,再反馈数据,不仅能准确具体的评价出大学生每天的消费情况,并具备较好的推广能力和适应能力。
2、支持向量机分类器可以处理非线性分类问题,即每次分类两次样本点集重合的区域很大,如此可以很好的解决大学生消费数据集中各元素之间的相关性大的问题,由此提高了大学生消费情况分类的准确性。
3、使用决策树的支持向量机,可以解决传统支持向量机只支持单分类的问题,从而很好的适应大学生消费类别多的情况。
4、使用基于粒子群PSO算法的决策树SVM多分类,可以生成最优二叉决策树结构,避免出现误差积累问题,由此提高了分类的精度。
5、本发明是针对大学生消费行为的评价,顺应目前大学生数量多,消费情况各不相同的实际情况,可以更好的引导大学生合理消费,对于和大学生消费相关的领域也可以提供针对性的指导,有很强的社会意义和现实价值。
附图说明
图1是本发明的流程图;
图2是由支付信息判定类别的流程图。
图3是决策树支持向量机分类示意图;
图4是粒子群PSO算法的决策树SVM多分类示意图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
本发明包括如下步骤:
(1)获取训练数据集
通过类似于支付宝,口碑等的物联网消费平台,获取每一个注册用户的基本信息,当发生交易行为时,及时抓取出该项交易的时间,金额等信息。考虑到大学生群体的特殊性,本文采用从前端抓取出的与大学消费有密切关系的五项指标,作为训练数据集;
第i位大学生的支付信息为qi={ti,xi,gi},
其中,ti为第i位大学生的购买时间(主要包括工作日和节假日,其中,工作日为1,节假日为0),xi为第i位大学生的性别标记(其中,男生为1,女生为0),gi为第i位大学生的年级标记(大一、大二、大三、大四分别记为1,2,3,4)。
选取在特定支付信息下该大学生的特征向量为
pi=(si,ci,yfi,cwi,cxi,yxi,cxi)
其中si为理论每日生活费,ci为实际每日支出总额,yfi为每日购买服装总额,cwi为每日购买食物总额,cxi为每日出行总额,yxi为每日游戏支出,cxi为每日化妆品类支出。
结合经济学领域理论,对于每个特征向量中样本类别yi的判定,在一轮分类中,若si>ci没有出现超额消费,则yi1标记为1,否则yi1标记为-1,在二轮分类中,标记服装、食物、出行、游戏、化妆品类支出比例在特定支付信息下合理,yi2=1,不合理yi2=-1。
(2)支持向量机训练器
根据(1)得,将样本集划分为训练样本集和测试样本集,训练样本为(pi,yi),i=1,2,...,n,y∈{+1,-1},x∈Rn,n为样本数。当线性可分时,最优超平面为:
ωx+b=0
其中ω为权值矢量,b为偏差,此时,分类间隔为显然当‖ω‖值最小时,分类间隔最大。于是寻找最优超平面问题可以转化为如下二次规划问题:
当训练样本集线性不可分时,需引入非松弛变量ξi,i=1,2...,n,求解最优分类面问题为:
其中:C为惩罚函数,C越大表示对错误分类的惩罚越大。通过Lagrange乘子法求解上述优化问题,可得最优决策函数为:
其中,ai为Lagrange系数。在对输入测试样本x进行测试时,由上式确定x所属类别。根据KKT互补条件,上述优化问题的解必须满足:
ai(yi(ω·x+b)-1)=0
因此,对于多数样本ai将为0,只有支持向量的ai不为0,它们通常在全体样本中所占的比例很少。这样,仅需要少量支持向量即可完成正确的样本分类。
不难发现,在大学生消费数据集中,每次分类两次样本点集重合的区域很大,此时可将训练样本x映射到某个高维空间Hilbert,使其在Hilbert空间H中线性可分,采用不同的核函数K(pi·pj)便可实现非线性的线性划分。根据Mercer条件,此时相应的最优决策函数变为:
(3)决策树支持向量机
决策树支持向量机,首先将所有类别分为2个子类,每个子类在下一层次继续划分为2个次子类,如此循环,直至生成叶子节点,即满足分类的精度,最终形成决策树,每个决策点使用SVM进行分类。
相对于其他将单分类支持向量机转换为多分类支持向量机的方法,决策树SVM不存在不可分区域,提高了分类精度;需要的分类器少,对于M分类问题,仅需要构造M-1个分类器;从上至下每一层次所需的训练样本及支持向量机的数量递减,缩短了训练时间;分类时不必遍历所有分类器,缩短了分类时间。决策树支持向量机基本分类思路如图3。
如图3所示,经过决策树支持向量机算法,可以将原本只能单分类的传统支持向量机,分成更多的分支,在大学生消费数据中,便可全面的联系到每位同学的每条数据之间的相关性,将大量数据进行合理分类。
但是在图3中,不难看出,这样分类会出现误差积累问题,即如果再某个分类层次上发生分类错误,则错误会沿着树结构向后续结点延续,最终导致分类结果与实际情况相去甚远的情况。可见,决策树的结构对分类性能影响很大,本文决定采用基于粒子群算法的决策树SVM多分类机制,对决策树进行合理构造,提高分类精度。
(4)基于粒子群PSO算法的决策树SVM多分类
在分类过程中应遵循从易到难的原则,首先分割容易分离的类,再到较难分的类,使分类错误尽可能远离根节点,从而得到性能优良的分类器。
本文利用自变异粒子群(PSO)聚类算法在每个节点将多类训练样本分为两类,直到叶子节点为止,使两个子类之间的可分性尽可能强,生成最优二叉决策树结构,最终依据该结构来训练子分类器,基于自变异PSO聚类的决策树SVM生成算法具体流程如下:
步骤一:将全部训练样本集作为初始根节点,在根节点调用自变异PSO聚类算法,将原始训练样本合并划分为两类,形成两个子节点。
步骤二:判断子节点是否达到分类数目要求,若是转向步骤四,若不是则转向步骤三。
步骤三:对该子节点继续调用自变异PSO聚类算法,将其再划分为两个子节点,转步骤二。
步骤四:该节点即为叶子节点,算法结束,分类完成。
步骤五:采用支持向量机技术进行训练,得到每个子节点的分类器,进行后续新同学数据录入时的分类预测。
该方法是在SVM训练前针对每个子节点进行的二分类划分,确定各个子分类器对应的位置以及训练样本。具体分类如图4所示。
(5)PSO寻找聚类中心算法设计
PSO聚类算法需要预先设定簇的个数,一个粒子代表各簇的聚类中心,粒子Xi构造如下:
Xi=(Ci1,Ci2,...,Cij)
式中:Cij表示第i个粒子所代表的第j个类的聚类中心,则每个粒子代表一种对数据集的划分,整个粒子群代表了对数据集的多种划分方案。
PSO算法的粒子适应度函数为f:
式中:je为类内离散度之和,Nc为簇的个数,数据Pm属于聚类中心Cij代表的类。可以看出,适应度越高的粒子的类内离散度之和越小,即类内的相似度越高。
在本专利中,每次需要将数据划分为2类,则Nc=2,设PSO参数C1=C2=1.5,且由于粒子群优化算法存在早熟收敛现象,有可能陷入局部最优解,所以本文算法在迭代中使每个粒子存在20%的几率变异为随机粒子,实现全局寻优。自变异PSO聚类算法流程描述如下:
Step1:随机初始化粒子的速度和位置(聚类中心)。
Step2:按照最邻近法则对数据进行划分,依照适应度的计算公式,计算每个粒子的适应度值,更新个体极值。
Step3:粒子20%可能性发生变异,并寻找全局极值和全局极值位置。
Step4:按粒子群算法的位置公式和速度公式更新粒子的位置及速度。
Step5:若达到结束条件,输出最优粒子的位置即最优的2个聚类中心;若未达到结束条件,则返回Step2。
算法的结束条件可以是达到预设的迭代次数、聚类中心不变(变化很小)或者是簇的成员不再变化。
(6)大学生消费行为评价反馈
通过基于PSO的决策树SVM算法,得出大学生消费数据集和合理划分,并训练出每个节点的分类器,即完成了本文算法的主要流程。
根据第i个同学的支付信息为qi={ti,xi,gi}-得出该同学的分类分支,然后,收集出该同学一天内的消费数据,形成该同学特征向量为pi=(si,ci,yfi,cwi,cxi,yxi,cxi),利用已训练好的决策树SVM,针对该同学的消费行为进行分类,得到和该同学消费水平类似的一类同学。接着对每一类数据进行分析,反馈出相同时间ti,相同性别xi,相同年级gi的同学平均理论消费值和平均实际消费值还有服装、食物、出行、游戏、化妆品五大消费类别的均值μj(j=1,2,3,4,5)和比例k,根据一轮分类结果,显示出该同学该天是否有超额消费现象,根据二轮分类结果,反馈出相似消费结构下,总体大学生的平均水平和消费比例,以供该同学参考。如此,便合理的对大学生消费行为进行评价,帮助在校大学生更好的管理自己的财产。

Claims (5)

1.基于PSO的决策树SVM大学生消费行为评价方法,其特征在于,包括如下步骤:
步骤1:将大学生按支付信息分类,采集每类大学生的消费信息,从消费信息中选取若干个特征,以若干个特征构成的特征向量为样本;
步骤2:利用自变异PSO聚类算法将每类大学生的样本集分类,得到每类大学生的决策树结构;
步骤3:采用支持向量机技术训练出每类大学生的决策树结构的各个子节点的分类器,所有的子节点的分类器构成该类大学生的总分类器;
步骤4:判断待评价大学生的支付信息所属分类,将该大学生的特征向量输入所属分类的总分类器中,得到该大学生的消费行为类别。
2.根据权利要求1所述的基于PSO的决策树SVM大学生消费行为评价方法,其特征在于,步骤1中,所述支付信息为qi={ti,xi,gi},其中,ti为第i位大学生的购买时间,xi为第i位大学生的性别标记,gi为第i位大学生的年级标记。
3.根据权利要求1所述的基于PSO的决策树SVM大学生消费行为评价方法,其特征在于,步骤1中,所述特征向量为:pi=(si,ci,yfi,cwi,cxi,yxi,cxi),其中si为理论每日生活费,ci为实际每日支出总额,yfi为每日购买服装总额,cwi为每日购买食物总额,cxi为每日出行总额,yxi为每日游戏支出,cxi为每日化妆品类支出。
4.根据权利要求3所述的基于PSO的决策树SVM大学生消费行为评价方法,其特征在于,步骤2的具体步骤为:
步骤2.1:将每类大学生的样本集作为根节点,在根节点调用自变异PSO聚类算法,将该样本集划分为两类,一类为si≥ci,另一类为si<ci,形成两个第一子节点;
步骤2.2:对两个第一子节点分别调用自变异PSO聚类算法将步骤2.1得到的两类样本集分别划分为两类,一类为yfi,cwi,cxi,yxi,cxi支出比例合理,另一类为yfi,cwi,cxi,yxi,cxi支出比例不合理,得到四个第二子节点;
步骤2.3:第二子节点即为叶子节点,算法结束,分类完成。
5.根据权利要求1所述的基于PSO的决策树SVM大学生消费行为评价方法,其特征在于,步骤1中,从物联网消费平台获取大学生消费信息。
CN201811486699.1A 2018-12-06 2018-12-06 基于pso的决策树svm大学生消费行为评价方法 Pending CN109615002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811486699.1A CN109615002A (zh) 2018-12-06 2018-12-06 基于pso的决策树svm大学生消费行为评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811486699.1A CN109615002A (zh) 2018-12-06 2018-12-06 基于pso的决策树svm大学生消费行为评价方法

Publications (1)

Publication Number Publication Date
CN109615002A true CN109615002A (zh) 2019-04-12

Family

ID=66006063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811486699.1A Pending CN109615002A (zh) 2018-12-06 2018-12-06 基于pso的决策树svm大学生消费行为评价方法

Country Status (1)

Country Link
CN (1) CN109615002A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188928A (zh) * 2019-05-15 2019-08-30 张会丽 一种云数据教育培训过程的形成性优化系统及方法
CN112085060A (zh) * 2020-08-07 2020-12-15 中国民航大学 基于SVT-DTSVMs的双偏振气象雷达降水粒子分类方法及装置
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN112115259B (zh) * 2020-06-17 2024-06-25 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188928A (zh) * 2019-05-15 2019-08-30 张会丽 一种云数据教育培训过程的形成性优化系统及方法
CN112115259A (zh) * 2020-06-17 2020-12-22 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN112115259B (zh) * 2020-06-17 2024-06-25 上海金融期货信息技术有限公司 一种特征词驱动的文本多标签层次分类方法和系统
CN112085060A (zh) * 2020-08-07 2020-12-15 中国民航大学 基于SVT-DTSVMs的双偏振气象雷达降水粒子分类方法及装置

Similar Documents

Publication Publication Date Title
Salas et al. A systematic comparative evaluation of machine learning classifiers and discrete choice models for travel mode choice in the presence of response heterogeneity
CN101315670B (zh) 特定被摄体检测装置及其学习装置和学习方法
Yazdi et al. Oil project selection in Iran: a hybrid MADM approach in an uncertain environment
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN107230108A (zh) 业务数据的处理方法及装置
CN108363810A (zh) 一种文本分类方法及装置
CN106599935A (zh) 基于Spark大数据平台的三支决策不平衡数据过采样方法
Rajawat et al. Web personalization model using modified S3VM algorithm for developing recommendation process
Doumpos et al. Model combination for credit risk assessment: A stacked generalization approach
CN103258147A (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
CN104463673A (zh) 一种基于支持向量机的p2p网络贷款风险评估模型
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN109919236A (zh) 一种基于标签相关性的bp神经网络多标签分类方法
CN109615002A (zh) 基于pso的决策树svm大学生消费行为评价方法
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
Qi et al. An interval-valued data classification method based on the unified representation frame
CN109919320B (zh) 基于语义层次结构的Triplet网络学习方法
Taylor et al. On partitioning multivariate self-affine time series
CN106529585A (zh) 一种基于大间隔投影空间学习的钢琴乐谱难度识别方法
Kalampokas et al. A holistic approach on airfare price prediction using machine learning techniques
CN105760471A (zh) 基于组合凸线性感知器的两类文本分类方法
CN116244426A (zh) 地理功能区识别方法、装置、设备及存储介质
Wijaya et al. Implementation of KNN Algorithm for Occupancy Classification of Rehabilitation Houses
Yao Feature selection based on SVM for credit scoring
Karim et al. Fuzzy Clustering Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190412

RJ01 Rejection of invention patent application after publication