CN108256923A - 一种基于车辆通行特征的etc客户细分方法 - Google Patents

一种基于车辆通行特征的etc客户细分方法 Download PDF

Info

Publication number
CN108256923A
CN108256923A CN201810092069.XA CN201810092069A CN108256923A CN 108256923 A CN108256923 A CN 108256923A CN 201810092069 A CN201810092069 A CN 201810092069A CN 108256923 A CN108256923 A CN 108256923A
Authority
CN
China
Prior art keywords
client
customer segmentation
customer
index
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810092069.XA
Other languages
English (en)
Inventor
钱超
杨孟
张馨予
许宏科
沈国琛
李叔欣
张文幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN201810092069.XA priority Critical patent/CN108256923A/zh
Publication of CN108256923A publication Critical patent/CN108256923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于车辆通行特征的ETC客户细分方法,将ETC客户细分指标分别定义为最近消费间隔、年通行频次和年消费金额三类,在定义ETC客户细分指标之后采用CLARA算法进行ETC客户聚类分析,将最好的聚类结果输出;在ETC客户聚类分析完成后,采用CART算法建立细分规则提取算法,然后进行ETC客户细分模型的建立,得到ETC客户星级评定结果。本发明通过结合CLARA算法完成了ETC客户全样本数据聚类分析,克服了PAM算法对于大数据聚类的失效问题,实现了ETC客户细分,设计了ETC客户星级评定方法,可为高速公路运营管理单位探索ETC客户精准营销和分级费率优惠方面提供创新思路。

Description

一种基于车辆通行特征的ETC客户细分方法
技术领域
本发明涉及智能交通领域,具体涉及应用大数据分析与挖掘技术建立的一种基于车辆通行特征的高速公路ETC客户细分方法。
背景技术
电子不停车收费(Electronic Toll Collection,ETC)系统是智能信息化交通运输体系建设的重要部分,ETC系统可降低车辆通行时间和能源消耗,同时又可节约基建和运营成本,因而成为世界各国都在大力推崇的先进支付方式。自20世纪90年代以来,伴随着以客户为中心的管理理念发展,由Gartner group咨询公司提出的客户关系管理(CustomerRelationship Management,CRM)受到广泛重视,客户关系管理有助于维系和拓展客户与企业间的互利关系。
在公路交通领域,对ETC系统研究主要集中于新建和改、扩建的综合效益评价。在全国已建成较为完善的ETC基础设施网络的背景下,如何利用ETC系统产生的海量收费数据,对其进行深度分析,从中获取ETC客户的通行特征,挖掘客户潜力,从而达到提升客户价值、实现精确营销的目的,是ETC推广应用中面临的重要问题。
发明内容
有鉴于此,本发明的目的是提供一种基于车辆通行特征的ETC客户细分方法。
为实现上述目的,本发明的技术方案是:
一种基于车辆通行特征的ETC客户细分方法,将ETC客户细分指标分别定义为最近消费间隔、年通行频次和年消费金额三类,
在定义ETC客户细分指标之后采用CLARA算法进行ETC客户聚类分析,将最好的聚类结果输出;
在ETC客户聚类分析完成后,采用CART算法建立细分规则提取算法;
在ETC客户聚类分析与细分规则提取算法建立完成后进行ETC客户细分模型的建立,得到ETC客户星级评定结果。
本发明进一步的改进在于,按ETC卡号对ETC客户的消费记录进行聚集,对年通行频次为F的ETC客户,其最近消费间隔R和年消费金额M的指标计算方法如下:
R=Tset-TF_out (1)
式(1)中,Tset表示一个指定的时间;TF_out表示车辆在统计年中第F次消费时间(ETC出口时间);
式(2)中,Si表示车辆第i次通行的消费金额。
本发明进一步的改进在于,采用CLARA算法进行ETC客户聚类分析的过程为:
(1)对于1至抽样次数,重复执行步骤(a)-(d);其中,samples为抽样次数;
(a)随机从整个ETC客户指标数据集D中随机抽取sampsize个数据作为一个样本,利用PAM算法确定该样本k个最优的中心[M1,M2…Mk]T;其中,sampsize为抽样集中样本数;
(b)将k个聚类中心应用到整个数据集D中,计算D中非中心点Oj与k个聚类中心的距离,以距离最短原则确定ETC客户所属类别;其中,k为聚类个数;
(c)计算本次聚类的平均相异度,如果该值小于当前的最小值,那么用该值替代当前的最小值,并保留k个聚类中心点作为当前最优的聚类中心;
(d)返回步骤(1),开始下一个循环;
循环结束,输出最佳的ETC客户聚类结果。
本发明进一步的改进在于,CLARA算法使用欧氏距离来计算数据集中非中心点Oj与不同聚类中心Mf(f=1,2,…,k)之间的距离d(Oj,Mf),如式(3)所示:
式(3)中,u表示ETC客户指标维度;oju和mfu表示Oj和Mf相应的维度值;
如式(4)所示:
d(Oj,M)=min{d(Oj,Mf),f∈(1,2,…k)} (4)
式(4)中,样本Oj与其所属聚类中心的实际距离d(Oj,M)表示k个距离中的最小值。
本发明进一步的改进在于,判断当前的聚类中心是否为最佳聚类中心时,计算本次聚类的平均相异度,即数据集中所有样本与所属聚类中心距离的算术平均值,如下式:
式(5)中,Daverage表示平均相异度;N表示ETC客户指标数据集中样本个数。
本发明进一步的改进在于,采用CART算法建立细分规则提取算法的过程为:
(1)创建一个节点N;
(2)在ETC客户指标数据集D中对某细分指标取一个可能的值a,将D划分为子集为D1和D2,根据不同细分指标划分出不同的子集;
(3)分别计算子集划分后数据集D中三类细分指标的基尼指数,选择基尼指数最小的指标作为最优划分指标,其对应的子集为最优划分子集,重复执行步骤(1)-(3),直到子集中所含的样本数过少或者节点不纯度无法降低到给定阈值以下,生成叶子节点;
(4)根据每一个子集中样本的客户类别数的众数来判别这一子集的所属类别,生成ETC客户细分决策树;
(5)选择ETC客户细分决策树中不同大小的子树,根据各个子树的交叉验证误差和复杂度对决策树进行剪枝;
输出最优的ETC客户细分规则决策树。
本发明进一步的改进在于,在生成决策树过程中,使用基尼指数来选择划分指标,其计算方法如下:
式(6)中,pi表示D中样本点属于i类的概率;k表示D中样本中类别数;
在子集划分后,数据集D的基尼指数为:
式(7)中,D1、D2表示划分的子集;Gini(D)越小表示数据集D的不纯度越低。
本发明进一步的改进在于,ETC客户细分模型的建立的过程如下:
步骤1:数据预处理与指标提取
对ETC原始收费数据进行清洗并从中提取ETC客户指标;设置指标阈值,得到ETC客户指标数据集;
步骤2:ETC客户聚类
对ETC客户指标数据集进行聚类分析,得到ETC客户聚类结果;
步骤3:ETC客户细分规则提取
应用CART算法对ETC客户指标数据与聚类结果进行学习,得到ETC客户细分规则决策树,根据细分规则,得到ETC客户星级评定结果。
与现有技术相比,本发明的有益效果如下:
(1)本发明通过应用大数据分析与挖掘技术,构建出基于ETC车辆通行特征的客户细分指标体系,利用收费数据提取ETC客户细分指标并通过应用聚类分析对ETC客户进行划分,建立ETC客户细分决策树并提取出细分规则,从而最终实现ETC客户细分与星级评定。
(2)本发明通过结合CLARA算法完成了ETC客户全样本数据聚类分析,克服了PAM算法对于大数据聚类的失效问题。
(3)本发明实现了ETC客户细分,设计了ETC客户星级评定方法,可为高速公路运营管理单位探索ETC客户精准营销和分级费率优惠方面提供创新思路。
(4)本发明分析了ETC客户通行特征和服务策略,可挖掘客户增长潜力,进一步提高了ETC客户规模和支付比例,增强客户对ETC系统的依赖性与好感度,提升ETC管理决策水平。
附图说明
图1为本发明方法的ETC客户细分建模流程图。
图2为本发明方法的ETC客户细分指标的客户最近消费间隔密度图。
图3为本发明方法的ETC客户细分指标的客户年通行频次密度图。
图4为本发明方法的ETC客户细分指标的客户年消费金额密度图。
图5为本发明方法的“年通行频次-年消费金额”抽样数据散点图。
图6为本发明方法的ETC客户细分决策树示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
首先定义ETC客户细分指标:客户细分是以客户消费需求为出发点,根据客户购买行为的差异性,把客户总体划分为类似性消费群体的过程。而不同的细分客户群间存在明显的差异性,本发明依据客户行为,选取基于近度(Recency,R)、频度(Frequency,F)和值度(Monetary,M)的RFM客户细分模型。其中,R表示客户最近一次购买的时间有多远,F表示客户在最近一段时间内购买的次数,M表示客户在最近一段时间内购买的金额。高速公路ETC收费数据记录了车辆通行的各类信息,包括ETC卡号、出入收费站的时间、车型、车种以及消费情况等,具体数据格式见表1:
表1 ETC收费数据格式
如表1所示,每条ETC数据代表了ETC客户的一次出行消费记录,本发明通过数据聚集可对ETC客户年度消费情况进行汇总分析。
结合RFM模型,将ETC客户细分指标分别定义为最近消费间隔、年通行频次和年消费金额等三类,具体见表2:
表2 ETC客户细分指标表
如表2所示,按ETC卡号对ETC客户的消费记录进行聚集,对年通行频次为F的ETC客户,其最近消费间隔R和年消费金额M的指标计算方法如下:
R=Tset-TF_out (1)
式(1)中,Tset表示一个指定的时间;TF_out表示车辆在统计年中第F次消费时间(ETC出口时间);
式(2)中,Si表示车辆第i次通行的消费金额。
通过上述的ETC客户细分指标体系得到RFM指标的三维状态空间。
在定义ETC客户细分指标之后进行ETC客户聚类分析:将距离相近的样本划归成一类,其原则是使得类间距离尽可能大,而类内样本间距离尽可能小,从而得到多类别ETC客户的划分方法。本发明应用一种改进的围绕中心点划分(Partitioning Around Medoid,PAM)聚类算法-CLARA(Clustering LARge Applications)算法,解决了PAM算法在处理数据量较大问题时计算瓶颈,CLARA算法不考虑整个数据集,而是每次选择数据集中一部分数据作为样本,对样本使用PAM算法,经过反复抽样,比较多组样本最优中心点,最后以最好的聚类结果输出。
本发明利用CLARA算法进行ETC客户聚类分析过程为:
输入:ETC客户指标数据集D;聚类个数k;抽样次数samples;抽样集中样本数sampsize。
输出:ETC客户聚类结果;
(1)for i=1to samples,重复执行(a)-(d)
(a)随机从整个ETC客户指标数据集D中随机抽取sampsize个数据作为一个样本,利用PAM算法确定该样本k个最优的中心[M1,M2…Mk]T
(b)将k个聚类中心应用到整个数据集D中,计算D中非中心点Oj与k个聚类中心的距离,以距离最短原则确定ETC客户所属类别;
(c)计算本次聚类的平均相异度,如果该值小于当前的最小值,那么用该值替代当前的最小值,并保留k个聚类中心点作为当前最优的聚类中心;
(d)返回步骤(1),开始下一个循环;
迭代结束,输出最佳的ETC客户聚类结果。
CLARA算法使用欧氏距离(Euclidean distance)来计算数据集中非中心点Oj与不同聚类中心Mf(f=1,2,…,k)之间的距离d(Oj,Mf),如式(3)所示。
式(3)中,u表示E T C客户指标维度;oju和mfu表示Oj和Mf相应的维度值。
如式(4)所示:
d(Oj,M)=min{d(Oj,Mf),f∈(1,2,…k)} (4)
式(4)中,样本Oj与其所属聚类中心的实际距离d(Oj,M)表示k个距离中的最小值。
而判断当前的聚类中心是否为最佳聚类中心,需计算本次聚类的平均相异度(average dissimilarity),即数据集中所有样本与所属聚类中心距离的算术平均值,如下式:
式(5)中,Daverage表示平均相异度;N表示ETC客户指标数据集中样本个数。
在ETC客户聚类分析完成后,每个ETC客户被赋予一个特定的分类标签。决策树分析则以聚类产生的分类标签为规则,通过机器学习算法,寻找数据与分类规则之间的对应关系。沿决策树根节点到树中每个叶子节点的路径,决策树可以转换成IF-THEN分类规则。
本发明采用运算效率较高的CART算法对ETC客户细分规则进行提取学习的过程为:
输入:ETC客户指标数据集D与各样本的对应的客户类别;叶子节点最小样本数minbucket。
输出:ETC客户细分规则决策树。
(1)创建一个节点N;
(2)在ETC客户指标数据集D中对某细分指标取一个可能的值a,将D划分为子集为D1和D2,根据不同细分指标划分出不同的子集;
(3)分别计算子集划分后数据集D中三类细分指标的基尼指数,选择基尼指数最小的指标作为最优划分指标,其对应的子集为最优划分子集,重复执行步骤(1)-(3),直到子集中所含的样本数小于minbucket或者“节点不纯度”无法降低到给定阈值以下,生成叶子节点;
(4)根据每一个子集中样本的客户类别数的众数来判别这一子集的所属类别,生成ETC客户细分决策树;
(5)选择ETC客户细分决策树中不同大小的子树(即分支数),根据各个子树的交叉验证误差和复杂度对决策树进行剪枝;
输出最优的ETC客户细分规则决策树。
需要注意的是,在生成决策树过程中,本发明使用基尼指数来选择划分指标,其计算方法如下:
式(6)中,pi表示D中样本点属于i类的概率;k表示D中样本中类别数。
在子集划分后,数据集D的基尼指数为:
式(7)中,D1、D2表示划分的子集;Gini(D)越小表示数据集D的不纯度越低。
在ETC客户聚类分析与细分规则提取算法建立完成后进行ETC客户细分模型的建立。
如图1所示,为ETC客户细分建模流程,主要包含以下三个步骤:
步骤1:数据预处理与指标提取
对ETC原始收费数据进行清洗并从中提取ETC客户指标;设置指标阈值,筛选数据子集,得到ETC客户指标数据集。
步骤2:ETC客户聚类
对ETC客户指标数据集进行聚类分析,得到ETC客户聚类结果。
步骤3:ETC客户细分规则提取
应用CART算法对ETC客户指标数据与聚类结果进行学习,得到ETC客户细分规则决策树,根据细分规则最终得到ETC客户星级评定结果。
下面通过一个实施例对本发明进行说明。
本发明以2014年陕西省高速公路小型客车(7座及以下)ETC收费数据为基础数据依托,对高速公路ETC客户细分方法的具体实施方式做进一步说明。
(1)首先进行数据预处理与指标提取:
对数据量共3100余万条进行清洗,删除与主题不相关的车辆数据(如免费车辆)和异常通行数据(如入口时间大于出口时间),依据ETC客户细分指标提取方法,得到324585组ETC客户细分指标数据,其中指定时间Tset=“2015-1-2 00:00:00”。ETC客户细分指标数据具体见表3:
表3 ETC客户细分指标提取结果表
需要注意的是,为保护ETC客户隐私,ETC卡号后六位以*号代替。
如图2、图3和图4所示,表示为ETC客户细分指标的概率密度分布,R≤2160,即距指定时间90天(2160h)内有消费记录的ETC客户约占85%;F<6,即年通行低于6次的ETC客户约占13.3%;M<200,即年消费金额小于200元的ETC客户约占18.6%,而年消费金额大于12000元的ETC客户约占0.77%。
如图5所示,表示为“年通行频次-年消费金额”散点图,鉴于数据量较大,对ETC客户指标数据集进行2%随机抽样,图5中斜线斜率为5,表示平均单次消费金额为5元。由于该省高速公路收费按“5元取整”,故正常通行车辆平均单次消费金额均大于或等于5元(斜率大于或等于5),由图5可知,车辆免费造成的异常数据已被清洗。
(2)其次进行ETC客户聚类分析:
预置聚类个数k=3,抽样次数samples=10,每次抽样个数sampsize=5000,根据CLARA算法对ETC客户指标数据集进行多次迭代,得到三组ETC客户聚类中心,如下式:
式(8)中,每一行对应各聚类中心的R、F和M值。
第一行R较大,F和M较小,对应消费间隔较长,且年通行频次和消费金额较低的ETC客户聚类中心;
第三行M和F较大,而R较小,对应年消费金额和通行频次较高的ETC客户聚类中心;
第二行对应介于前两者之间的ETC客户聚类中心。考虑到预处理阶段过滤掉部分ETC客户,将上述三类ETC客户分别用C2、C3和C4表示,(F<6)∪(M<200)和(M>12000)的ETC客户分别用C1和C5表示。
(3)最终输出ETC客户细分结果:
如图6所示,表示为利用CART算法构建出的“细分指标-客户类别(C2、C3和C4)”决策树。预置叶子节点最小样本数为minbucket=1000,ETC客户细分决策树共包含6个叶子节点,每个节点第一行表示该节点数据子集(ETC客户)最终所属客户类别,第二行表示该节点数据子集分属C2、C3和C4类别的概率,第三行表示该节点ETC客户所占百分比。通过图6提取客户类别C2、C3和C4的细分规则,同时纳入C1和C5过滤规则,最终形成ETC客户IF-THEN细分规则,具体见表4:
表4 ETC客户细分规则表
进一步地,通过表4对全部ETC客户进行细分,C1~C5分别对应一、二、三、四、五星级客户,汇总各星级客户数和总消费金额,具体见表5:
表5 ETC客户细分结果
由表5所示,一星级客户占比20.57%,实际路费贡献率仅为1.33%;二星级客户占比8.15%,实际路费贡献率为4.71%,未来需重点培育此类客户群;三、四星级客户占比分别为49.42%和21.09%,合计路费贡献率超85%,是ETC系统的主要客户,未来可考虑分别给予额外的费率优惠;五星级客户占比仅为0.77%,但却贡献率了7.6%的路费收入,此类客户是ETC系统的重点客户,未来可考虑给予较大的费率优惠,同时需重点跟踪此类客户对ETC系统的使用感受,提高ETC系统服务质量。
以上内容是结合具体实施例对本发明方法所作的进一步详细说明,不能认定本发明方法的具体实施只限于此。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下做出若干等同替代或明显变型,且性能或用途相同,都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims (8)

1.一种基于车辆通行特征的ETC客户细分方法,其特征在于,
将ETC客户细分指标分别定义为最近消费间隔、年通行频次和年消费金额三类,
在定义ETC客户细分指标之后采用CLARA算法进行ETC客户聚类分析,将最好的聚类结果输出;
在ETC客户聚类分析完成后,采用CART算法建立细分规则提取算法;
在ETC客户聚类分析与细分规则提取算法建立完成后进行ETC客户细分模型的建立,得到ETC客户星级评定结果。
2.根据权利要求1所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,按ETC卡号对ETC客户的消费记录进行聚集,对年通行频次为F的ETC客户,其最近消费间隔R和年消费金额M的指标计算方法如下:
R=Tset-TF_out (1)
式(1)中,Tset表示一个指定的时间;TF_out表示车辆在统计年中第F次消费时间(ETC出口时间);
式(2)中,Si表示车辆第i次通行的消费金额。
3.根据权利要求1所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,采用CLARA算法进行ETC客户聚类分析的过程为:
(1)对于1至抽样次数,重复执行步骤(a)-(d);其中,samples为抽样次数;
(a)随机从整个ETC客户指标数据集D中随机抽取sampsize个数据作为一个样本,利用PAM算法确定该样本k个最优的中心[M1,M2…Mk]T;其中,sampsize为抽样集中样本数;
(b)将k个聚类中心应用到整个数据集D中,计算D中非中心点Oj与k个聚类中心的距离,以距离最短原则确定ETC客户所属类别;其中,k为聚类个数;
(c)计算本次聚类的平均相异度,如果该值小于当前的最小值,那么用该值替代当前的最小值,并保留k个聚类中心点作为当前最优的聚类中心;
(d)返回步骤(1),开始下一个循环;
循环结束,输出最佳的ETC客户聚类结果。
4.根据权利要求3所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,
CLARA算法使用欧氏距离来计算数据集中非中心点Oj与不同聚类中心Mf(f=1,2,…,k)之间的距离d(Oj,Mf),如式(3)所示:
式(3)中,u表示ETC客户指标维度;oju和mfu表示Oj和Mf相应的维度值;
如式(4)所示:
d(Oj,M)=min{d(Oj,Mf),f∈(1,2,…k)} (4)
式(4)中,样本Oj与其所属聚类中心的实际距离d(Oj,M)表示k个距离中的最小值。
5.根据权利要求3所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,判断当前的聚类中心是否为最佳聚类中心时,计算本次聚类的平均相异度,即数据集中所有样本与所属聚类中心距离的算术平均值,如下式:
式(5)中,Daverage表示平均相异度;N表示ETC客户指标数据集中样本个数。
6.根据权利要求1所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,采用CART算法建立细分规则提取算法的过程为:
(1)创建一个节点N;
(2)在ETC客户指标数据集D中对某细分指标取一个可能的值a,将D划分为子集为D1和D2,根据不同细分指标划分出不同的子集;
(3)分别计算子集划分后数据集D中三类细分指标的基尼指数,选择基尼指数最小的指标作为最优划分指标,其对应的子集为最优划分子集,重复执行步骤(1)-(3),直到子集中所含的样本数过少或者节点不纯度无法降低到给定阈值以下,生成叶子节点;
(4)根据每一个子集中样本的客户类别数的众数来判别这一子集的所属类别,生成ETC客户细分决策树;
(5)选择ETC客户细分决策树中不同大小的子树,根据各个子树的交叉验证误差和复杂度对决策树进行剪枝;
输出最优的ETC客户细分规则决策树。
7.根据权利要求6所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,在生成决策树过程中,使用基尼指数来选择划分指标,其计算方法如下:
式(6)中,pi表示D中样本点属于i类的概率;k表示D中样本中类别数;
在子集划分后,数据集D的基尼指数为:
式(7)中,D1、D2表示划分的子集;Gini(D)越小表示数据集D的不纯度越低。
8.根据权利要求1所述的一种基于车辆通行特征的ETC客户细分方法,其特征在于,ETC客户细分模型的建立的过程如下:
步骤1:数据预处理与指标提取
对ETC原始收费数据进行清洗并从中提取ETC客户指标;设置指标阈值,得到ETC客户指标数据集;
步骤2:ETC客户聚类
对ETC客户指标数据集进行聚类分析,得到ETC客户聚类结果;
步骤3:ETC客户细分规则提取
应用CART算法对ETC客户指标数据与聚类结果进行学习,得到ETC客户细分规则决策树,根据细分规则,得到ETC客户星级评定结果。
CN201810092069.XA 2018-01-30 2018-01-30 一种基于车辆通行特征的etc客户细分方法 Pending CN108256923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810092069.XA CN108256923A (zh) 2018-01-30 2018-01-30 一种基于车辆通行特征的etc客户细分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810092069.XA CN108256923A (zh) 2018-01-30 2018-01-30 一种基于车辆通行特征的etc客户细分方法

Publications (1)

Publication Number Publication Date
CN108256923A true CN108256923A (zh) 2018-07-06

Family

ID=62743646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810092069.XA Pending CN108256923A (zh) 2018-01-30 2018-01-30 一种基于车辆通行特征的etc客户细分方法

Country Status (1)

Country Link
CN (1) CN108256923A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739984A (zh) * 2018-12-25 2019-05-10 贵州商学院 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN109919418A (zh) * 2019-01-18 2019-06-21 上海九霄祥云网络科技股份有限公司 基于小样本非均匀扩散算法的客户数据筛选方法
CN111125510A (zh) * 2019-11-11 2020-05-08 广东联合电子服务股份有限公司 一种精准营销obu用户车辆数据的获取方法及存储介质
CN111291236A (zh) * 2018-12-07 2020-06-16 交通运输部路网监测与应急处置中心 一种高速路网用户画像信息获取与分析方法及系统
CN113962334A (zh) * 2021-12-02 2022-01-21 北京沃东天骏信息技术有限公司 用户分类的划分方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325067A (zh) * 2013-05-29 2013-09-25 广东电网公司佛山供电局 基于用电客户细分的服务推送方法和系统
CN103942606A (zh) * 2014-03-13 2014-07-23 国家电网公司 基于果蝇智能优化算法的居民用电客户细分方法
WO2014201333A1 (en) * 2013-06-14 2014-12-18 Tigerapps Systems, apparatuses and methods for providing a price point to a consumer for products in an electronic shopping cart of the consumer
CN105163181A (zh) * 2015-08-05 2015-12-16 中国科学院声学研究所 一种在线视频节目分类方法及其装置
CN105608600A (zh) * 2015-12-18 2016-05-25 焦点科技股份有限公司 一种对b2b卖家效果评估和优化方法
CN106934493A (zh) * 2017-02-28 2017-07-07 北京科技大学 一种电力客户价值评估模型的构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325067A (zh) * 2013-05-29 2013-09-25 广东电网公司佛山供电局 基于用电客户细分的服务推送方法和系统
WO2014201333A1 (en) * 2013-06-14 2014-12-18 Tigerapps Systems, apparatuses and methods for providing a price point to a consumer for products in an electronic shopping cart of the consumer
CN103942606A (zh) * 2014-03-13 2014-07-23 国家电网公司 基于果蝇智能优化算法的居民用电客户细分方法
CN105163181A (zh) * 2015-08-05 2015-12-16 中国科学院声学研究所 一种在线视频节目分类方法及其装置
CN105608600A (zh) * 2015-12-18 2016-05-25 焦点科技股份有限公司 一种对b2b卖家效果评估和优化方法
CN106934493A (zh) * 2017-02-28 2017-07-07 北京科技大学 一种电力客户价值评估模型的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
凡凡_KEVIN: "Clara算法的总结", 《HTTPS://BLOG.CSDN.NET/U013834836/ARTICLE/DETAILS/41214709》 *
陈希: "基于R语言数据挖掘的社交网络客户细分研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑(月刊)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291236A (zh) * 2018-12-07 2020-06-16 交通运输部路网监测与应急处置中心 一种高速路网用户画像信息获取与分析方法及系统
CN109739984A (zh) * 2018-12-25 2019-05-10 贵州商学院 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN109919418A (zh) * 2019-01-18 2019-06-21 上海九霄祥云网络科技股份有限公司 基于小样本非均匀扩散算法的客户数据筛选方法
CN109919418B (zh) * 2019-01-18 2023-12-08 上海九霄祥云网络科技股份有限公司 基于小样本非均匀扩散算法的客户数据筛选方法
CN111125510A (zh) * 2019-11-11 2020-05-08 广东联合电子服务股份有限公司 一种精准营销obu用户车辆数据的获取方法及存储介质
CN111125510B (zh) * 2019-11-11 2023-12-22 广东联合电子服务股份有限公司 一种精准营销obu用户车辆数据的获取方法及存储介质
CN113962334A (zh) * 2021-12-02 2022-01-21 北京沃东天骏信息技术有限公司 用户分类的划分方法及相关设备

Similar Documents

Publication Publication Date Title
CN108256923A (zh) 一种基于车辆通行特征的etc客户细分方法
CN111160401B (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
CN112037009A (zh) 一种基于随机森林算法的消费信贷场景的风险评估方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN110555989B (zh) 一种基于Xgboost算法的交通量预测方法
Meng et al. A two-stage short-term traffic flow prediction method based on AVL and AKNN techniques
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
Momeni et al. Clustering stock market companies via k-means algorithm
CN102542288A (zh) 一种高光谱数据多特征空间构建与融合分类方法
CN113344130B (zh) 差异化巡河策略的生成方法及装置
Chen et al. Discrimination and prediction of traffic congestion states of urban road network based on spatio-temporal correlation
CN105185106A (zh) 一种基于粒计算的道路交通流参数预测方法
CN114548298A (zh) 模型训练、交通信息处理方法、装置、设备和存储介质
CN112330441A (zh) 一种中小企业商业价值信用贷款评价方法
CN111932302A (zh) 一种区域中业务站点数量的确定方法、装置、设备及系统
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
Zhang et al. Application of decision trees to the determination of the year-end level of a carryover storage reservoir based on the iterative dichotomizer 3
CN117436688A (zh) 一种基于电力营销数据的电费回收风险预警方法及系统
Li et al. TSDCN: Traffic safety state deep clustering network for real‐time traffic crash‐prediction
CN116798223A (zh) 基于宏观基本图/fcm聚类的子区划分及状态识别方法
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN
Wang Traffic accident data classification algorithm based on decision tree.
CN115965466A (zh) 一种基于子图对比的以太坊账户身份推理方法及系统
CN114519388A (zh) 一种基于高速etc收费数据的用户细分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication