CN117373247A - 一种新型etc卡休眠预测诊断方法、系统及可存储介质 - Google Patents
一种新型etc卡休眠预测诊断方法、系统及可存储介质 Download PDFInfo
- Publication number
- CN117373247A CN117373247A CN202311383994.5A CN202311383994A CN117373247A CN 117373247 A CN117373247 A CN 117373247A CN 202311383994 A CN202311383994 A CN 202311383994A CN 117373247 A CN117373247 A CN 117373247A
- Authority
- CN
- China
- Prior art keywords
- etc card
- dormancy
- module
- model
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005059 dormancy Effects 0.000 title claims abstract description 72
- 238000003745 diagnosis Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 36
- 230000007958 sleep Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 238000009960 carding Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000005192 partition Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000002405 diagnostic procedure Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0108—Measuring and analyzing of parameters relative to traffic conditions based on the source of data
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种新型ETC卡休眠预测诊断方法、系统及可存储介质,通过基于histogram算法和level‑wise分裂策略的LightGBM模型训练出ETC卡休眠预测诊断模型,能够实现智能化预测和诊断ETC卡进入休眠状态的效果,还能够大大提高预测诊断时间和准确性,同时,通过梳理影响ETC卡休眠的指标因子,依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息,基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标,对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集,能够进一步提高训练出来的ETC卡休眠预测诊断模型的预测诊断准确率。
Description
技术领域
本发明涉及ETC卡休眠预测诊断技术领域,尤其涉及一种新型ETC卡休眠预测诊断方法、系统及可存储介质。
背景技术
自2019年7月1日起,全国范围内的收费公路开始全面实行ETC电子收费,各省ETC发行机构开始着力推进ETC发行事宜,ETC保有量有着显著提升。然而,通过历史数据观察发现,2022年新增休眠卡的数量赶超2022年ETC发行数量,因此,为了降低ETC卡的休眠率,亟需通过对历史数据进行分析和挖掘,发现ETC卡休眠的规律和特征,从而对未来某个时间段内ETC卡进入休眠状态进行预测和诊断,识别出哪些卡具有较大的休眠概率以及这些卡休眠的原因,从而方便ETC发行方对这些卡对应的客户提前进行有目的、有区别的引导服务,提升ETC使用率,现有技术一般是依赖技术人员根据历史经验进行人为预测,没有形成系统化的预测方案,预测时间相对较长,预测准确性也有待提升。
发明内容
有鉴于此,本发明提出一种新型ETC卡休眠预测诊断方法、系统及可存储介质,可以有效解决现有技术存在的预测时间长和准确性不高的缺陷。
本发明的技术方案是这样实现的:
一种新型ETC卡休眠预测诊断方法,具体包括:
梳理影响ETC卡休眠的指标因子;
依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息;
基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集;
依据留出法将数据集进行划分,得到训练集和测试集;
将训练集输入至基于histogram算法和level-wise分裂策略的LightGBM模型中进行训练,得到初始ETC卡休眠预测诊断模型;
依据测试集对所述初始ETC卡休眠预测诊断模型进行测试评估,得到最终的ETC卡休眠预测诊断模型;
依据最终的ETC卡休眠预测诊断模型对待识别的ETC卡进行识别,从而实现ETC卡休眠的预测诊断。
作为所述新型ETC卡休眠预测诊断方法的进一步可选方案,所述对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理之前,还包括数据探索,具体包括:
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据质量分析;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据类型分析;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据分布分析。
作为所述新型ETC卡休眠预测诊断方法的进一步可选方案,所述预处理包括异常值处理和数据格式转换处理,所述异常值处理用于剔除异常值,所述数据格式转换处理用于将数据转换成与LightGBM模型匹配的输入格式的数据。
作为所述新型ETC卡休眠预测诊断方法的进一步可选方案,所述训练过程中,LightGBM模型会进行迭代优化参数,具体包括:
设置LightGBM模型的max_depth明确限制树的深度;
设置LightGBM模型的min_data_in_leaf明确限制最小叶子记录数;
设置LightGBM模型的feature_fraction明确限制每一次迭代所使用的特征子集;
设置LightGBM模型的bagging_fraction明确限制每次迭代时用的数据比例;
设置LightGBM模型的early_stopping_round控制迭代早停止;
设置LightGBM模型的min_gain_to_split明确限制执行切分的最小增益;
设置LightGBM模型的max_cat_group在group边界上的分割点;
设置LightGBM模型的num_leaves明确限制每棵树的叶子节点数;
设置LightGBM模型的max_bin明确限制最大直方图数目;
设置LightGBM模型的n_estimators控制森林中树木的数量。
作为所述新型ETC卡休眠预测诊断方法的进一步可选方案,所述对所述初始ETC卡休眠预测诊断模型进行测试评估,具体包括:
对初始ETC卡休眠预测诊断模型的查准率、查全率、调和平均值和AUC值进行评估。
一种新型ETC卡休眠预测诊断系统,包括:
梳理模块,用于梳理影响ETC卡休眠的指标因子;
采集模块,用于依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息;
构建模块,用于基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标;
预处理模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集;
划分模块,用于依据留出法将数据集进行划分,得到训练集和测试集;
训练模块,用于将训练集输入至基于histogram算法和level-wise分裂策略的LightGBM模型中进行训练,得到初始ETC卡休眠预测诊断模型;
测试评估模块,用于依据测试集对所述初始ETC卡休眠预测诊断模型进行测试评估,得到最终的ETC卡休眠预测诊断模型;
识别模块,用于依据最终的ETC卡休眠预测诊断模型对待识别的ETC卡进行识别,从而实现ETC卡休眠的预测诊断。
作为所述新型ETC卡休眠预测诊断系统的进一步可选方案,所述系统还包括数据探索模块,所述数据探索模块包括:
数据质量分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据质量分析;
数据类型分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据类型分析;
数据分布分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据分布分析。
作为所述新型ETC卡休眠预测诊断系统的进一步可选方案,所述预处理模块包括异常值处理模块和数据格式转换处理模块,所述异常值处理模块用于剔除异常值,所述数据格式转换处理模块用于将数据转换成与LightGBM模型匹配的输入格式的数据。
作为所述新型ETC卡休眠预测诊断系统的进一步可选方案,所述系统还包括LightGBM模型参数优化模块,包括:
第一设置模块,用于设置LightGBM模型的max_depth明确限制树的深度;
第二设置模块,用于设置LightGBM模型的min_data_in_leaf明确限制最小叶子记录数;
第三设置模块,用于设置LightGBM模型的feature_fraction明确限制每一次迭代所使用的特征子集;
第四设置模块,用于设置LightGBM模型的bagging_fraction明确限制每次迭代时用的数据比例;
第五设置模块,用于设置LightGBM模型的early_stopping_round控制迭代早停止;
第六设置模块,用于设置LightGBM模型的min_gain_to_split明确限制执行切分的最小增益;
第七设置模块,用于设置LightGBM模型的max_cat_group在group边界上的分割点;
第八设置模块,用于设置LightGBM模型的num_leaves明确限制每棵树的叶子节点数;
第九设置模块,用于设置LightGBM模型的max_bin明确限制最大直方图数目;
第十设置模块,用于设置LightGBM模型的n_estimators控制森林中树木的数量。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种新型ETC卡休眠预测诊断方法的步骤。
本发明的有益效果是:通过基于histogram算法和level-wise分裂策略的LightGBM模型训练出ETC卡休眠预测诊断模型,能够实现智能化预测和诊断ETC卡进入休眠状态的效果,还能够大大提高预测诊断时间和准确性,同时,通过梳理影响ETC卡休眠的指标因子,依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息,基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标,对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集,能够进一步提高训练出来的ETC卡休眠预测诊断模型的预测诊断准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种新型ETC卡休眠预测诊断方法的流程示意图;
图2为本发明一种新型ETC卡休眠预测诊断系统的组成示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参考图1-2,一种新型ETC卡休眠预测诊断方法,具体包括:
梳理影响ETC卡休眠的指标因子;
依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息;
基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集;
依据留出法将数据集进行划分,得到训练集和测试集;
将训练集输入至基于histogram算法和level-wise分裂策略的LightGBM模型中进行训练,得到初始ETC卡休眠预测诊断模型;
依据测试集对所述初始ETC卡休眠预测诊断模型进行测试评估,得到最终的ETC卡休眠预测诊断模型;
依据最终的ETC卡休眠预测诊断模型对待识别的ETC卡进行识别,从而实现ETC卡休眠的预测诊断。
在本实施例中,通过基于histogram算法和level-wise分裂策略的LightGBM模型训练出ETC卡休眠预测诊断模型,能够实现智能化预测和诊断ETC卡进入休眠状态的效果,还能够大大提高预测诊断时间和准确性,同时,通过梳理影响ETC卡休眠的指标因子,依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息,基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标,对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集,能够进一步提高训练出来的ETC卡休眠预测诊断模型的预测诊断准确率。
需要说明的是,所述ETC卡休眠的指标因子包括ETC卡发行信息、ETC卡通行消费信息、ETC卡使用状态等相关信息,所述ETC卡发行信息包括卡发行时间、卡对应标签使用时长、卡绑定车辆对应注册时长、卡对应车牌所属地市、卡余额、卡对应签约银行、客户年龄、标签厂家等数据;所述ETC卡通行消费信息包括ETC通行次数、ETC通行时长、非ETC通行时长、非ETC通行次数、节假日通行次数等数据;所述ETC卡使用状态包括卡状态、卡黑名单状态等数据。基于业务理解和业务目标,通过将基础信息对应的时间信息和时间段信息关联构建衍生指标,最终指标因子共计79项,包括:车辆注册时长;当前标签使用时长;发行时长;储值卡账户余额;所有标签的平均使用时长;车辆发证时长;近六个月节假日高速通行时长;车牌所属地市;上一年同期的之后六个月内ETC高速通行时长总和;上一年同期的之后六个月内ETC高速通行次数总和;近三个月ETC高速通行次数趋势;近三个月ETC高速通行次数总和;近一年ETC高速通行次数总和;签约银行;近半年ETC高速通行次数总和;近一年ETC高速通行次数趋势;近半年ETC高速通行次数趋势;上一年同期的之后六个月内ETC高速通行平均时长;近三个月是否进入过下黑名单;近半年ETC高速通行时长趋势;近三个月ETC高速通行时长总和;近一年ETC高速通行月平均时长趋势;近三个月ETC高速通行时长趋势;近半年ETC高速通行月平均时长趋势;近六个月节假日高速通行次数;近一年ETC高速通行月平均时长;近三个月ETC高速通行月平均时长趋势;近一年ETC高速通行时长趋势;近三个月ETC高速通行月平均时长;近半年ETC高速通行时长总和;标签厂家;近一年ETC高速通行时长总和;近三个月非ETC高速通行次数趋势;近半年ETC高速通行月平均时长;发行渠道;近三个月非ETC高速通行时长总和;近三个月是否办理业务;近三个月非ETC高速通行次数总和;近三个月非ETC高速通行平均时长;客户名下正常状态的粤通卡数量;年龄分组;近三个月非ETC高速通行时长趋势;近三个月非ETC高速通行月平均时长趋势;近一年非ETC通行使用粤通卡总消费金额;近一年是否办理业务;近半年是否进入过下黑名单;近半年是否办理业务;近一年是否进入过下黑名单;近一年非ETC高速通行时长总和;车型;近半年非ETC高速通行时长趋势;近半年非ETC高速通行次数趋势;近一年非ETC高速通行次数趋势;近半年非ETC高速通行时长总和;近一年非ETC高速通行次数总和;近一年非ETC高速通行时长趋势;近半年非ETC通行使用粤通卡总消费金额;性别;客户类型;近三个月非ETC通行使用粤通卡总消费金额;近半年非ETC高速通行次数总和;是否蓝牙电子标签;近一年非ETC通行使用粤通卡总次数;近半年非ETC高速通行平均时长;一类户/二类户;近半年非ETC通行使用粤通卡总次数;近三个月非ETC通行使用粤通卡总次数;卡类型;近半年非ETC高速通行月平均时长趋势;后装/选装;近一年非ETC高速通行平均时长;分对分/总对总;近一年非ETC高速通行月平均时长趋势;近三个月是否投诉;近半年是否投诉;近一年是否投诉;当月是否有节假日;近三个月是否有节假日;近六个月是否有节假日和未来六个月是否有节假日。
此外,依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息,采取T+1模式抽取数据,即每天凌晨抽取截止前一天的全量数据保存到客服中台,通过客服中台ETL工具完成一次配置,后续通过自动调度任务每日定时执行抽数任务,无需人工干预,大大节约了人力成本。
另外,基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标,所述衍生指标共计30项,包括近三个月ETC高速通行时长月平均值;近三个月ETC高速通行次数月平均值;近三个月ETC高速通行时长月标准差;近三个月ETC高速通行次数月标准差;近三个月ETC高速通行月平均时长月标准差;近半年ETC高速通行时长月平均值;近半年ETC高速通行次数月平均值;近半年ETC高速通行时长月标准差;近半年ETC高速通行次数月标准差;近半年ETC高速通行月平均时长月标准差;近一年ETC高速通行时长月平均值;近一年ETC高速通行次数月平均值;近一年ETC高速通行时长月标准差;近一年ETC高速通行次数月标准差;近一年ETC高速通行月平均时长月标准差;近三个月非ETC高速通行时长月平均值;近三个月非ETC高速通行次数月平均值;近三个月非ETC高速通行时长月标准差;近三个月非ETC高速通行次数月标准差;近三个月非ETC高速通行平均时长月标准差;近半年非ETC高速通行时长月平均值;近半年非ETC高速通行次数月平均值;近半年非ETC高速通行时长月标准差;近半年非ETC高速通行次数月标准差;近半年非ETC高速通行平均时长月标准差;近一年非ETC高速通行时长月平均值;近一年非ETC高速通行次数月平均值;近一年非ETC高速通行时长月标准差;近一年非ETC高速通行次数月标准差;近一年非ETC高速通行平均时长月标准差。通过平均值和标准差的引入,使得预测结果更准确。
优选的,所述对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理之前,还包括数据探索,具体包括:
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据质量分析;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据类型分析;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据分布分析。
在本实施例中,数据质量分析即是对步骤S3中各指标中缺失值的数量及占比进行分析,结合指标的业务含义判断当前数据质量是否合格,能否进行模型训练,若不合格则从源数据及数据采集加工代码中查找原因;数据类型分析即是基于指标的业务含义及数据内容分析各指标属于离散型数据或连续型数据,离散型数据和连续型数据后续进行数据分布分析的方法不同;数据分布分析即是对于连续型指标,分析其最小值、最大值、平均值、四分位数、变异系数,对于离散型指标,分析其各类别内容及数量占比,结合业务分析各指标的准确性、合理性、数据分布是否异常、能否支持模型训练,若存在问题则从源数据开始查找原因。作为本发明的进一步改进,通过数据质量分析、数据类型分析和数据分布分析,将使模型开发人员更全面地了解到数据全貌以及检测出异常数据。
优选的,所述预处理包括异常值处理和数据格式转换处理,所述异常值处理用于剔除异常值,所述数据格式转换处理用于将数据转换成与LightGBM模型匹配的输入格式的数据。
在本实施例中,所述异常值处理包括,对数据进行统计性分析后,根据数据的分布并结合数据本身的业务逻辑进行数据预处理。因缺失数据占全部数据量比例较小,本步骤中选择剔除异常值,将异常值作缺失值处理;进一步地,所述数据格式转换,因为选择LightGBM进行模型训练,而LightGBM的输入只接受数值型数据,因此需先将数据转换成数字格式。通过数据预处理,使得模型分析的数据来源更准确,从而提升预测结果的准确率。
优选的,所述训练过程中,LightGBM模型会进行迭代优化参数,具体包括:
设置LightGBM模型的max_depth明确限制树的深度;
设置LightGBM模型的min_data_in_leaf明确限制最小叶子记录数;
设置LightGBM模型的feature_fraction明确限制每一次迭代所使用的特征子集;
设置LightGBM模型的bagging_fraction明确限制每次迭代时用的数据比例;
设置LightGBM模型的early_stopping_round控制迭代早停止;
设置LightGBM模型的min_gain_to_split明确限制执行切分的最小增益;
设置LightGBM模型的max_cat_group在group边界上的分割点;
设置LightGBM模型的num_leaves明确限制每棵树的叶子节点数;
设置LightGBM模型的max_bin明确限制最大直方图数目;
设置LightGBM模型的n_estimators控制森林中树木的数量。
在本实施例中,通过设置max_depth明确限制树的深度,解决因为leaf-wise分裂策略生长出比较深的决策树而产生过拟合的问题;通过max_depth的限制,在保证高效率的同时防止过拟合,在本实施例中,max_depth=10;通过设置min_data_in_leaf明确限制最小叶子记录数,min_data_in_leaf参数设置的特别小可能会导致过拟合,在本实施方式中将其设置为200;通过设置feature_fraction明确限制每一次迭代所使用的特征子集,即在每次迭代中随机选择多少样本来建树,在本实施例中,feature_fraction设置为0.9;通过设置bagging_fraction明确限制每次迭代时用的数据比例,用来执行更快的结果装袋来加快训练速度和减小过拟合,在本实施例中,bagging_fraction设置为0.9;通过设置early_stopping_round控制迭代早停止,在某一验证数据的某一验证指标当前最后一轮迭代没有提升时停止迭代,可以加速分析,减少过多迭代,在本实施例中,early_stopping_round设置为300;通过设置min_gain_to_split明确限制执行切分的最小增益,可以控制树的有用的分裂,在本实施例中,min_gain_to_split设置成0.1;通过max_cat_group在group边界上找到分割点,当类别数量很多时,找分割点很容易过拟合;通过num_leaves设置明确限制每棵树的叶子节点数,是控制树模型复杂性的重要参数,num_leaves值越大,树的深度更,准确率也随之提升,但值过大容易过拟合,在本实施例中,num_leaves设置成1023;通过设置max_bin明确限制最大直方图数目,表示feature将存入的bin的最大数,理论上max_bin值越小越能够节省时间,在本实施例中,max_bin设置成256;通过设置n_estimators控制森林中树木的数量,即基评估器的数量,这个参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的效果往往越好,但是相应的,任何模型都有决策边,n_estimators达到一定的程度之后,随机森林的精确性往往不再上升或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越长,在本实施例中,n_estimator设置成1000。
优选的,所述对所述初始ETC卡休眠预测诊断模型进行测试评估,具体包括:
对初始ETC卡休眠预测诊断模型的查准率、查全率、调和平均值和AUC值进行评估。
在本实施例中,评估模型的预测能力和稳定性主要是通过查准率、查全率、查准率和查全率的调和平均值、AUC值对模型进行评价,确定模型的能力,查准率Precision=TP/(TP+FP)=TP/预测为positive的样本,查准率表示在预测为positive的样本中真实类别为positive的样本所占比例,也可以理解为真实为正的样本中占预测为正的样本的比例;查全率Recall=TP/(TP+FN)=TP/真实为positive的样本,查全率Recall表示在真实为positive的样本中模型成功预测出的样本所占比例,也可以理解为真实为正样本中有多少是预测正确的,查全率Recall只和真实为positive的样本相关,与真实为negative的样本无关;而查准率Precision则受到两类样本的影响,查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低,因此,往往需要在两者之间取一个平衡,AUC全称为Area UnderCurve,AUC是ROC曲线与横坐标轴,x(假正例率)=1三者围成的面积。AUC为判断分类器优劣的标准,越接近1,模型效果越好,ROC曲线的AUC值可以用来对模型进行评价,在本实施例中,训练集中AUC约为0.73。
一种新型ETC卡休眠预测诊断系统,包括:
梳理模块,用于梳理影响ETC卡休眠的指标因子;
采集模块,用于依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息;
构建模块,用于基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标;
预处理模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集;
划分模块,用于依据留出法将数据集进行划分,得到训练集和测试集;
训练模块,用于将训练集输入至基于histogram算法和level-wise分裂策略的LightGBM模型中进行训练,得到初始ETC卡休眠预测诊断模型;
测试评估模块,用于依据测试集对所述初始ETC卡休眠预测诊断模型进行测试评估,得到最终的ETC卡休眠预测诊断模型;
识别模块,用于依据最终的ETC卡休眠预测诊断模型对待识别的ETC卡进行识别,从而实现ETC卡休眠的预测诊断。
优选的,所述系统还包括数据探索模块,所述数据探索模块包括:
数据质量分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据质量分析;
数据类型分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据类型分析;
数据分布分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据分布分析。
优选的,所述预处理模块包括异常值处理模块和数据格式转换处理模块,所述异常值处理模块用于剔除异常值,所述数据格式转换处理模块用于将数据转换成与LightGBM模型匹配的输入格式的数据。
优选的,所述系统还包括LightGBM模型参数优化模块,包括:
第一设置模块,用于设置LightGBM模型的max_depth明确限制树的深度;
第二设置模块,用于设置LightGBM模型的min_data_in_leaf明确限制最小叶子记录数;
第三设置模块,用于设置LightGBM模型的feature_fraction明确限制每一次迭代所使用的特征子集;
第四设置模块,用于设置LightGBM模型的bagging_fraction明确限制每次迭代时用的数据比例;
第五设置模块,用于设置LightGBM模型的early_stopping_round控制迭代早停止;
第六设置模块,用于设置LightGBM模型的min_gain_to_split明确限制执行切分的最小增益;
第七设置模块,用于设置LightGBM模型的max_cat_group在group边界上的分割点;
第八设置模块,用于设置LightGBM模型的num_leaves明确限制每棵树的叶子节点数;
第九设置模块,用于设置LightGBM模型的max_bin明确限制最大直方图数目;
第十设置模块,用于设置LightGBM模型的n_estimators控制森林中树木的数量。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种新型ETC卡休眠预测诊断方法的步骤。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种新型ETC卡休眠预测诊断方法,其特征在于,具体包括:
梳理影响ETC卡休眠的指标因子;
依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息;
基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集;
依据留出法将数据集进行划分,得到训练集和测试集;
将训练集输入至基于histogram算法和level-wise分裂策略的LightGBM模型中进行训练,得到初始ETC卡休眠预测诊断模型;
依据测试集对所述初始ETC卡休眠预测诊断模型进行测试评估,得到最终的ETC卡休眠预测诊断模型;
依据最终的ETC卡休眠预测诊断模型对待识别的ETC卡进行识别,从而实现ETC卡休眠的预测诊断。
2.根据权利要求1所述的一种新型ETC卡休眠预测诊断方法,其特征在于,所述对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理之前,还包括数据探索,具体包括:
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据质量分析;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据类型分析;
对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据分布分析。
3.根据权利要求2所述的一种新型ETC卡休眠预测诊断方法,其特征在于,所述预处理包括异常值处理和数据格式转换处理,所述异常值处理用于剔除异常值,所述数据格式转换处理用于将数据转换成与LightGBM模型匹配的输入格式的数据。
4.根据权利要求3所述的一种新型ETC卡休眠预测诊断方法,其特征在于,所述训练过程中,LightGBM模型会进行迭代优化参数,具体包括:
设置LightGBM模型的max_depth明确限制树的深度;
设置LightGBM模型的min_data_in_leaf明确限制最小叶子记录数;
设置LightGBM模型的feature_fraction明确限制每一次迭代所使用的特征子集;
设置LightGBM模型的bagging_fraction明确限制每次迭代时用的数据比例;
设置LightGBM模型的early_stopping_round控制迭代早停止;
设置LightGBM模型的min_gain_to_split明确限制执行切分的最小增益;
设置LightGBM模型的max_cat_group在group边界上的分割点;
设置LightGBM模型的num_leaves明确限制每棵树的叶子节点数;
设置LightGBM模型的max_bin明确限制最大直方图数目;
设置LightGBM模型的n_estimators控制森林中树木的数量。
5.根据权利要求4所述的一种新型ETC卡休眠预测诊断方法,其特征在于,所述对所述初始ETC卡休眠预测诊断模型进行测试评估,具体包括:
对初始ETC卡休眠预测诊断模型的查准率、查全率、调和平均值和AUC值进行评估。
6.一种新型ETC卡休眠预测诊断系统,其特征在于,包括:
梳理模块,用于梳理影响ETC卡休眠的指标因子;
采集模块,用于依据影响ETC卡休眠的指标因子采集对应的ETC卡发行、通行消费和技术属性的历史数据信息;
构建模块,用于基于ETC卡发行、通行消费和技术属性的历史数据信息构建衍生指标;
预处理模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行预处理,形成数据集;
划分模块,用于依据留出法将数据集进行划分,得到训练集和测试集;
训练模块,用于将训练集输入至基于histogram算法和level-wise分裂策略的LightGBM模型中进行训练,得到初始ETC卡休眠预测诊断模型;
测试评估模块,用于依据测试集对所述初始ETC卡休眠预测诊断模型进行测试评估,得到最终的ETC卡休眠预测诊断模型;
识别模块,用于依据最终的ETC卡休眠预测诊断模型对待识别的ETC卡进行识别,从而实现ETC卡休眠的预测诊断。
7.根据权利要求6所述的一种新型ETC卡休眠预测诊断系统,其特征在于,所述系统还包括数据探索模块,所述数据探索模块包括:
数据质量分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据质量分析;
数据类型分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据类型分析;
数据分布分析模块,用于对ETC卡发行、通行消费和技术属性的历史数据信息,以及衍生指标进行数据分布分析。
8.根据权利要求7所述的一种新型ETC卡休眠预测诊断系统,其特征在于,所述预处理模块包括异常值处理模块和数据格式转换处理模块,所述异常值处理模块用于剔除异常值,所述数据格式转换处理模块用于将数据转换成与LightGBM模型匹配的输入格式的数据。
9.根据权利要求8所述的一种新型ETC卡休眠预测诊断系统,其特征在于,所述系统还包括LightGBM模型参数优化模块,包括:
第一设置模块,用于设置LightGBM模型的max_depth明确限制树的深度;
第二设置模块,用于设置LightGBM模型的min_data_in_leaf明确限制最小叶子记录数;
第三设置模块,用于设置LightGBM模型的feature_fraction明确限制每一次迭代所使用的特征子集;
第四设置模块,用于设置LightGBM模型的bagging_fraction明确限制每次迭代时用的数据比例;
第五设置模块,用于设置LightGBM模型的early_stopping_round控制迭代早停止;
第六设置模块,用于设置LightGBM模型的min_gain_to_spl it明确限制执行切分的最小增益;
第七设置模块,用于设置LightGBM模型的max_cat_group在group边界上的分割点;
第八设置模块,用于设置LightGBM模型的num_leaves明确限制每棵树的叶子节点数;
第九设置模块,用于设置LightGBM模型的max_bin明确限制最大直方图数目;
第十设置模块,用于设置LightGBM模型的n_estimators控制森林中树木的数量。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5中任意一种新型ETC卡休眠预测诊断方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311383994.5A CN117373247B (zh) | 2023-10-24 | 2023-10-24 | 一种新型etc卡休眠预测诊断方法、系统及可存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311383994.5A CN117373247B (zh) | 2023-10-24 | 2023-10-24 | 一种新型etc卡休眠预测诊断方法、系统及可存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373247A true CN117373247A (zh) | 2024-01-09 |
CN117373247B CN117373247B (zh) | 2024-08-20 |
Family
ID=89392511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311383994.5A Active CN117373247B (zh) | 2023-10-24 | 2023-10-24 | 一种新型etc卡休眠预测诊断方法、系统及可存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373247B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014282A (zh) * | 2024-02-06 | 2024-05-10 | 广东联合电子服务股份有限公司 | 一种基于高速客服话务量预测的话务员排班方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010199863A (ja) * | 2009-02-24 | 2010-09-09 | Denso Corp | 車載通信装置 |
CN106228307A (zh) * | 2016-07-26 | 2016-12-14 | 北京工业大学 | 高速公路etc系统环境效益测算方法 |
CN108874748A (zh) * | 2018-06-01 | 2018-11-23 | 交通运输部路网监测与应急处置中心 | 一种etc运营指标预测方法 |
CN110008595A (zh) * | 2019-04-08 | 2019-07-12 | 交通运输部路网监测与应急处置中心 | Etc节能减排效益测算方法和装置 |
CN110222873A (zh) * | 2019-05-14 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的地铁站客流量预测方法 |
CN110866528A (zh) * | 2019-10-28 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、能耗使用效率预测方法、装置和介质 |
CN111899358A (zh) * | 2020-07-03 | 2020-11-06 | 西安艾润物联网技术服务有限责任公司 | 基于etc的车辆标识识别方法及装置 |
CN113792762A (zh) * | 2021-08-24 | 2021-12-14 | 华南理工大学 | 基于贝叶斯优化LightGBM的冷水机组故障诊断方法、系统及介质 |
CN114722487A (zh) * | 2022-03-16 | 2022-07-08 | 北京理工大学重庆创新中心 | 一种基于大数据的新能源汽车车型参数预测估计方法 |
CN115206092A (zh) * | 2022-06-10 | 2022-10-18 | 南京工程学院 | 一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法 |
CN115497299A (zh) * | 2022-11-14 | 2022-12-20 | 中科聚信信息技术(北京)有限公司 | 基于etc的服务区车流量预测方法、系统和服务区 |
-
2023
- 2023-10-24 CN CN202311383994.5A patent/CN117373247B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010199863A (ja) * | 2009-02-24 | 2010-09-09 | Denso Corp | 車載通信装置 |
CN106228307A (zh) * | 2016-07-26 | 2016-12-14 | 北京工业大学 | 高速公路etc系统环境效益测算方法 |
CN108874748A (zh) * | 2018-06-01 | 2018-11-23 | 交通运输部路网监测与应急处置中心 | 一种etc运营指标预测方法 |
CN110008595A (zh) * | 2019-04-08 | 2019-07-12 | 交通运输部路网监测与应急处置中心 | Etc节能减排效益测算方法和装置 |
CN110222873A (zh) * | 2019-05-14 | 2019-09-10 | 重庆邮电大学 | 一种基于大数据的地铁站客流量预测方法 |
CN110866528A (zh) * | 2019-10-28 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、能耗使用效率预测方法、装置和介质 |
CN111899358A (zh) * | 2020-07-03 | 2020-11-06 | 西安艾润物联网技术服务有限责任公司 | 基于etc的车辆标识识别方法及装置 |
CN113792762A (zh) * | 2021-08-24 | 2021-12-14 | 华南理工大学 | 基于贝叶斯优化LightGBM的冷水机组故障诊断方法、系统及介质 |
CN114722487A (zh) * | 2022-03-16 | 2022-07-08 | 北京理工大学重庆创新中心 | 一种基于大数据的新能源汽车车型参数预测估计方法 |
CN115206092A (zh) * | 2022-06-10 | 2022-10-18 | 南京工程学院 | 一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法 |
CN115497299A (zh) * | 2022-11-14 | 2022-12-20 | 中科聚信信息技术(北京)有限公司 | 基于etc的服务区车流量预测方法、系统和服务区 |
Non-Patent Citations (2)
Title |
---|
王方春;: "LightGBM算法在早期催收管理工作中的应用", 电脑知识与技术, no. 07, 5 March 2020 (2020-03-05) * |
王继龙;: "我国高速公路应用ETC的节能减排效果分析", 节能与环保, no. 10, 15 October 2020 (2020-10-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014282A (zh) * | 2024-02-06 | 2024-05-10 | 广东联合电子服务股份有限公司 | 一种基于高速客服话务量预测的话务员排班方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117373247B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537544B (zh) | 一种交易系统实时监控方法及其监控系统 | |
CN117373247B (zh) | 一种新型etc卡休眠预测诊断方法、系统及可存储介质 | |
CN113742387A (zh) | 数据处理方法、设备及计算机可读存储介质 | |
CN112836720B (zh) | 建筑运维设备异常诊断方法、系统及计算机可读存储介质 | |
CN112150237B (zh) | 多模型融合的订单逾期预警方法、装置、设备及存储介质 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN110348601A (zh) | 一种基于双向长短期记忆网络的地铁短期客流量预测方法 | |
CN102298663A (zh) | 中医自动识别证型的检测方法 | |
CN112598443A (zh) | 一种基于深度学习的线上渠道业务数据处理方法及系统 | |
CN111369348A (zh) | 贷后风险监控方法、装置、设备及计算机可读存储介质 | |
CN116362607B (zh) | 一种物资储备效能评估方法及装置 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN117374917A (zh) | 一种超短期电力负荷的多元回归预测方法及装置 | |
CN116910655A (zh) | 一种基于装置量测数据的智能电能表故障预测方法 | |
CN114066173A (zh) | 资金流动行为分析方法及存储介质 | |
CN113191569A (zh) | 一种基于大数据的企业管理方法及系统 | |
CN113516547B (zh) | 一种语音播报式分级信用卡客户风险预警系统 | |
CN113709747B (zh) | 一种骚扰号码识别方法、装置、计算机设备和存储介质 | |
CN118503894B (zh) | 基于工序指标数据分析的锂电池质量检测系统 | |
CN115619292B (zh) | 一种问题管理的方法及装置 | |
CN116502768B (zh) | 民航信息岗负荷预警方法、系统及存储介质 | |
CN114013285B (zh) | 一种电动汽车实际续驶里程评估方法 | |
CN116843368B (zh) | 基于arma模型的营销数据处理方法 | |
CN112557285B (zh) | 一种流式细胞检测数据自动设门方法和装置 | |
CN117893313A (zh) | 一种基于时间-事件数据的信用卡逾期后债务风险评估方法、系统及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |