CN113360845A - 车源成交概率预测方法、装置、电子装置和存储介质 - Google Patents
车源成交概率预测方法、装置、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113360845A CN113360845A CN202110570416.7A CN202110570416A CN113360845A CN 113360845 A CN113360845 A CN 113360845A CN 202110570416 A CN202110570416 A CN 202110570416A CN 113360845 A CN113360845 A CN 113360845A
- Authority
- CN
- China
- Prior art keywords
- vehicle source
- vehicle
- probability
- predicted
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000002790 cross-validation Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013486 operation strategy Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Analysis (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Algebra (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种车源成交概率预测方法、装置、电子装置和存储介质。其中,该车源成交概率预测方法包括:获取预测车源的维度数据;使用车源成交预测模型处理维度数据,得到预测值,其中,车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;根据预测成交值,确定预测车源在预设时间段内的成交概率。通过本申请,解决了相关将技术中车辆成交概率的预测结果准确率低的问题,提高了车辆成交概率的预测结果准确率。
Description
技术领域
本申请涉及机器学习领域,特别是涉及车源成交概率预测方法、装置、电子装置和存储介质。
背景技术
伴随着国内经济的发展,汽车也成为家庭必备的出行工具,市场上每年二手车流通量也不断增加。对于二手车交易平台而言,车辆流通效率极大的影响平台的营收,如果能评估车辆在平台上的成交概率,不同成交概率的车辆给予相应的运营策略的方式,快速匹配到不同购车意向的车商,则能够提升车辆成交率。
在相关技术中,二手车车辆成交概率预估的方法主要分为基于规则方法或者LR(分类)模型。基于规则方法主要依赖专业人员的经验,且考虑影响车辆成交概率的因子比较粗糙且单一,导致车辆预估的成交概率结果准确率不高,而基于LR模型的方法,也需要依赖业务人员的经验进行特征工程的构建以及构建有效的特征组合,同样会导致车辆预估的成交概率结果准确率不高。
针对相关技术中存在车辆成交概率的预测结果准确率低的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种车源成交概率预测方法、装置、电子装置和存储介质,以解决相关技术中车辆成交概率的预测结果准确率低的问题。
第一个方面,在本实施例中提供了一种车源成交概率预测方法,包括:
获取预测车源的维度数据;
使用车源成交预测模型处理所述维度数据,得到预测值,其中,所述车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;
根据所述预测成交值,确定所述预测车源在所述预设时间段内的成交概率。
在其中一些实施例中,所述维度数据包括:车源特征、卖家特征、买家特征、交易平台特征。
在其中一些实施例中,在使用车源成交预测模型处理所述维度数据,得到预测值之前,所述方法还包括:
对所述维度数据进行特征工程处理,其中,所述特征工程包括:类别特征处理、特征分箱、缺失值的补充、异常值检测、特征缩放、特征筛选。
在其中一些实施例中,所述车源成交概率预测模型的训练方法包括:
获取车源的历史维度数据;
从所述历史维度数据筛选一个车源同一日的维度数据构成一个样本;
对每个所述样本标上标签,得到样本集,其中,所述标签用于表示在所述预设时间段内的车源成交概率;
利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型。
在其中一些实施例中,在利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型之前,所述方法还包括:
对所述样本集进行特征工程处理。
在其中一些实施例中,利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型包括:
采用5折交叉验证对所述样本集进行处理;
将通过所述5折交叉验证之后的所述样本集输入到LightGBM模型中,利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型。
在其中一些实施例中,根据所述预测成交值,确定所述预测车源在所述预设时间段内的成交概率包括:
基于SHAP工具对所述预测成交值进行归因分析,得到所述预测车源在所述预设时间段内的成交概率。
第二个方面,在本实施例中提供了一种车源成交概率预测装置,包括:
第一获取模块,用于获取预测车源的维度数据;
第一处理模块,用于使用车源成交预测模型处理所述维度数据,得到预测值,其中,所述车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;
确定模块,用于根据所述预测成交值,确定所述预测车源在所述预设时间段内的成交概率。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的车源成交概率预测方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的车源成交概率预测方法。
与相关技术相比,在本实施例中提供的车源成交概率预测方法、装置、电子装置和存储介质,通过获取预测车源的维度数据;使用车源成交预测模型处理维度数据,得到预测值,其中,车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;根据预测成交值,确定预测车源在预设时间段内的成交概率的方式,解决了相关将技术中车辆成交概率的预测结果准确率低的问题,提高了车辆成交概率的预测结果准确率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的车源成交概率预测方法的终端的硬件结构框图;
图2是本实施例的车源成交概率预测方法的流程图;
图3是本实施例的车源的维度数据的树状图;
图4是本实施例的SHAP工具进行归因分析的示意图;
图5是本优选实施例的车源成交概率预测方法的流程图;
图6是本实施例的车源成交概率预测装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的车源成交概率预测方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的车源成交概率预测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种车源成交概率预测方法,图2是本实施例的车源成交概率预测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取预测车源的维度数据。
在本步骤中,预测车源的维度数据可以是从存储与车源的维度数据的数据库中获取的,也可以是从与该车源对应的交易平台上获取的。
在一些实施例中,维度数据可以包括但不限于:车源特征、卖家特征、买家特征、交易平台特征。
如图3所示,车源特征包括:车辆基本信息特征,例如车辆年款、能源类型、车辆类型和级别、排放标准、变速箱类型、内饰外饰和座位数;车况相关特征,例如车况等级、过户次数、年检情况、是否异地、地域、行驶里程、车龄、是否事故车和库存车以及车辆营销标识(是否独家车源和是否高价值车);车系热度特征,例如近30天同车系关注、点击和收藏次数,30天同车系出价次数、成交量和成交率;保留价相关特征,例如该车对应新车指导价,近期保值率、保留价是否超过估值价,保留价与估值差值的比例,以及估值和零售价的差值以及比例等。
卖家特征包括;买家所在地域,30天充、退保证金次数,30天均交易量,30天出价次数和出价的车辆数、30天内成交次数和成交车辆数,30天成交率和30天历史违约率和30天退车车辆数等。
买家特征包括:卖家所在地域,30天均交易量,30天出价次数和出价的车辆数,30天内成交次数和成交车辆数,30天成交率和30天历史违约率和30天退车车辆数等。
交易平台特征包括:与卖家同地域近30天活跃人数,近30天人均浏览次数、人均出价次数,近30天同车系/车型平均出价价格、成交价,近30天出价数和成交量,近30天出价转化率,近30天出价成交转化率。
需要说明的是,上述的30天均为同一个预设时间段,且本申请实施例的方案不仅限于上述30天的数据,也可以根据用户的时间需要进行相应的调整,以满足客户的实际需求。
在本实施例中,通过上述维度数据,可以更全面的考虑到影响成交概率的因数,以便于后续根据该维度数据进行预测,以达到提高预测准确率的有益效果。
步骤S202,使用车源成交预测模型处理维度数据,得到预测值,其中,车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值。
在本步骤中,LightGBM(Light Gradient Boosting Machine)是微软开源的一个实现GBDT(Gradient Boosting Decision Tree)算法的框架,支持高效率的并行训练,它和XGBoost(eXtreme Gradient Boosting)一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。
需要说明的是,车源成交预测模型是预先被训练成具有一定的预测准确度的模型,以用于提高预测的准确度。
步骤S203,根据预测成交值,确定预测车源在预设时间段内的成交概率。
在本步骤中,基于步骤S202中的预测成交值来确定成交概率的方式,实现了对车源成交概率的预测。
基于上述步骤S201至S203,通过将LightGBM模型运用到实际的车源成交预估的场景中方式,能够提供可靠的个体及整体车源的成交前景,避免相关技术中依赖业务人员的经验来确定成交概率,而导致车辆预估的成交概率结果准确率低的问题,提高了车辆成交概率的预测结果准确率。
在其中一些实施例中,在使用车源成交预测模型处理维度数据,得到预测值之前,还可以对维度数据进行特征工程处理,其中,特征工程包括:类别特征处理、特征分箱、缺失值的补充、异常值检测、特征缩放、特征筛选。
在本实施例中,通过与维度数据进行特征工程处理的方式,以便于从大量的维度数据中提取关键信息并表示为LightGBM模型所需要的形式,以达到让模型预测更加容易的有益效果,进而达到提高车辆成交概率的预测结果准确率。
需要说明的是,类别特征处理主要采用one-hot处理方式。
特征分箱处理主要是车辆排量进行分区处理,并在分区后转为类别特征处理,并继续用ong-hot进行处理。
缺失值的填充处理主要是对于每列缺失的特征采用众数填充的方法。
异常值检测处理主要是将每列特征大于3倍标准差的样本进行删除。
特征缩放处理主要是针对价格相关的特征,由于数值范围跨度大,会影响模型的学习,通过log函数映射可将价格维度数据的分布转为符合高斯分布的特征,从而有利于LightGBM模型的学习。
特征筛选处理主要依据LightGMB模型输出的特征重要性为指标,将重要性等级低于预设等级的特征作为冗余特征进行删除并重新训练。
在其中一些实施例中,车源成交概率预测模型的训练方法包括:获取车源的历史维度数据;从历史维度数据筛选一个车源同一日的维度数据构成一个样本;对每个样本标上标签,得到样本集,其中,标签用于表示在预设时间段内的车源成交概率;利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型。
在本实施例中,可以将历史维度数据以8:2的比例划分为训练集和测试集。由于训练样本成交的样本和未成交的样本比例相差较大,存在正负样本不平衡情况,为不影响模型的训练效果,本实施例中还可以采用降采样的方式对未成交的车源数据下采样,从而缓解训练集样本不平衡对LightGBM模型训练的影响;之后再将采集到的样本标上标签,在对具有标签的样本集利用LightGBM模型进行监督学习,输入为样本及标签,该样本为维度数据,标签为在预设时间段内的车源成交概率,输出为预设时间段内的车源成交概率。例如标签为样本日后30天内的车源成交概率为已知值,则输出也为样本日后30天内的车源成交概率为预测值。根据LightGBM模型的训练规则,当输出与标签值满足预设设定的精确度的情况下,进行收敛,得到车源成交预测模型。通过上述方式,可以使得车源成交预测模型具有一定的精确度,以达到提高车辆成交概率的预测结果准确率的效果,避免了相关技术中通过人工经验来进行预测,而导致车辆成交概率的准确度低的问题。
在其中一些实施例中,在利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型之前,还可以对样本集进行特征工程处理。在本实施例中,通过与样本集进行特征工程处理的方式,以便于从样本集中提取关键信息并表示为LightGBM模型所需要的形式,以达到让模型预测更加准确的有益效果,进而达到提高车辆成交概率的预测结果准确率。
在其中一些实施例中,利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型包括:采用5折交叉验证对样本集进行处理;将通过5折交叉验证之后的样本集输入到LightGBM模型中,利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型。
在本实施例中,训练时采用5折交叉验证的方法对LightGBM模型的超参数进行调优,5折交叉验证法是指将训练集随机分为5分,每次选1份为验证集,另外4份为训练集进行训练,之后计算该模型在测试集上的均方差,最后以5组测试结果的平均值作为模型精度的估计,并作为5折交叉验证下模型的性能指标,获得最终的预测模型的方式,提高了车源成交预测模型的预测准确度。
在模型训练前,还需初始化设置LightGMB模型参数,由于是二分类任务,可以采用对数损失函数作为模型的评价函数,以梯度提升决策树gbdt作为基学习器模型算法,来提高模型的训练精确度。
在一些实施例中,还可以通过5折交叉验证法结合网格搜索的方法对LightGMB模型超参数进行调优,其中超参数包括:树模型的最大深度max_depth,学习率learning_rate,叶子节点数num_leaves,树的样本采样比例bagging_fraction,树的特征选择比feature_fraction。通过该方式,来进一步的提高车源成交预测模型的训练精度。
在其中一些实施例中,根据预测成交值,确定预测车源在预设时间段内的成交概率包括:基于SHAP工具对预测成交值进行归因分析,得到预测车源在预设时间段内的成交概率。
在本实施例中,考虑到LightGBM模型是一种非线性模型,输出的结果不具有解释性,为打破这种黑箱的模型,为每个车源预测的成交概率值进行归因分析,通过采用了SHAP工具,SHAP将Shapley值解释表示为一种可加特征归因方法,SHAP将模型的预测值解释为每个输入特征的归因值之和。SHAP不仅可以对整体样本特征重要性进行分析,如图4所示,图4中每一行代表一个特征,横坐标为SHAP值。一个点代表一个样本,颜色越红说明特征本身数值越大,颜色越蓝说明特征本身数值越小。图4可看出基本上价格相关维度的特征重要性更强。此外SHAP还可以分析单个样本对模型输出结果的贡献度。如对于单个样本某维度特征的Shapley值为正时,表示该特征对模型输出的预测值有正向作用,Shapley值为负时,表示该特征对预测值有反向作用。每次计算预测模型对二手车车源的预测结果的各个特征的Shapley值,并输出负向的top3的特征,以此作为影响该车源成交概率的主要因素,通过后台运营策略匹配出对该类因素不敏感的用户进行车源的推送,可以进一步的提升该车源的成交概率。
下面通过优选实施例对本实施例进行描述和说明。
图5是本优选实施例的车源成交概率预测方法的流程图,如图5所示,该车源成交概率预测方法包括如下步骤:
步骤S501,获取车源的历史维度数据。
步骤S502,从历史维度数据筛选一个车源同一日的维度数据构成一个样本。
步骤S503,对每个样本标上标签,得到样本集,其中,标签用于表示在预设时间段内的车源成交概率。
步骤S504,利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型。
步骤S505,使用车源成交预测模型处理预测车源的维度数据,得到预测值。
步骤S506,基于SHAP工具对预测成交值进行归因分析,得到预测车源在预设时间段内的成交概率。
通过上述步骤,本申请的实施例基于机器学习方法强大的数据统计分析能力,二手车车辆成交概率的精确性可以得到进一步的提高,能够自动且实时动态预测车源成交概率,无需人为参与,极大的减少人工干预的成本,并提升二手车车辆流通效率。并结合SHAP工具,给予车源成交预测模型的可解释性,让使用该车源成交预测模型的平台运营方更能直观的感受到影响车辆成交的主要因素。
在本实施例中还提供了一种车源成交概率预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本实施例的车源成交概率预测装置的结构框图,如图6所示,该装置包括:
第一获取模块61,用于获取预测车源的维度数据;
第一处理模块62,耦合至第一获取模块61,用于使用车源成交预测模型处理维度数据,得到预测值,其中,车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;
确定模块63,耦合至第一处理模块62,用于根据预测成交值,确定预测车源在预设时间段内的成交概率。
在其中一些实施例中,维度数据包括:车源特征、卖家特征、买家特征、交易平台特征。
在其中一些实施例中,该装置还包括:第二处理模块,用于对维度数据进行特征工程处理,其中,特征工程包括:类别特征处理、特征分箱、缺失值的补充、异常值检测、特征缩放、特征筛选。
在其中一些实施例中,该装置还包括:
第二获取模块,用于获取车源的历史维度数据;
筛选模块,用于从历史维度数据筛选一个车源同一日的维度数据构成一个样本;
标签模块,用于对每个样本标上标签,得到样本集,其中,标签用于表示在预设时间段内的车源成交概率;
训练模块,用于利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型。
在其中一些实施例中,该装置还包括:第三处理模块,用于对样本集进行特征工程处理。
在其中一些实施例中,训练模块包括:处理单元,用于采用5折交叉验证对样本集进行处理;训练单元,用于将通过5折交叉验证之后的样本集输入到LightGBM模型中,利用LightGBM模型对样本集进行监督学习,得到车源成交预测模型。
在其中一些实施例中,确定模块63包括:分析单元,用于基于SHAP工具对预测成交值进行归因分析,得到预测车源在预设时间段内的成交概率。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S201,获取预测车源的维度数据。
步骤S202,使用车源成交预测模型处理维度数据,得到预测值,其中,车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值。
步骤S203,根据预测成交值,确定预测车源在预设时间段内的成交概率。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的车源成交概率预测方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种车源成交概率预测方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种车源成交概率预测方法,其特征在于,包括:
获取预测车源的维度数据;
使用车源成交预测模型处理所述维度数据,得到预测值,其中,所述车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;
根据所述预测成交值,确定所述预测车源在所述预设时间段内的成交概率。
2.根据权利要求1所述的车源成交概率预测方法,其特征在于,所述维度数据包括:车源特征、卖家特征、买家特征、交易平台特征。
3.根据权利要求1所述的车源成交概率预测方法,其特征在于,在使用车源成交预测模型处理所述维度数据,得到预测值之前,所述方法还包括:
对所述维度数据进行特征工程处理,其中,所述特征工程包括:类别特征处理、特征分箱、缺失值的补充、异常值检测、特征缩放、特征筛选。
4.根据权利要求1所述的车源成交概率预测方法,其特征在于,所述车源成交概率预测模型的训练方法包括:
获取车源的历史维度数据;
从所述历史维度数据筛选一个车源同一日的维度数据构成一个样本;
对每个所述样本标上标签,得到样本集,其中,所述标签用于表示在所述预设时间段内的车源成交概率;
利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型。
5.根据权利要求4所述的车源成交概率预测方法,其特征在于,在利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型之前,所述方法还包括:
对所述样本集进行特征工程处理。
6.根据权利要求4所述的车源成交概率预测方法,其特征在于,利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型包括:
采用5折交叉验证对所述样本集进行处理;
将通过所述5折交叉验证之后的所述样本集输入到LightGBM模型中,利用LightGBM模型对所述样本集进行监督学习,得到所述车源成交预测模型。
7.根据权利要求1所述的车源成交概率预测方法,其特征在于,根据所述预测成交值,确定所述预测车源在所述预设时间段内的成交概率包括:
基于SHAP工具对所述预测成交值进行归因分析,得到所述预测车源在所述预设时间段内的成交概率。
8.一种车源成交概率预测装置,其特征在于,包括:
第一获取模块,用于获取预测车源的维度数据;
第一处理模块,用于使用车源成交预测模型处理所述维度数据,得到预测值,其中,所述车源成交预测模型是基于LightGBM模型训练而成,被训练为预测车源在预设时间段内的预测成交值;
确定模块,用于根据所述预测成交值,确定所述预测车源在所述预设时间段内的成交概率。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的车源成交概率预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的车源成交概率预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570416.7A CN113360845A (zh) | 2021-05-25 | 2021-05-25 | 车源成交概率预测方法、装置、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570416.7A CN113360845A (zh) | 2021-05-25 | 2021-05-25 | 车源成交概率预测方法、装置、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113360845A true CN113360845A (zh) | 2021-09-07 |
Family
ID=77527564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570416.7A Pending CN113360845A (zh) | 2021-05-25 | 2021-05-25 | 车源成交概率预测方法、装置、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360845A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115358348A (zh) * | 2022-10-19 | 2022-11-18 | 成都数之联科技股份有限公司 | 一种车辆直通率影响特征确定方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162114A (ja) * | 2014-02-27 | 2015-09-07 | 日本電信電話株式会社 | 購買意欲学習装置、購買予測装置、方法、及びプログラム |
CN107944913A (zh) * | 2017-11-21 | 2018-04-20 | 重庆邮电大学 | 基于大数据用户行为分析的高潜在用户购买意向预测方法 |
CN108256757A (zh) * | 2018-01-10 | 2018-07-06 | 链家网(北京)科技有限公司 | 一种基于xgboost的房源成交预估方法及预估平台 |
CN108564415A (zh) * | 2018-04-25 | 2018-09-21 | 济南浪潮高新科技投资发展有限公司 | 一种智能预测二手车价格的方法 |
CN111681051A (zh) * | 2020-06-08 | 2020-09-18 | 上海汽车集团股份有限公司 | 购买意向度预测方法、装置、存储介质及终端 |
-
2021
- 2021-05-25 CN CN202110570416.7A patent/CN113360845A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162114A (ja) * | 2014-02-27 | 2015-09-07 | 日本電信電話株式会社 | 購買意欲学習装置、購買予測装置、方法、及びプログラム |
CN107944913A (zh) * | 2017-11-21 | 2018-04-20 | 重庆邮电大学 | 基于大数据用户行为分析的高潜在用户购买意向预测方法 |
CN108256757A (zh) * | 2018-01-10 | 2018-07-06 | 链家网(北京)科技有限公司 | 一种基于xgboost的房源成交预估方法及预估平台 |
CN108564415A (zh) * | 2018-04-25 | 2018-09-21 | 济南浪潮高新科技投资发展有限公司 | 一种智能预测二手车价格的方法 |
CN111681051A (zh) * | 2020-06-08 | 2020-09-18 | 上海汽车集团股份有限公司 | 购买意向度预测方法、装置、存储介质及终端 |
Non-Patent Citations (1)
Title |
---|
黄源等: "大数据技术与应用", 31 May 2020, 北京:机械工业出版社, pages: 93 - 94 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115358348A (zh) * | 2022-10-19 | 2022-11-18 | 成都数之联科技股份有限公司 | 一种车辆直通率影响特征确定方法、装置、设备及介质 |
CN115358348B (zh) * | 2022-10-19 | 2023-03-24 | 成都数之联科技股份有限公司 | 一种车辆直通率影响特征确定方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106447066A (zh) | 一种大数据的特征提取方法和装置 | |
CN108764375B (zh) | 高速公路货运车辆跨省匹配方法及装置 | |
CN110490625A (zh) | 用户偏好确定方法及装置、电子设备、存储介质 | |
CN109636482B (zh) | 基于相似度模型的数据处理方法及系统 | |
CN109118316B (zh) | 线上店铺真实性的识别方法和装置 | |
CN110910180B (zh) | 信息推送方法、装置、电子设备和存储介质 | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
CN109978619A (zh) | 机票定价策略筛选的方法、系统、设备以及介质 | |
CN111179055A (zh) | 授信额度调整方法、装置和电子设备 | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及系统 | |
CN115526652A (zh) | 一种基于机器学习的客户流失预警方法及系统 | |
CN116362790A (zh) | 客户类型预测方法、装置、电子设备、介质和程序产品 | |
CN113360845A (zh) | 车源成交概率预测方法、装置、电子装置和存储介质 | |
US20230230081A1 (en) | Account identification method, apparatus, electronic device and computer readable medium | |
CN113256325A (zh) | 二手车估价方法、系统、计算设备和存储介质 | |
CN113032554A (zh) | 一种决策系统和计算机可读存储介质 | |
CN109933704A (zh) | 车辆咨询信息处理方法及装置 | |
CN115271826A (zh) | 一种物流线路的价格区间预测方法和装置 | |
CN114048978A (zh) | 一种基于机器学习模型的供需调度策略融合应用 | |
CN113139842A (zh) | 一种表单处理方法、装置和系统 | |
CN113298448B (zh) | 基于互联网的租赁指数分析方法、系统及云平台 | |
CN117114822B (zh) | 一种花材和耗材分单方法及系统 | |
CN113837764B (zh) | 风险预警方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |