CN115115414A - 一种基于机器学习的二手车估价方法 - Google Patents

一种基于机器学习的二手车估价方法 Download PDF

Info

Publication number
CN115115414A
CN115115414A CN202210854672.3A CN202210854672A CN115115414A CN 115115414 A CN115115414 A CN 115115414A CN 202210854672 A CN202210854672 A CN 202210854672A CN 115115414 A CN115115414 A CN 115115414A
Authority
CN
China
Prior art keywords
data
value
model
price
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210854672.3A
Other languages
English (en)
Inventor
戴敏
沈雨田
陈建
王礼星
缪宏
张思瑞
葛永成
张燕军
张善文
刘思幸
杨坚
李芳芳
曾英
卞雯静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202210854672.3A priority Critical patent/CN115115414A/zh
Publication of CN115115414A publication Critical patent/CN115115414A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W90/00Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及二手车估价技术领域,尤其涉及一种基于机器学习的二手车估价方法,包括以下步骤:获取大量二手车交易数据作为原始训练数据,进行数据预处理;计算原始数据对应的保值率,建立线性回归预测模型,并且计算保值率阈值
Figure DDA0003749709650000011
进而划分高低保值率数据;分别建立XGBoost预测模型;当需要预测任意二手车价格时,本发明使用线性回归算法对于该数据进行初步分类,分类为高保值率或低保之旅数据;再导入对应的XGBoost预测模型,进行价格的预测。相比于使用其他的机器学习算法,本发明将保值率概念,线性回归算法,XGBoost算法三者相结合对于价格预测问题可有效减小预测误差。

Description

一种基于机器学习的二手车估价方法
技术领域
本发明涉及二手车估价技术领域,尤其涉及一种基于机器学习的二手车估价方法。
背景技术
二手车作为一种特殊的“电商商品”,因为其“一车一况”的特性比一般电商商品的交易要复杂得多,究其原因是二手车价格难于准确估计和设定,不但受到二手车本身基础配置,如品牌、排量、国别等的影响,还受到使用情况如使用年限、机身受损和维修情况等的影响,甚至新车价格的变化也会对二手车价格带来影响。目前国家并没有出台一个评判二手车资产价值的标准。一些二手车交易平台和第三方估价平台都从自身的角度建立了一系列估价方法用于评估二手车资产的价值。传统的二手车估价主要依靠门店的估价师进行估价,最终确定的价格受到估价师的主观影响大,且没有一个较为客观统一的标准。
目前用于二手车估价的算法较为简单,且许多关键参数仍然需要人为设置,无法有效避免主观性强的问题。近年来,随着机器学习算法的进步发展,帮助我们对大量数据进行分析预测,本发明所提出的一种基于机器学习的二手车估价方法只需提供对应数据集,即可较为精确输出二手车预测价格,且误差在允许范围内,为购车者选购二手车时提供价格参考的依据,填补了国内此方面的空白。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于机器学习的二手车估价方法,用于解决:二手车预估价格受到估价师的主观影响大,且目前二手车市场评估没有一个较为客观统一的标准,为购车者选购二手车时提供价格参考的依据。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明提供了一种基于机器学习的二手车估价方法,包括:原始数据模块,数据处理模块,计算保值率模块,训练线性回归模型,计算保值率阈值k模块,划分数据集模块,训练高/低保值率XGBoost模型,输入数据模块,训练好的线性回归模型,依据阈值k初步划分模块,训练好的高/低XGBoost预测模型,输出结果模块组成。
一种基于机器学习的二手车估价方法,包括以下步骤:
S1.数据处理
获取一批二手车的特征参数以及成交价格,记为原始数据集;将原始数据集中的二手车的价格特征参数进行数据预处理,缺失值采用平均值代替,当某数据大于平均数据10倍以上时判断其为异常数据,并且对其剔除。
S2.线性模型训练以及阈值计算
计算原始数据集中的二手车对应保值率,保值率=成交价/新车价;
利用计算完保值率的原始数据,进行线性回归模型的训练,步骤如下:
步骤(1):根据二手车特征变量作为自变量,保值率作为因变量,建立线性回归方程。设Up表示第p个自变量,ti为第i个二手车的保值率,则可建立ti=β01U12U2+…+βpUp+ε,其中p≥2,ε为误差且ε~(0,σ2),βi为系数;
步骤(2):设(Ui1,Ui2,…Uip,ti)是(U1,U2,…Up,t)的独立观测值,其中i=1,2,…n,则多元线性模型ti=β01Ui12Ui2…+βpUipi
步骤(3):求最小二乘函数,Q(β)=(t-Uβ)T(t-Uβ)当β最小时,线性经验回归为
Figure BDA0003749709630000031
步骤(4):将二手车原始数据导入线性经验回归公式中,拟合出系数βi,即可求解出保值率线性预测模型;
将计算保值率阈值k,
Figure BDA0003749709630000032
其中数据总量表示为n,xi表示各条数据对应保值率,公式中的u为常量,默认选取0.4;
依据数据对应保值率是否大于阈值k,将数据划分为高保值率数据以及低保值率数据。
S3.XGBoost预测模型训练
分别进行高/低保值率预测模型训练,步骤如下(以高保值率数据为例):
步骤(1):基于MATLAB构建XGBoost预测模型,对于包含n条m维的二手车数据集,预测二手车价格模型可表示为:
Figure BDA0003749709630000033
Figure BDA0003749709630000034
其中,yi表示二手车价格,xi表示输入的第i个样本数据;fk(xi)表示第K棵决策树;fk为树几何空间F的一个函数;
步骤(2):构建该模型的核心任务是找到最优的Obj并建立预测方程,目标函数可分为误差函数项L和模型复杂函数项Ω,所以Obj=L+Ω,
Figure BDA0003749709630000035
其中,γ和λ表示加权因子,T为叶子节点个数wj表示叶子节点权重。在使用训练数据时对模型进行优化训练时,需要保留原有模型不变,加入一个新的函数f到模型中,使目标函数尽可能的减少;
步骤(3):此时目标函数表示为:
Figure BDA0003749709630000041
Figure BDA0003749709630000042
Obj是可作为评价模型的打分函数,Obj值越小则模型效果越好。通过递归调用上述树的建立方法,可得到大量回归树结构,并使用Obj搜索最优的树结构,从而最优的XGBoost模型建立完毕;
步骤(4):将训练数据数据导入建立好的XGBoost模型中,得到训练好的预测模型。
S4.二手车价格预测
将待确定价格的二手车的特征数据进行筛选,只保留新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数;
将待确定价格的二手车的特征数据导入线性回归模型进行初步分类,得到该二手车属于高保值率或低保值率数据;
根据数据类型导入高/低保值率XGBoost预测模型,进行价格预测。
作为进一步的实现方式,所述线性回归模型以车辆的新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数,保值率作为输出参数。
作为进一步的实现方式,所述XGBoost预测模型以车辆的新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数,预测价格作为输出参数。
有益效果
(1)本发明提出的一种基于机器学习的二手车估价方法,使用线性回归算法而不是人为划分价格档位,能够较为客观地考虑二手车的保值率分布,最终训练的回归模型更有针对性;
(2)相比于使用其他的机器学习算法,本发明通过保值率划分,能够使预测价格的方差数据得到降低,而经过分析对比,XGBoost在机器学习算法中对于二手车价格预测准确性具有显著的优越性,将保值率概念,线性回归算法,XGBoost算法三者相结合对于价格预测问题可有效减小预测误差。
附图说明
图1为本发明一种基于机器学习的二手车估价方法的操作流程示意图;
图2为本发明一种基于机器学习的二手车估价方法的模型训练示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于机器学习的二手车估价方法,包括以下步骤:
S1.数据处理
获取一批二手车的特征参数以及成交价格,记为原始数据集;将原始数据集中的二手车的价格特征参数进行数据预处理,缺失值采用平均值代替,当某数据大于平均数据10倍以上时判断其为异常数据,并且对其剔除。
S2.线性模型训练以及阈值计算
计算原始数据集中的二手车对应保值率,保值率=成交价/新车价;
利用计算完保值率的原始数据,进行线性回归模型的训练,步骤如下:
步骤(1):根据二手车特征变量作为自变量,保值率作为因变量,建立线性回归方程。设Up表示第p个自变量,ti为第i个二手车的保值率,则可建立ti=β01U12U2+…+βpUp+ε,其中p≥2,ε为误差且ε~(0,σ2),βi为系数;
步骤(2):设(Ui1,Ui2,…Uip,ti)是(U1,U2,…Up,t)的独立观测值,其中i=1,2,…n,则多元线性模型ti=β01Ui12Ui2…+βpUipi
步骤(3):求最小二乘函数,Q(β)=(t-Uβ)T(t-Uβ)当β最小时,线性经验回归为
Figure BDA0003749709630000061
步骤(4):将二手车原始数据导入线性经验回归公式中,拟合出系数βi,即可求解出保值率线性预测模型;
将计算保值率阈值k,
Figure BDA0003749709630000062
其中数据总量表示为n,xi表示各条数据对应保值率,公式中的u为常量,默认选取0.4;
依据数据对应保值率是否大于阈值k,将数据划分为高保值率数据以及低保值率数据。
S3.XGBoost预测模型训练
分别进行高/低保值率预测模型训练,步骤如下(以高保值率数据为例):
步骤(1):基于MATLAB构建XGBoost预测模型,对于包含n条m维的二手车数据集,预测二手车价格模型可表示为:
Figure BDA0003749709630000063
Figure BDA0003749709630000064
其中,yi表示二手车价格,xi表示输入的第i个样本数据;fk(xi)表示第K棵决策树;fk为树几何空间F的一个函数;
步骤(2):构建该模型的核心任务是找到最优的Obj并建立预测方程,目标函数可分为误差函数项L和模型复杂函数项Ω,所以Obj=L+Ω,
Figure BDA0003749709630000071
其中,γ和λ表示加权因子,T为叶子节点个数wj表示叶子节点权重。在使用训练数据时对模型进行优化训练时,需要保留原有模型不变,加入一个新的函数f到模型中,使目标函数尽可能的减少;
步骤(3):此时目标函数表示为:
Figure BDA0003749709630000072
Figure BDA0003749709630000073
Obj是可作为评价模型的打分函数,Obj值越小则模型效果越好。通过递归调用上述树的建立方法,可得到大量回归树结构,并使用Obj搜索最优的树结构,从而最优的XGBoost模型建立完毕;
步骤(4):将训练数据数据导入建立好的XGBoost模型中,得到训练好的预测模型。
S4.二手车价格预测
将待确定价格的二手车的特征数据进行筛选,只保留新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数;
将待确定价格的二手车的特征数据导入线性回归模型进行初步分类,得到该二手车属于高保值率或低保值率数据;
根据数据类型导入高/低保值率XGBoost预测模型,进行价格预测。
为了比较模型预测的准确性,引入Mape(Mean Absolute Percentage Error),该指标基于百分比的误差(相对误差),所以不依赖与量纲,能够有效对比预测结果与真实结果之间的偏离程度。Accuracy 5对于预测误差在5%之内的数据进行计算,由此得出较为严苛的综合评价指数Q。预测模型的评价标准为:Q=0.2×(1-Mape)+0.8×Accuracy 5,Ape(相对误差):
Figure BDA0003749709630000081
Mape(平均相对误差):
Figure BDA0003749709630000082
真实值yi=(y1,y2,.......ym),模型的预测值为
Figure BDA0003749709630000083
Accuracy 5(5%误差准确率):
Figure BDA0003749709630000084
其中,count(Ape≤0.05)为相对误差,Ape在5%以内的样本数量,count(total)为样本总数量,对比如下:
表1本系统和传统系统的各方面对比表
比较内容 本系统 传统系统
平均相对误差 0.128 >0.17
5%准确率 0.482 <0.43
综合评价指数Q 0.541 <0.48
由上述可知,我方发明预测效果在平均相对误差、5%准确率以及综合评价指数Q均展现出极大的有效。
以上所述的实施例仅为本发明的优选实施方式,并非对本发明进行范围界定,在不脱离本发明设计精神的前提下,本领域普通技术人员对发明的技术方案作出的各种改进和变型,均应属于本发明的权利要求书所确定的保护范围。

Claims (3)

1.一种基于机器学习的二手车估价方法,包括以下步骤:
S1.数据处理
获取一批二手车的特征参数以及成交价格,记为原始数据集;将原始数据集中的二手车的价格特征参数进行数据预处理,缺失值采用平均值代替,当某数据大于平均数据10倍以上时判断其为异常数据,并且对其剔除;
S2.线性模型训练以及阈值计算
计算原始数据集中的二手车对应保值率,保值率=成交价/新车价;
利用计算完保值率的原始数据,进行线性回归模型的训练,步骤如下:
步骤(1):根据二手车特征变量作为自变量,保值率作为因变量,建立线性回归方程。设Up表示第p个自变量,ti为第i个二手车的保值率,则可建立ti=β01U12U2+…+βpUp+ε,其中p≥2,ε为误差且ε~(0,σ2),βi为系数;
步骤(2):设(Ui1,Ui2,…Uip,ti)是(U1,U2,...Up,t)的独立观测值,其中i=1,2,…n,则多元线性模型ti=β01Ui12Ui2…+βpUipi
步骤(3):求最小二乘函数,Q(β)=(t-Uβ)T(t-Uβ)当β最小时,线性经验回归为
Figure FDA0003749709620000011
步骤(4):将二手车原始数据导入线性经验回归公式中,拟合出系数βi,即可求解出保值率线性预测模型;
将计算保值率阈值k,
Figure FDA0003749709620000012
其中数据总量表示为n,xi表示各条数据对应保值率,公式中的u为常量,默认选取0.4;
依据数据对应保值率是否大于阈值k,将数据划分为高保值率数据以及低保值率数据;
S3.XGBoost预测模型训练
分别进行高/低保值率预测模型训练,步骤如下(以高保值率数据为例):
步骤(1):基于MATLAB构建XGBoost预测模型,对于包含n条m维的二手车数据集,预测二手车价格模型可表示为:
Figure FDA0003749709620000021
其中,yi表示二手车价格,xi表示输入的第i个样本数据;fk(xi)表示第K棵决策树;fk为树几何空间F的一个函数;
步骤(2):构建该模型的核心任务是找到最优的Obj并建立预测方程,目标函数可分为误差函数项L和模型复杂函数项Ω,所以Obj=L+Ω,
Figure FDA0003749709620000022
Figure FDA0003749709620000023
其中,γ和λ表示加权因子,T为叶子节点个数wj表示叶子节点权重。在使用训练数据时对模型进行优化训练时,需要保留原有模型不变,加入一个新的函数f到模型中,使目标函数尽可能的减少;
步骤(3):此时目标函数表示为:
Figure FDA0003749709620000024
Obj是可作为评价模型的打分函数,Obj值越小则模型效果越好。通过递归调用上述树的建立方法,可得到大量回归树结构,并使用Obj搜索最优的树结构,从而最优的XGBoost模型建立完毕;
步骤(4):将训练数据数据导入建立好的XGBoost模型中,得到训练好的预测模型。
S4.二手车价格预测
将待确定价格的二手车的特征数据进行筛选,只保留新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数;
将待确定价格的二手车的特征数据导入线性回归模型进行初步分类,得到该二手车属于高保值率或低保值率数据;
根据数据类型导入高/低保值率XGBoost预测模型,进行价格预测。
2.如权利要求1所述的一种基于机器学习的二手车估价方法,其特征在于,所述线性回归模型以车辆的新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数,保值率作为输出参数。
3.如权利要求1所述的一种基于机器学习的二手车估价方法,其特征在于,所述XGBoost预测模型以车辆的新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数,二手车价格作为输出参数。
CN202210854672.3A 2022-07-17 2022-07-17 一种基于机器学习的二手车估价方法 Withdrawn CN115115414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210854672.3A CN115115414A (zh) 2022-07-17 2022-07-17 一种基于机器学习的二手车估价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210854672.3A CN115115414A (zh) 2022-07-17 2022-07-17 一种基于机器学习的二手车估价方法

Publications (1)

Publication Number Publication Date
CN115115414A true CN115115414A (zh) 2022-09-27

Family

ID=83333949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210854672.3A Withdrawn CN115115414A (zh) 2022-07-17 2022-07-17 一种基于机器学习的二手车估价方法

Country Status (1)

Country Link
CN (1) CN115115414A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452008A (zh) * 2023-06-16 2023-07-18 山东四季车网络科技有限公司 一种基于多项式建模的二手车风险预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452008A (zh) * 2023-06-16 2023-07-18 山东四季车网络科技有限公司 一种基于多项式建模的二手车风险预测方法及系统
CN116452008B (zh) * 2023-06-16 2023-08-29 山东四季车网络科技有限公司 一种基于多项式建模的二手车风险预测方法及系统

Similar Documents

Publication Publication Date Title
KR20010109302A (ko) 자산 샘플링 방법, 시스템 및 컴퓨터
KR20010108282A (ko) 입찰가 판정 방법, 시스템 및 컴퓨터
CN114549046A (zh) 基于融合模型的销售预测方法、系统、设备及存储介质
CN114187120A (zh) 一种车险理赔欺诈风险识别方法及装置
CN111242680A (zh) 一种基于机器学习算法的二手车估值方法与系统
CN115994271A (zh) 心理测评量表的推荐方法
CN111899055A (zh) 大数据金融场景下的基于机器学习和深度学习的保险客户复购预测方法
CN113763154A (zh) 一种基于模糊灰色评价的钢贸供应链金融风险评估方法
CN113822499A (zh) 一种基于模型融合的列车备件损耗预测方法
CN115115414A (zh) 一种基于机器学习的二手车估价方法
CN115358301A (zh) 配电网电压数据清洗平台及其清洗方法
CN114298659A (zh) 评价对象指标的数据处理方法、装置、计算机设备
CN113988459A (zh) 一种基于电力营销数据的中小企业成长性评估方法及系统
CN113506173A (zh) 一种信用风险评估方法及其相关设备
CN113222261A (zh) 一种基于灰色预测和bp-arima的科创板企业估值系统
CN113344692A (zh) 多信息源融合的网络借贷信用风险评估模型的建立方法
CN112990703A (zh) 国际工程市场匹配度评价方法、电子设备及存储介质
CN112132343A (zh) 一种商品采购预测方法及系统、可读存储介质
CN116523393A (zh) 一种食品安全评价方法
CN114625781A (zh) 一种基于商品住房价值的批量评估方法
CN115239502A (zh) 一种分析师模拟方法、系统、电子设备及存储介质
CN108805603A (zh) 营销活动质量评估方法、服务器及计算机可读存储介质
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
CN114004513A (zh) 一种需求预测方法、系统及存储介质
CN110443646B (zh) 产品竞争关系网络分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220927