CN113256325A - 二手车估价方法、系统、计算设备和存储介质 - Google Patents
二手车估价方法、系统、计算设备和存储介质 Download PDFInfo
- Publication number
- CN113256325A CN113256325A CN202110428411.0A CN202110428411A CN113256325A CN 113256325 A CN113256325 A CN 113256325A CN 202110428411 A CN202110428411 A CN 202110428411A CN 113256325 A CN113256325 A CN 113256325A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- valuation
- model
- data
- valued
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 238000013210 evaluation model Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000000546 chi-square test Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 14
- 230000008859 change Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 37
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种二手车估价方法、系统、计算设备和存储介质,其中,该二手车估价方法包括:接收估价请求,并获取待估价车辆的特征数据;将所述特征数据输入训练完备的离线估价模型,得到待估价车辆的第一估价;在第一估价与待估价车辆的当前市场价格的差异较大时,获取新增的车辆样本数据,并基于新增车辆样本数据进行在线训练,得到增量学习模型;将所述特征数据输入增量学习模型,得到待估价车辆的第二估价,并根据第一估价和第二估价按照预设策略计算得到待估价车辆的最终估价。通过本申请,解决了相关技术中存在的基于机器学习的二手车估价模型无法动态感知市场行情的变化,导致预测结果与实际偏差较大的问题。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种二手车估价方法、系统、计算设备和存储介质。
背景技术
随着互联网的发展,二手车市场越来越健全,同时随着新能源汽车的普及,二手车的交易活跃程度逐年递增,在这过程中估价起到了非常大的作用。其中消费者、主机厂、汽车经销商、车主都是其中的博弈者,那么一个合理而精准的估价,无疑对撮合交易,促进行业发展起到至关重要的作用。随着人工智能技术的发展,机器学习也被应用于二手车的估价。
基于机器学习的估价技术虽然达到了一定的精度,但是机器学习模型训练过程中参与训练的数据量大,更新周期较长。基于历史预估出的结果虽然回溯到之前的时间点是一个准确的结果,但是随着外界政策变化,库存的变动,同一辆车成交价格也会因此发生巨大的改变。比如国家的政策,市场的波动,汽车降价等因素对于基于历史数据训练的机器学习模型对当前行情的泛化误差会有较大的影响。
针对相关技术中存在的基于机器学习的二手车估价模型无法动态感知市场行情的变化,导致预测结果与实际偏差较大的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种二手车估价方法、系统、计算设备和存储介质,以解决相关技术中基于机器学习的二手车估价模型无法动态感知市场行情的变化,导致预测结果与实际偏差较大的问题。
第一个方面,在本实施例中提供了一种二手车估价方法,包括:
接收估价请求,并根据接收到的所述估价请求获取待估价车辆的特征数据;
将所述特征数据输入训练完备的离线估价模型,得到所述待估价车辆的第一估价;
在所述第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,并基于所述新增车辆样本数据进行在线训练,得到增量学习模型;
将所述特征数据输入所述增量学习模型,得到所述待估价车辆的第二估价,并根据所述第一估价和所述第二估价,按照预设策略计算得到所述待估价车辆的最终估价。
在其中的一些实施例中,在所述接收估价请求之前,还包括以下步骤:
获取历史车辆样本数据;
基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型。
在其中的一些实施例中,所述基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型的过程包括:
从所述历史车辆样本数据中用卡方检验法筛选出与车辆价格相关的特征;
用所述与车辆价格相关的特征对所述神经网络进行训练,得到所述离线估价模型。
在其中的一些实施例中,所述基于所述历史车辆样本数据对预设的神经网络进行训练的过程包括以下步骤:
用独热编码方法将类别型特征转化为稀疏向量;
和/或,将数值型特征离散化或归一化。
在其中的一些实施例中,所述基于所述历史车辆样本数据对预设的神经网络进行训练的过程包括以下步骤:
用embedding方法将离散型特征向量稠密化;
和/或,用梯度提升决策树将数值型特征向量稠密化。
在其中的一些实施例中,所述与车辆价格相关的特征包括离线特征和实时特征,所述离线特征为车辆的固有属性,所述实时特征为能够发生变化的特征。
在其中的一些实施例中,所述根据接收到的所述估价请求获取待估价车辆的特征数据包括:
根据接收到的所述估价请求,获取所述待估价车辆的实时特征数据,以及根据所述待估价车辆的车型,查询获取预先处理完备的所述待估价车辆的离线特征数据。
第二个方面,在本实施例中还提供了一种二手车估价系统,包括数据获取模块、第一估价模块、第二估价模块、估价计算模块;
所述数据获取模块,用于接收估价请求,并根据接收到的所述估价请求获取待估价车辆的特征数据;
所述第一估价模块,用于将所述特征数据输入训练完备的离线估价模型,得到所述待估价车辆的第一估价;
所述第二估价模块,用于在所述第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,并基于所述新增车辆样本数据进行在线训练,得到增量学习模型;
所述估价计算模块,用于将所述特征数据输入所述增量学习模型,得到所述待估价车辆的第二估价并根据所述第一估价和所述第二估价,按照预设策略计算得到所述待估价车辆的最终估价。
第三个方面,在本实施例中还提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项所述的二手车估价方法。
第四个方面,在本实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行上述任一项所述的二手车估价方法的步骤。
与相关技术相比,本申请提供的二手车估价方法,通过将增量学习模型和离线估价模型结合,使估价模型在市场环境发生变化时,能够快速更新,将模型输出结果拟合到当前的市场环境中,解决了相关技术中基于机器学习的二手车估价模型无法动态感知市场行情的变化,导致预测结果与实际偏差较大的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的二手车估价方法的服务器的硬件结构框图;
图2是本申请其中一个实施例提供的二手车估价方法的流程图;
图3是本申请实施例提供的二手车估价系统的示意图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在服务器、计算机或者类似的运算装置中执行。比如在服务器上运行,图1是本实施例的二手车估价方法的应用服务器的硬件结构框图。如图1所示,该服务器可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述服务器还可以包括用于通信功能的传输设备106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限制。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的二手车估价方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。存储器104里面还可以有数据库,用于存储执行计算程序所用到的数据,处理器工作的时候,从存储器中存储的数据库中获取数据,进行计算处理。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种二手车估价方法,图2是本实施例的二手车估价方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,接收估价请求,并根据接收到的估价请求获取待估价车辆的特征数据。
具体地,上述估价请求表示需要对某一二手车进行估价的请求,该估价请求可以来自服务器。接收到估价请求后,需要获取估价请求中待估价的车辆的特征数据,特征是指该车辆的各种属性,包括车型信息、车况信息、行情信息等,待估价的车辆的特征数据可以从存储这些数据的数据库中获取。优选地,创建一个存储和收集流程持续地收集这些数据,并且对数据进行分层分类。
具体地,车型信息包括车型的名称、年款、车系名称、品牌、制造商、燃油类型、官方指导价、发动机参数、上下市时间、内饰配置、座位数和驱动方式等车辆属性数据,优选地,维护一个车型库存储车型信息,该车型库能够覆盖二手车估价请求的大部分车型。
车况信息包括维修、保养、出险信息和评估师评估后的车况等级。
行情信息包括各类销售场景,例如采购场景、零售场景和拍卖场景,这里进行场景分析的原因是,在二手车市场中,同一辆车在不同渠道或不同链路中的价格也是不一致的。这些数据的具体字段包括,车型名称、参数配置、上牌时间、上牌地区、里程数、颜色、车况、营运性质、交易时间和交易价格等。还包括宏观经济指数、政策信息、新车经销商价格、车市热度和二手车成交量等。
步骤S202,将特征数据输入训练完备的离线估价模型,得到所述待估价车辆的第一估价。
具体地,上述离线估价模型是用收集到的全部历史数据训练的一个机器学习模型,训练数据规模大,因此模型更新周期比较长,一般为一周。获取的待估价车辆的特征与训练离线估价模型时用到的特征相同,将待估价的车辆的特征数据输入训练后的离线估价模型后,模型会输出一个估价,为所述第一估价。
步骤S203,在第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,并基于新增车辆样本数据进行在线训练,得到增量学习模型。
由于离线估价模型训练数据规模大,无法实时更新,当市场环境发生改变时,该模型的预测结果可能和实际的成交价格有较大出入,就会出现第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值,此时触发在线训练,快速完成基于少量新增车辆样本的增量学习模型的训练;或者,离线估价模型的预测结果与运营人员的观察有较大偏差时,也触发在线训练。
需要说明的是,增量学习模型也是一个机器学习模型,其特征是训练所需的数据集规模较小,可以快速训练完成。
需要说明的是,所述预设差值阈值可以根据需要自行设置,反应了容许模型估价与市场估价偏差的范围。
步骤S204,将特征数据输入所述增量学习模型,得到待估价车辆的第二估价,并根据第一估价和第二估价,按照预设策略计算得到所述待估价车辆的最终估价。
具体地,将待估价车辆的特征数据输入训练后的增量学习模型后,该增量学习模型输出另一个估价,为第二估价。最终估价可以采用第一估价和第二估价按照不同的权重相加得到的数值,权重的分配按照实际情况设置,比如,第一估价和第二估价按照1:1的权重相加得到最终估价。
表一是六个周中仅使用离线估价模型和使用离线估价模型与增量学习模型的结合方案预测二手车价格的准确率对比,可以看出,增量学习模型的增加可以显著提升估价模型的准确率。
表一
准确率 | 第1周 | 第2周 | 第3周 | 第4周 | 第5周 | 第6周 |
使用增量学习 | 0.85 | 0.86 | 0.88 | 0.75 | 0.78 | 0.9 |
不使用增量学习 | 0.85 | 0.8 | 0.77 | 0.68 | 0.72 | 0.8 |
本实施例提供的二手车估价方法,通过将增量学习模型和离线估价模型结合,使估价模型在市场环境发生变化时,能够快速更新,将模型输出结果拟合到当前的市场环境中,解决了相关技术中基于机器学习的二手车估价模型无法动态感知市场行情的变化,导致预测结果与实际偏差较大的问题。
此外,本实施例提供了一个将运营人员经验引入模型的机制,保证对异常结果的快速反应,提升二手车估价精度,且对运营人员没有算法技术上的要求,适合大规模推广。
在其中的一个实施例中,在步骤S201,接收估价请求,并根据接收到的估价请求获取待估价车辆的特征数据之前,还包括以下至少之一步骤:
步骤S301,获取历史车辆样本数据;
步骤S302,基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型。
具体地,将历史车辆样本的底层源数据保存在数据仓库当中,数据仓库可以是hive、MySQL等数据库。可以创建一个存储和收集流程持续地收集数据,并且对数据进行分层分类。源数据可包括域内数据和域外数据。训练离线估价模型时,用存储的所有历史车辆样本对离线估价模型进行训练。
其中,域内数据指的是可收集到的业务数据,这些业务数据是系统正常运行就可以获取的历史数据,比如入库的车辆信息、车型数据、车况数据和行情数据等。
域外数据指不属于自己系统从事交易业务产生的数据,这类数据从外部获取,包括宏观经济指数、政策信息、新车经销商价格、车市热度和二手车成交量等,这些数据可以每月更新。
具体地,域内数据可以存储在数据仓库中,通过ODS层收集,然后加工成DWD层,最终使用DWD层的数据进行算法模型构建;域外数据可以使用外部数据探针进行收集,并定期保存在MySQL数据库中。
通过上述步骤,可以得到一个较稳定的二手车基础估价模型,即本申请中的离线估价模型。
在其中的一个实施例中,步骤S302,所述基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型的过程包括以下步骤:
步骤S401,从所述历史车辆样本数据中用卡方检验法筛选出与车辆价格相关的特征;
步骤S402,用所述与车辆价格相关的特征对所述神经网络进行训练,得到所述离线估价模型。
需要说明的是,特征筛选的目的是从大量的车辆数据中筛选出对二手车价格有相关性的特征数据,本实施例使用的是卡方检验法,卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i,且因变量等于j的样本频数的观察值与期望的差距,构建统计量:
其中,A是观察值,E是期望,该统计量表示了自变量和因变量的相关性。此外,也可以在训练机器学习估价模型时,观察模型的feature importance(特征重要性)来判断特征的重要程度结合机器学习中的特征筛选方案,比如在梯度提升决策树(GBDT,GradientBoosted Decision Tree)中计算输入特征的feature importance。
上述实施例通过预先筛选出与二手车有关的车辆特征,精简了模型结构,减少了模型的计算用时,并提高了模型精度。
在其中一个实施例中,在步骤S302,基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型中,包括以下步骤至少之一:
用独热编码方法将类别型特征转化为稀疏向量;
将数值型特征离散化或归一化。
需要说明的是,车辆的特征类型有数值型和类别型。数值型特征如里程数、车龄等主要由数字构成。可以将对数值型特征的处理有连续特征离散化或归一化处理。连续型特征离散化的目的是将数值从连续空间通过分箱处理映射到离散空间中,比如一个车龄特征,车龄大于10年记为1,否则记为0,如果没有将车辆特征离散化,一个车龄为50年的异常数据会给模型造成很大的干扰。此外,将数值型特征离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力。
归一化是将数值型特征的数值转化为值为0到1区间内的变量,这样操作的目的是保留样本的原始信息,归一化算法如下,其中X是归一化后的值,Xi是样本的值,Xmin是样本中的最小值,Xmax是样本中的最大值:
类别型特征,如车辆颜色、上牌地区和品牌车系等,为由有限个类别构成的离散型特征,需要将这类特征处理使它们能够输入到模型中。本实施使用独热编码方法,独热编码方法能够将特征转化为稀疏的向量,通过类别字典将单个类别设置为1,其他类别设置为0。
上述实施例通过将车辆的特征数据进行处理后输入离线估价模型,使车辆的特征能够更好地适配于离线估价模型,提高了模型精度和计算速度。
在其中一个实施例中,在步骤S302,基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型中,包括以下步骤至少之一:
用embedding方法将离散型特征向量稠密化;
用梯度提升决策树模型将数值型特征向量稠密化。
需要说明的是,由于高维稀疏特征向量不适合多层复杂神经网络的训练,因此,对于离散型特征,本实施例通过embedding方法将离散型稀疏特征向量转化为稠密特征向量,例如,使用词向量(word2vec)方法,该方法是基于离散特征字典化的稠密向量表征,通过训练词向量表征模型获得离散特征的embedding(嵌入)。通过将单个编码,比如某个车型的编码,映射成一个稠密向量,变编码特征的“精确匹配”为embedding向量的“模糊查找”,从而提升算法的扩展能力,提高了模型的训练速度,其次,稠密向量本身可以降低模型的过拟合风险,有利于提高模型的鲁棒性。
对于数值型特征,实施例采用梯度提升决策树将数值型特征向量稠密化,比如,采用GBDT+LR(Linear Regression,线性回归)模型。
在将稠密向量输入神经网络时,将离散型稠密向量和连续型稠密向量拼接在一起输入神经网络。
上述实施例通过将车辆的稀疏特征向量转化为稠密向量后输入离线估价模型,提高了模型的训练速度,降低了模型的过拟合风险,提高了模型的鲁棒性。
在其中一个实施例中,上述与车辆价格相关的特征包括离线特征和实时特征,离线特征为车辆的固有属性,例如,车辆的驱动情况、动力情况、该车系的每年的保值率等等。这一类特征,需要基于全量的数据进行加工和计算,可以通过车型编码索引得到。
实时特征为能够发生变化的特征,在训练离线估价模型时,实时特征通过将历史数据加工获得。比如车龄,在训练离线估价模型时,需要回溯到当时的成交时间,然后和汽车的挂牌时间相减得到,再比如公里数、新车指导价等,也需要根据历史记录进行加工获得。
此外,还可以使用衍生特征,比如对公里数进行对数处理,计算估价和年限的交叉,例如某品牌5年内挂牌价的均值,本实施例中的衍生特征能够帮助估价模型挖掘深层次的特征,降低模型的泛化误差。
上述实施例通过将车辆的特征分成离线特征和实时特征,并用不同的方式分别处理,离线特征可以通过车型编码索引,在线上学习时,离线特征可以直接根据车型编码查询获得,无需重新收集获取,简化了整个模型的工作量。
在其中一个实施例中,在上述实施例的基础上,在步骤S203,在第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,并基于新增车辆样本数据进行在线训练,得到增量学习模型中,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据的过程包括:
根据接收到的估价请求,获取所述待估价车辆的实时特征数据,以及根据所述待估价车辆的车型,查询获取预先处理完备的所述待估价车辆的离线特征数据,其中,新增车辆样本数据可以用redis收集。
通过上述步骤,离线在线上学习时,离线特征可以直接根据车型编码查询获得,无需重新收集获取,简化了整个模型的工作量。
在一个优选实施例中,提供了一种二手车估价方法,包括以下步骤:
步骤S501,获取历史车辆样本数据;
步骤S502,从所述历史车辆样本数据中用卡方检验法筛选出与车辆价格相关的特征;所述特征包括离线特征和实时特征,离线特征为车辆的固有属性;
步骤S503,对筛选出来的特征进行处理,包括:
用独热编码方法将类别型特征转化为稀疏向量;
将数值型特征离散化或归一化;
用embedding方法将离散型特征向量稠密化,用GBDT+LR模型将数值型特征向量稠密化;
步骤S504,用所述与车辆价格相关的特征对所述神经网络进行训练,得到所述离线估价模型。
步骤S505,将特征数据输入训练完备的离线估价模型,得到所述待估价车辆的第一估价;
步骤S506,在第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,具体过程为:根据接收到的估价请求,获取所述待估价车辆的实时特征数据,以及根据所述待估价车辆的车型,查询获取预先处理完备的所述待估价车辆的离线特征数据;
基于新增车辆样本数据进行在线训练,得到增量学习模型;
步骤S507,将特征数据输入所述增量学习模型,得到待估价车辆的第二估价,并根据第一估价和第二估价,按照预设策略计算得到所述待估价车辆的最终估价。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
通过本实施例提供的二手车估价方法,通过将增量学习模型和离线估价模型结合,使估价模型在市场环境发生变化时,能够快速更新,将模型输出结果拟合到当前的市场环境中,解决了相关技术中基于机器学习的二手车估价模型无法动态感知市场行情的变化,导致预测结果与实际偏差较大的问题。此外,本实施例设计了一个将运营人员经验引入模型的机制,保证对异常结果的快速反应,提升二手车估价精度,且对运营人员没有算法技术上的要求,适合大规模推广。
在本实施例中还提供了一种二手车估价系统,图3为该二手车估价系统的示意图,如图3所示,该二手车估价系统包括数据获取模块20、第一估价模块10、第二估价模块30和估价计算模块40。
数据获取模块20,用于接收估价请求,并根据接收到的估价请求获取待估价车辆的特征数据;
第一估价模块10,用于将特征数据输入训练完备的离线估价模型,得到待估价车辆的第一估价;
第二估价模块30,用于在第一估价与待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练离线估价模型之后截止当前的新增车辆样本数据,并基于新增车辆样本数据进行在线训练,得到增量学习模型;估价计算模块40,用于将特征数据输入增量学习模型,得到待估价车辆的第二估价,并根据第一估价和第二估价,按照预设策略计算得到待估价车辆的最终估价。
具体地,可以用数据库存储新增车辆样本数据,其中,数据库可以是redis数据库。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
通过本实施例提供的二手车估价系统,通过将增量学习模型和离线估价模型结合,使得模型可以主动学习快速变化的二手车市场行情,保证了模型估价的准确性和稳定性。
在本实施例中还提供了一种计算设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以本申请实施例提供的所有二手车估价方法的步骤。
在本实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行本申请实施例提供的所有二手车估价方法的步骤。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种二手车估价方法,其特征在于,包括:
接收估价请求,并根据接收到的所述估价请求获取待估价车辆的特征数据;
将所述特征数据输入训练完备的离线估价模型,得到所述待估价车辆的第一估价;
在所述第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,并基于所述新增车辆样本数据进行在线训练,得到增量学习模型;
将所述特征数据输入所述增量学习模型,得到所述待估价车辆的第二估价,并根据所述第一估价和所述第二估价,按照预设策略计算得到所述待估价车辆的最终估价。
2.根据权利要求1所述的二手车估价方法,其特征在于,在所述接收估价请求之前,还包括以下步骤:
获取历史车辆样本数据;
基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型。
3.根据权利要求2所述的二手车估价方法,其特征在于,所述基于所述历史车辆样本数据对预设的神经网络进行训练,得到所述离线估价模型的过程包括:
从所述历史车辆样本数据中用卡方检验法筛选出与车辆价格相关的特征;
用所述与车辆价格相关的特征对所述神经网络进行训练,得到所述离线估价模型。
4.根据权利要求2所述的二手车估价方法,其特征在于,所述基于所述历史车辆样本数据对预设的神经网络进行训练的过程包括以下步骤:
用独热编码方法将类别型特征转化为稀疏向量;
和/或,将数值型特征离散化或归一化。
5.根据权利要求2所述的二手车估价方法,其特征在于,所述基于所述历史车辆样本数据对预设的神经网络进行训练的过程包括以下步骤:
用embedding方法将离散型特征向量稠密化;
和/或,用梯度提升决策树将数值型特征向量稠密化。
6.根据权利要求3所述的二手车估价方法,其特征在于,所述与车辆价格相关的特征包括离线特征和实时特征,所述离线特征为车辆的固有属性,所述实时特征为能够发生变化的特征。
7.根据权利要求6所述的二手车估价方法,其特征在于,所述根据接收到的所述估价请求获取待估价车辆的特征数据包括:
根据接收到的所述估价请求,获取所述待估价车辆的实时特征数据,以及根据所述待估价车辆的车型,查询获取预先处理完备的所述待估价车辆的离线特征数据。
8.一种二手车估价系统,其特征在于,包括数据获取模块、第一估价模块、第二估价模块、估价计算模块;
所述数据获取模块,用于接收估价请求,并根据接收到的所述估价请求获取待估价车辆的特征数据;
所述第一估价模块,用于将所述特征数据输入训练完备的离线估价模型,得到所述待估价车辆的第一估价;
所述第二估价模块,用于在所述第一估价与所述待估价车辆的当前市场价格的差值大于预设差值阈值的情况下、或者检测到人工触发行为时,获取在训练所述离线估价模型之后截止当前的新增车辆样本数据,并基于所述新增车辆样本数据进行在线训练,得到增量学习模型;
所述估价计算模块,用于将所述特征数据输入所述增量学习模型,得到所述待估价车辆的第二估价并根据所述第一估价和所述第二估价,按照预设策略计算得到所述待估价车辆的最终估价。
9.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的二手车估价方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的二手车估价方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110428411.0A CN113256325A (zh) | 2021-04-21 | 2021-04-21 | 二手车估价方法、系统、计算设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110428411.0A CN113256325A (zh) | 2021-04-21 | 2021-04-21 | 二手车估价方法、系统、计算设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113256325A true CN113256325A (zh) | 2021-08-13 |
Family
ID=77221192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110428411.0A Pending CN113256325A (zh) | 2021-04-21 | 2021-04-21 | 二手车估价方法、系统、计算设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256325A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331573A (zh) * | 2022-03-15 | 2022-04-12 | 蜗牛货车网(山东)电子商务有限公司 | 一种基于大数据的车辆残值评估方法和交易平台 |
CN117114775A (zh) * | 2023-04-10 | 2023-11-24 | 上海信宝博通电子商务有限公司 | 一种基于LightGBM模型的二手车快速定价方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147702A1 (en) * | 2004-03-16 | 2008-06-19 | Michael Bernhard | Prediction Method and Device For Evaluating and Forecasting Stochastic Events |
US20170032400A1 (en) * | 2015-07-27 | 2017-02-02 | Truecar, Inc. | Vehicle data system for distribution of vehicle data in an online networked environment |
CN107180367A (zh) * | 2017-06-06 | 2017-09-19 | 杭州大搜车汽车服务有限公司 | 一种基于机器学习的车辆估价的方法、存储介质及装置 |
CN107369043A (zh) * | 2017-07-19 | 2017-11-21 | 河海大学常州校区 | 一种基于bp神经网络的二手车价格评估优化算法 |
KR20180117286A (ko) * | 2017-04-19 | 2018-10-29 | (주)마켓디자이너스 | 기계 학습 기반의 가격 산정 방법 및 장치 |
CN109299807A (zh) * | 2017-12-29 | 2019-02-01 | 广东数鼎科技有限公司 | 一种二手车定价优化方法及系统 |
CN109816409A (zh) * | 2017-11-20 | 2019-05-28 | 优估(上海)信息科技有限公司 | 一种二手车定价方法、装置、设备及计算机可读介质 |
-
2021
- 2021-04-21 CN CN202110428411.0A patent/CN113256325A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147702A1 (en) * | 2004-03-16 | 2008-06-19 | Michael Bernhard | Prediction Method and Device For Evaluating and Forecasting Stochastic Events |
US20170032400A1 (en) * | 2015-07-27 | 2017-02-02 | Truecar, Inc. | Vehicle data system for distribution of vehicle data in an online networked environment |
KR20180117286A (ko) * | 2017-04-19 | 2018-10-29 | (주)마켓디자이너스 | 기계 학습 기반의 가격 산정 방법 및 장치 |
CN107180367A (zh) * | 2017-06-06 | 2017-09-19 | 杭州大搜车汽车服务有限公司 | 一种基于机器学习的车辆估价的方法、存储介质及装置 |
CN107369043A (zh) * | 2017-07-19 | 2017-11-21 | 河海大学常州校区 | 一种基于bp神经网络的二手车价格评估优化算法 |
CN109816409A (zh) * | 2017-11-20 | 2019-05-28 | 优估(上海)信息科技有限公司 | 一种二手车定价方法、装置、设备及计算机可读介质 |
CN109299807A (zh) * | 2017-12-29 | 2019-02-01 | 广东数鼎科技有限公司 | 一种二手车定价优化方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331573A (zh) * | 2022-03-15 | 2022-04-12 | 蜗牛货车网(山东)电子商务有限公司 | 一种基于大数据的车辆残值评估方法和交易平台 |
CN114331573B (zh) * | 2022-03-15 | 2022-06-21 | 蜗牛货车网(山东)电子商务有限公司 | 一种基于大数据的车辆残值评估方法和交易平台 |
CN117114775A (zh) * | 2023-04-10 | 2023-11-24 | 上海信宝博通电子商务有限公司 | 一种基于LightGBM模型的二手车快速定价方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242044A (zh) | 车货匹配模型的训练方法、装置、存储介质及电子设备 | |
CN113256325A (zh) | 二手车估价方法、系统、计算设备和存储介质 | |
CN112116184A (zh) | 使用历史检验数据的工厂风险估计 | |
CN109636047A (zh) | 用户活跃度预测模型训练方法、系统、设备及存储介质 | |
CN115034409A (zh) | 车辆维修方案确定方法、装置、设备及存储介质 | |
CN110995459A (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN107004200A (zh) | 排名功能的离线评价 | |
Mills | Towards the automatic classification of traceability links | |
CN114328277A (zh) | 一种软件缺陷预测和质量分析方法、装置、设备及介质 | |
CN113807728A (zh) | 基于神经网络的绩效考核方法、装置、设备及存储介质 | |
CN116485020B (zh) | 一种基于大数据的供应链风险识别预警方法、系统及介质 | |
CN116843481A (zh) | 知识图谱分析方法、装置、设备及存储介质 | |
CN113420847B (zh) | 基于人工智能的目标对象匹配方法及相关设备 | |
CN116187675A (zh) | 任务分配方法、装置、设备及存储介质 | |
WO2020106950A1 (en) | User-experience development system | |
CN113935788B (zh) | 模型评估方法、装置、设备及计算机可读存储介质 | |
US11392857B1 (en) | System and method for initiating a completed lading request | |
CN114048148A (zh) | 一种众包测试报告推荐方法、装置及电子设备 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 | |
CN110443646B (zh) | 产品竞争关系网络分析方法和系统 | |
CN113360845A (zh) | 车源成交概率预测方法、装置、电子装置和存储介质 | |
Boyko et al. | Methodology for Estimating the Cost of Construction Equipment Based on the Analysis of Important Characteristics Using Machine Learning Methods | |
CN116451882B (zh) | 碳排放量的预测方法及相关设备 | |
KR102576725B1 (ko) | 무역거래를 위한 대상 기업 비대면 추천 서비스 제공 방법 및 시스템 | |
Patil et al. | Linear Regression Based Demand Forecast Model in Electric Vehicles-LRDF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |