CN112633926A - 车辆估价模型的生成方法、车辆的估价方法 - Google Patents

车辆估价模型的生成方法、车辆的估价方法 Download PDF

Info

Publication number
CN112633926A
CN112633926A CN202011536572.3A CN202011536572A CN112633926A CN 112633926 A CN112633926 A CN 112633926A CN 202011536572 A CN202011536572 A CN 202011536572A CN 112633926 A CN112633926 A CN 112633926A
Authority
CN
China
Prior art keywords
vehicle
data
time
valuation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011536572.3A
Other languages
English (en)
Inventor
缪西安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chezhiying Technology Co ltd
Original Assignee
Beijing Chezhiying Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chezhiying Technology Co ltd filed Critical Beijing Chezhiying Technology Co ltd
Priority to CN202011536572.3A priority Critical patent/CN112633926A/zh
Publication of CN112633926A publication Critical patent/CN112633926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了车辆估价模型的生成方法,方法包括步骤:从所述数据存储装置中获取所述车源数据;在所述车源数据中获取地理区域和车型,并按照地理区域、车型对所述车源数据中其他维度数据进行分组,得到分组数据;将每一组所述分组数据作为训练样本,其中,每一组的所述分组数据包括:行驶里程、上牌时间、用户发布车辆信息时间、估价;将所述训练样本中与时间相关的数据做量化处理;采用预定算法对处理后的训练样本进行训练,得到多个针对各地理区域下的、不同车型的车辆估价模型,其中,每个所述车辆估价模型的输入数据包括:行驶里程、用户发布车辆信息时间、上牌时间中的一种或多种,输出数据为各地理区域、车型下对应的估价。

Description

车辆估价模型的生成方法、车辆的估价方法
技术领域
本发明涉及回归测试技术领域,特别涉及生成车辆估价模型的方法、车辆估价方法及计算设备。
背景技术
对车辆进行估价,是二手车交易的重要环节,在交易过程中,需要根据车辆信息对二手车进行评估定价,获得较为准确的估价区间。
目前,对二手车的估价,大多先利用网上定价的方法对二手车估价,在此基础上进行现场评估,进而对二手车评估定价。目前已有的二手车网上定价方法,主要通过二手车估值模型进行评估定价,但是已有的二手车估值模型对二手车估值的准确性低,进而影响二手车卖家及买家的利益。
因此,需要一种能够提高估价准确性的车辆估值方法,以解决上述技术方案中存在的问题。
发明内容
为此,本发明提供一种车辆估价模型的生成方法、车辆的估价方法及计算设备,以解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供一种车辆估价模型的生成方法,适于在计算设备中执行,所述计算设备与数据存储装置通信连接,所述数据存储装置中存储有车源数据,所述车源数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价,所述方法包括步骤:
从所述数据存储装置中获取所述车源数据;
在所述车源数据中获取地理区域和车型,并按照地理区域、车型对所述车源数据中其他维度数据进行分组,得到分组数据;
将每一组所述分组数据作为训练样本,其中,每一组的所述分组数据包括:行驶里程、上牌时间、用户发布车辆信息时间、估价;
将所述训练样本中与时间相关的数据做量化处理;
采用预定算法对处理后的训练样本进行训练,得到多个针对各地理区域下的、不同车型的车辆估价模型,其中,每个所述车辆估价模型的输入数据包括:行驶里程、用户发布车辆信息时间、上牌时间中的一种或多种,输出数据为各地理区域、车型下对应的估价。
可选地,确定所述车源数据的步骤包括:
获取车辆估价数据,其中,所述车辆估价数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价、交易类型、电话、估价合理性、车况、预测价格中的一种或多种,所述地理区域包括省份和城市;
确定估价与所述车辆估价数据中的其他维度数据之间的相关性;
根据估价与所述车辆估价数据中的其他维度数据之间的相关性,确定所述车源数据。
可选地,所述确定估价与所述车辆估价数据中的其他维度数据之间的相关性的步骤包括:
通过计算估价与所述车辆估价数据中的其他维度数据之间的相关系数,确定估价与所述车辆估价数据中的其他维度数据之间的相关性;
其中,通过如下方式确定所述车源数据:
选取估价以及符合预设相关系数阈值的所述车辆估价数据中的其他维度数据,作为所述车源数据。
可选地,所述将所述训练样本中与时间相关的数据做量化处理的步骤包括:
删除所述训练样本中的缺失值;
从删除缺失值的训练样本中查找出与时间相关的数据;
将当前时间和所述与时间相关的数据做相减处理。
可选地,每个所述车辆估价模型的输入数据包括:行驶里程、当前时间与用户发布车辆信息时间的差值、当前时间与上牌时间的差值中的一种或多种。
可选地,所述地理区域包括省份和城市。
可选地,所述预设算法为多元线性回归函数。
根据本发明的另一个方面,提供了一种车辆的估价方法,适于在计算设备中执行,所述方法与存储装置通信连接,所述存储装置中存储有车源数据,所述车源数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价,所述方法包括步骤:
从客户端获取数据,获取的所述数据包括:地理区域、车型、上牌时间、用户发布车辆信息时间、行驶里程,其中,所述地理区域包括省份和城市;
从所述存储装置中选取与地理区域、车型相对应的车辆估价模型,其中,所述车辆估价模型利用如上所述的车辆估价模型的生成方法生成;
将从客户端获取的上牌时间、用户发布车辆信息时间、行驶里程输入至已选取的车辆估价模型,得到地理区域、车型下的估价;
将估价返回至所述客户端。
可选地,所述车辆估价模型为:
Y=θ01×t12×mil+θ3×t2
其中,Y为估价,θ0为截距,θ1、θ2、θ3为t1、mil、t2分别对应的回归系数,变量t1为上牌时间,变量mil为行驶里程,变量t2为用户发布车辆信息时间。
根据本发明的又一个方面,提供了一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如上所述方法的指令。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当所述程序指令被移动终端读取并执行时,使得所述移动终端执行如上所述方法。
根据本发明的技术方案,提供了一种车辆估计模型的生成方法,本方案中,首先从车源数据中提取地理区域和车型,并按照地理区域、车型对车源数据中其他维度数据进行分组,得到分组数据,再将分组后的车源数据中与时间相关的数据进行量化处理,处理后的各组车源数据作为训练数据,训练多元线性回归模型,得到多个针对各省份、城市下的不同车型的车辆估价模型,也就是说,每个省份对应多个车辆估价模型,每个省份、城市、车型下对应一个车辆估值模型。由于在不同省份、车型的车辆价格存在一定的差异,因此在本发明的方案中,针对不同地理区域、车型训练不同的估值模型,可以有效减少预测误差,使模型估价的准确性高。另外,本发明中利用了多元线性回归模型,由于多元线性回归模型在分析多因素时,更加简单和方便,因此,利用多元线性回归模型建立车辆估价模型的效率高。所以,本发明构建的车辆估价模型的准确性和效率高。
当利用训练得到的车辆估价模型进行估价时,首先根据从客户端获取的地理区域、车型,选择与地理区域、车型相对应的车辆估价模型,再将从客户端获取的上牌时间、用户发布车辆信息时间、行驶里程输入已选取的模型,模型输出地理区域、车型对应的高准确性的车辆估价。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的一种车辆估价模型的系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的一种车辆估价模型的生成方法300的流程图;
图4示出了根据本发明一个实施例的一种车辆估价方法400的流程图;
图5示出了根据本发明另一个实施例的客户端输入数据界面的示意图;以及
图6示出了根据本发明一个实施例的客户端估价界面的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
对车辆进行估价,是二手车交易的重要环节,在交易过程中,需要根据车辆信息对二手车进行评估定价,获得较为准确的估价区间。目前,对二手车的估价,大多先利用网上定价的方法对二手车估价,在此基础上进行现场评估,进而对二手车评估定价。目前的二手车网上定价方法,主要通过二手车估值模型进行评估定价,但是已有的二手车估值模型所用的算法较为简单,在建模过程中仅考虑车型、里程、上牌时间这几个变量,将这些变量进行简单的回归分析来建立模型,导致对二手车估值的准确性低,进而影响二手车卖家及买家的利益。
然而本发明为了解决上述问题,提供一种车辆估价模型的生成系统100,图1示出了根据本发明一个实施例的车辆估价模型的生成系统100的示意图。如图1所示,该车辆估价模型的生成系统100包括计算设备200和存储装置110,计算设备200与存储装置110通信连接,例如通过有线或无线的方式网络连接。存储装置110存储有车源数据,其中,车源数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价。
为了解决现有的二手车估值模型的估值准确率低的问题,计算设备200首先从存储装置110中获取车源数据,再从车源数据中提取地理区域和车型,并按照地理区域、车型对车源数据中其他维度数据进行分组,得到分组数据,再将分组后的车源数据中与时间相关的数据进行量化处理,处理后的各组车源数据作为训练数据,训练多元线性回归模型,得到多个针对各省份、城市下的不同车型的车辆估价模型,也就是说,每个省份、城市、车型下对应一个车辆估值模型,而每个省份对应多个车辆估价模型。其中,模型的输入是地理区域、车型对应的行驶里程、上牌时间、用户发布车辆信息时间,模型输出的是与地理区域、车型相对应的估价。
本发明的车辆估价模型的生成方法中,由于不同省份、不同车型的车辆价格存在一定的差异,因此在本发明的方案中,针对不同地理区域、车型训练不同的估值模型,可以有效减少预测误差,提高模型的准确性。另外,本发明中利用了多元线性回归模型,由于多元线性回归模型在分析多因素时,更加简单和方便,因此,利用多元线性回归模型建立车辆估价模型的效率高。所以,本发明构建的车辆估价模型的准确性和效率高。
在一个实施例中,存储装置110可以是关系型数据库例如MySQL、ACCESS等,也可以是非关系型数据库例如NoSQL等;可以是驻留于计算设备200中的本地数据库,也可以作为分布式数据库例如HBase等设置于多个地理位置处,总之,数据存储装置110用于存储已根据省份、城市、车型进行分组的车源数据,本发明对数据存储装置110的具体部署、配置情况不做限制。计算设备200可以与数据存储装置110连接,并获取数据存储装置110中所存储的数据。例如,计算设备200可以直接读取数据存储装置110中的数据(在数据存储装置110为计算设备200的本地数据库时),也可以通过有线或无线的方式接入互联网,并通过数据接口来获取数据存储装置110中的数据。
在一个实施例中,计算设备200可以实现为服务器,例如应用服务器、Web服务器等;也可以实现为桌面电脑、笔记本电脑、处理器芯片、平板电脑等,但不限于此。计算设备200可以与存储装置110连接,并获取数据存储装置110中所存储的数据。例如,计算设备200可以直接读取存储装置110中的数据(在存储装置110为计算设备200的本地数据库时),也可以通过有线或无线的方式接入互联网,并通过数据接口来获取存储装置110中的数据。
在一个实施例中,存储装置110可以是数据库,进一步地,数据库可以是关系型数据库,例如MYSQL、SqlServer、ACCESS等,存储装置110的数据库可以是驻留于计算设备200中的本地数据库,也可以作为分布式数据库例如Hbase等设置于多个地理位置处;存储装置110也可以是缓存,例如redis缓存等,总之存储装置110用于存储第一版本软件代码对应的函数与测试用例的对应关系,或用于存储当前待测试代码的前多个版本代码对应的函数与测试用例的对应关系。需要说明的是,存储装置110还可用于存储当前待测试的第二版本软件代码对应的函数与测试用例的对应关系,当前待测试的第二版本软件代码对应的函数与测试用例的对应关系,是为了供第二版本软件代码的下一版本软件代码在回归测试时使用。本发明对存储装置110的具体部署、配置情况不做限制。
本发明的回归测试方法可以在计算设备200中执行。图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在一些实施例中,计算设备200被配置为执行根据本发明的车辆估价模型的生成方法300。其中,计算设备200的一个或多个程序122包括用于执行根据本发明的车辆估计模型的生成方法300的指令。
图3为本发明一个实施例的车辆估价模型的生成方法300的流程图。该方法300适于在计算设备(如图1所示的计算设备200)中执行。
如图3所示,方法300始于步骤S310。在步骤S310中,从数据存储装置110中获取车源数据,车源数据是与建模相关的数据。在将车源数据保存至存储装置之前,需要从二手车交易平台中获取大量的二手车的车辆数据、交易记录等数据,并从中选取部分数据作为车源数据。
例如,可选择汽车之家的二手车交易平台,并从汽车之家二手车交易平台中爬取大量的二手车的车辆数据、交易记录等数据。其中,二手车的车辆数据中包括省份、城市、车型、上牌时间、行驶里程、发布时间(即用户在估价平台上发布车辆信息时间)、电话、交易类型(即买车、卖车)等数据,二手车交易记录中包括估价、交易类型(即卖车(卖给商家、卖给个人)、买车、4S置换)、车况(即车的状况差、状况正常、状况好)、预测价格(即预测未来一段时间的价格趋势,例如预测未来一年的价格趋势)等数据。
但是上述所获取的二手车的车辆数据、交易记录等数据中,数据维度较多,然而在训练模型时并不是训练样本的维度越多模型学习效果越好,而是选择与模型的输出相关性强的数据训练模型,这样,既能提高模型学习的效果,又能使训练模型过程中的计算量大大减少。
然而表征相关性的一个方式是计算数据之间的相关系数,通过相关系数的大小确定数据之间的相关性。因此,本发明中通过计算估价与对应的省份、城市、车型、上牌时间、行驶里程、发布时间、电话、交易类型、车况、预测价格的相关系数,选择与估价相关性高的数据作为模型的训练数据。
在本发明一个实施例中,通过如下公式计算估价与各维度数据的相关系数:
Figure BDA0002853680170000091
其中,r为相关系数,x为一个维度数据,y为与x相对应的另一维度数据,cov(x,y)为x与y的协方差,var(x)为x的标准差,var(y)为y的标准差。根据相关系数的计算公式得到估价与各维度数据的相关系数结果如表1所示:
表1
Figure BDA0002853680170000092
Figure BDA0002853680170000101
在本发明中,估价是模型的输出,那么与估价相关性强的数据可以作为样本数据。已知,相关系数在0~0.3之间为弱相关,在0.3~0.6之间为中等程度相关,在0.6~1之间为强相关。因此,本发明中预先设置相关系数阈值为0.6~1,若估价与各维度数据的相关系数在0.6~1,就选择该维度数据作为车源数据。因此,根据表1中列出的相关系数,本发明选择省份、城市、车型、上牌时间、行驶里程、发布时间这6类数据进行建模。
然而,不同省份、城市的不同车型的价格是存在差异的,若忽略不同省份、城市、车型下价格的差异,那么训练得到的模型由于无法基于不同地理区域的不同车型针对性地估价,使得模型估价存在较大误差。
为了解决上述问题,在步骤S320中,从车源数据中获取地理区域和车型,并按照地理区域、车型对车源数据中其他维度数据进行分组,得到分组数据。具体地,本方案中,在确定车源数据之后,不是直接用所确定的车源数据训练模型,而是从车源数据中获取省份、城市和车型,并按照省份、城市、车型对车源数据中其他维度数据进行分组,使得每个省份、城市、车型对应一组上牌时间、行驶里程、发布时间、估价。这样,在建模过程中充分考虑不同地理区域、车型的价格差异,从而提高模型的估价准确率。
之后,在步骤S330中,将每一组分组数据作为样本数据,其中,每一组的分组数据包括:行驶里程、上牌时间、发布时间、估价。
需要注意的是,在本发明中,省份、城市、车型是用来对车源数据中其他维度数据进行分组的,不是直接作为模型的样本数据,而是将按照省份、城市、车型分组后的上牌时间、行驶里程、发布时间、估价作为模型的样本数据训练模型。
在本发明的一个实施方式中,将上述得到的样本数据按照9:1的比例分为训练样本和测试样本,训练样本用来训练模型,测试样本用来判断模型拟合的好坏。
在样本数据中,存在上牌时间、发布时间两个时间变量,但将上牌时间、发布时间直接作为变量,模型拟合效果并不理想,为充分利用样本数据中的变量信息,需要对车源数据中的时间变量进行处理。
进一步地,在步骤S340中,将训练样本中与时间相关的数据做量化处理。具体地,首先删除训练样本中的缺失值,再从删除缺失值的训练样本中查找出与时间相关的数据,也就是从删除缺失值的训练样本中查找出上牌时间、发布时间,将当前时间分别与上牌时间、发布时间做相减处理,得到的当前时间-上牌时间、当前时间-发布时间为量化处理后的上牌时间、发布时间。
最后,在步骤S350中,采用预定算法对处理后的训练样本进行训练,得到多个针对各地理区域下的、不同车型的车辆估价模型。其中,每个车辆估价模型的输入数据包括:行驶里程、当前时间与用户发布车辆信息时间的差值、当前时间与上牌时间的差值,输出数据为各地理区域、车型下对应的估价。
本发明的一个实施方式中,预定算法为多元线性回归函数,因此本发明中构建多元线性回归模型,模型如下:
Y=θ01×t12×mil+θ3×t2
其中,Y为估价,θ0为截距,变量t1为上牌时间,变量mil为行驶里程,变量t2为用户发布车辆信息时间,θ1、θ2、θ3为t1、mil、t2分别对应的回归系数。
构建多元线性回归模型后,将训练样本中的行驶里程、当前时间与用户发布车辆信息时间的差值、当前时间与上牌时间的差值输入至已构建的模型中,对模型进行训练,得到多个针对各地理区域下的、不同车型的截距和回归系数,并保存至存储装置110中。本发明中,训练得到的多个针对各地理区域下的、不同车型的车辆估价模型的截距和回归系数如表2所示:
表2
Figure BDA0002853680170000111
Figure BDA0002853680170000121
确定多元线性回归函数的截距和回归系数,也就表示模型训练完成,接下来利用测试样本测试训练后的多元线性回归模型,并计算误差。本发明中,误差的计算公式如下:
Figure BDA0002853680170000122
其中,ε为估价误差,Y真实值为测试样本的实际估价,Y测试值为通过模型得到的估价。
需要注意的是,本发明中设置误差阈值为5%,当模型的误差小于或等于5%时,停止训练模型,若模型的误差大于5%,那么继续训练模型,直到误差小于等于5%时停止训练。
例如,北京的Passat领驭-2007款-1.8T-自动VIP型,利用训练后的北京、Passat领驭-2007款-1.8T-自动VIP型对应的模型输出估价23万,而测试样本中该车型对应的真实估价为23.5万,那么将预测估价与真实估价代入上述的误差计算公式,得到误差为2.12366%。由于2.12366%小于预设的误差阈值5%,因此,不需要再训练北京、Passat领驭-2007款-1.8T-自动VIP型对应的模型,当前得到的截距、回归系数为最终的参数,保存至存储装置110中。之后为北京、车型(Passat领驭-2007款-1.8T-自动VIP型)进行估价时,直接从存储装置110中选取对应的截距、回归系数,并利用选取对应的截距、回归系数进行估价。
在模型输出的估价误差满足预设误差阈值后,会得到估价模型。然而,模型拟合的好坏是表征模型预测准确性的一个指标,在本发明的一个实施方式中,通过决定系数R平方判断模型拟合效果。R平方的取值范围为0~1,R平方越高,模型拟合效果越好,模型的准确性越高。经过计算,本发明的多个针对各地理区域下的、不同车型的车辆估价模型的决定系数均在0.85以上,说明模型的拟合效果很好,从而验证了本发明的多个针对各地理区域下的、不同车型的估价模型的高准确性。R平方计算公式是现有技术,也在本发明的保护范围之内,此处不予以赘述。
根据本发明的技术方案,提供了一种车辆估价模型的生成方法,该车辆估价模型可移植于二手车估价平台中进行二手车估价。本方案中,得到多个针对各省份、城市下的不同车型的车辆估价模型,也就是说,每个省份、城市、车型下对应一个车辆估值模型,每个省份对应多个车辆估价模型,由于在不同省份、车型的车辆价格存在一定的差异,因此在本发明的方案中,针对不同地理区域、车型训练不同的估值模型,从而针对不同省份、城市、车型选择对应的模型进行估价,可以有效减少预测误差使模型拟合更加准确,模型估价的准确性高。
其次,本方案中选择与模型的输出相关性强的数据,如上牌时间、行使里程、发布时间、估价训练模型,这样,既能提高模型学习的效果,又能使训练模型过程中的计算量大大减少,从而提高模型的计算效率。另外,本发明中利用了多元线性回归模型,由于多元线性回归模型在分析多因素时,更加简单和方便,因此,利用多元线性回归模型建立车辆估价模型的效率高。
图4为本发明一个实施例的车辆估价方法400的流程图。该方法400适于在计算设备(如图1所示的计算设备200)中执行。
如图4所示,方法400始于步骤S410。在步骤S410中,从客户端获取数据,其中,从客户端获取的数据包括:省份、城市、车型、上牌时间、发布时间(即用户在估价平台上发布车辆信息时间)、行驶里程。
获取的用户数据是用户在二手车估价平台的客户端输入的数据,如图5所示,用户在客户端输入车型、行使里程、上牌时间,并点击买车差价或卖车估价,此时会获取到用户的发布时间。此处需要说明的是,省份、城市是通过估价平台中的定位功能确定的,而不需要用户在客户端输入省份和城市,所以在图5中,估价平台的客户端界面看不见省份、城市对应的输入框。
例如,用户在左1框中处输入雷克萨斯ES,在右1框中输入行驶里程13万公里,在左2框中输入上牌时间2006-06,通过二手车估价平台的定位功能确定用户所在位置是北京,并点击卖车估价,此时会得到发布时间2020-07。
在用户输入车型、行驶里程、上牌时间,并点击卖车估价后。进一步地,在步骤S420中,从存储装置中选取与省份、城市、车型相对应的车辆估价模型,其中,车辆估价模型利用上述车辆估价模型的生成方法生成。
例如,从存储装置110中选取与北京、雷克萨斯ES相对应的截距,以及变量上牌时间、发布时间、行使里程的回归系数。如表2可知,与北京、雷克萨斯ES相对应的截距为26.377888,变量上牌时间、发布时间、行使里程的回归系数分别是-0.003833、0.006553、0.006553。
进而,在步骤S430中,将从客户端获取的上牌时间、发布时间、行驶里程输入至已选取的车辆估价模型,得到省份、城市、车型下的对应估价。
例如,根据从存储装置110中选取的与北京、雷克萨斯ES相对应的截距和各变量的回归系数后,多元线性回归函数如下:
Y=26.377888+(-0.003833)×t1+(-0.000008)×mil+0.006553×t2
将从客户端获取的上牌时间(t1)2006-06、发布时间(t2)2020-07、行驶里程(mil)13万公里代入上述的多元线性回归函数,从而得到估价为28.66万。
最后,在步骤S440中,将估价返回至客户端。如图6所示,将估价结果返回至客户端后,用户可看到省份为北京、车型为雷克萨斯ES、交易类型是卖给个人、新车含税价格62.09万、估价是6.2万、车况正常以及预测未来一年的车价呈下降趋势。
本发明中,可将训练得到的车辆估价模型移植至二手车交易平台中,用于对二手车进行估价。本发明的车辆估价方法,首先根据从客户端获取的地理区域、车型,选择与地理区域、车型相对应的车辆估价模型,再将从客户端获取的上牌时间、发布时间、行驶里程输入已选取的车辆估价模型,模型输出地理区域、车型对应的高准确性的车辆估价,由于车辆估价模型的高效性和高准确性,因此,通过本发明的车辆估价方法,能够快速的得到准确性高的二手车估价,实际应用中达到了准确、高效的二手车估价目标,满足商家和用户的需求。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,移动终端一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的车辆估价模型的生成方法和车辆估价方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种车辆估价模型的生成方法,适于在计算设备中执行,所述计算设备与数据存储装置通信连接,所述数据存储装置中存储有车源数据,所述车源数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价,所述方法包括步骤:
从所述数据存储装置中获取所述车源数据;
在所述车源数据中获取地理区域和车型,并按照地理区域、车型对所述车源数据中其他维度数据进行分组,得到分组数据;
将每一组所述分组数据作为训练样本,其中,每一组的所述分组数据包括:行驶里程、上牌时间、用户发布车辆信息时间、估价;
将所述训练样本中与时间相关的数据做量化处理;
采用预定算法对处理后的训练样本进行训练,得到多个针对各地理区域下的、不同车型的车辆估价模型,其中,每个所述车辆估价模型的输入数据包括:行驶里程、用户发布车辆信息时间、上牌时间中的一种或多种,输出数据为各地理区域、车型下对应的估价。
2.根据权利要求1所述的方法,其中,确定所述车源数据的步骤包括:
获取车辆估价数据,其中,所述车辆估价数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价、交易类型、电话、估价合理性、车况、预测价格中的一种或多种,所述地理区域包括省份和城市;
确定估价与所述车辆估价数据中的其他维度数据之间的相关性;
根据估价与所述车辆估价数据中的其他维度数据之间的相关性,确定所述车源数据。
3.根据权利要求2所述的方法,其中,所述确定估价与所述车辆估价数据中的其他维度数据之间的相关性的步骤包括:
通过计算估价与所述车辆估价数据中的其他维度数据之间的相关系数,确定估价与所述车辆估价数据中的其他维度数据之间的相关性;
其中,通过如下方式确定所述车源数据:
选取估价以及符合预设相关系数阈值的所述车辆估价数据中的其他维度数据,作为所述车源数据。
4.根据权利要求1所述的方法,其中,所述将所述训练样本中与时间相关的数据做量化处理的步骤包括:
删除所述训练样本中的缺失值;
从删除缺失值的训练样本中查找出与时间相关的数据;
将当前时间和所述与时间相关的数据做相减处理。
5.根据权利要求4所述的方法,其中,每个所述车辆估价模型的输入数据包括:行驶里程、当前时间与用户发布车辆信息时间的差值、当前时间与上牌时间的差值中的一种或多种。
6.根据权利要求1至5中任一项所述的方法,其中,所述预设算法为多元线性回归函数。
7.一种车辆的估价方法,适于在计算设备中执行,所述计算设备与存储装置通信连接,所述存储装置中存储有车源数据,所述车源数据包括:地理区域、车型、行驶里程、上牌时间、用户发布车辆信息时间、估价,所述方法包括步骤:
从客户端获取数据,获取的所述数据包括:地理区域、车型、上牌时间、用户发布车辆信息时间、行驶里程,其中,所述地理区域包括省份和城市;
从所述存储装置中选取与地理区域、车型相对应的车辆估价模型,其中,所述车辆估价模型利用如权利要求1-6中任一项所述的方法生成;
将从客户端获取的上牌时间、用户发布车辆信息时间、行驶里程输入至已选取的车辆估价模型,得到地理区域、车型下的估价;
将估价返回至所述客户端。
8.根据权利要求7所述的方法,其中,所述车辆估价模型为:
Y=θ01×t1+t2×mil+θ3×t2
其中,Y为估价,θ0为截距,θ1、θ2、θ3为t1、mil、t2分别对应的回归系数,变量t1为上牌时间,变量mil为行驶里程,变量t2为用户发布车辆信息时间。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1至6中任一项所述方法的指令,以及执行如权利要求7或8所述方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由移动终端执行时,使得所述移动终端执行根据权利要求1至6中任一项所述的方法,以及执行根据权利要求7或8所述的方法。
CN202011536572.3A 2020-12-23 2020-12-23 车辆估价模型的生成方法、车辆的估价方法 Pending CN112633926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011536572.3A CN112633926A (zh) 2020-12-23 2020-12-23 车辆估价模型的生成方法、车辆的估价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011536572.3A CN112633926A (zh) 2020-12-23 2020-12-23 车辆估价模型的生成方法、车辆的估价方法

Publications (1)

Publication Number Publication Date
CN112633926A true CN112633926A (zh) 2021-04-09

Family

ID=75321504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011536572.3A Pending CN112633926A (zh) 2020-12-23 2020-12-23 车辆估价模型的生成方法、车辆的估价方法

Country Status (1)

Country Link
CN (1) CN112633926A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114493668A (zh) * 2021-12-28 2022-05-13 北京五八信息技术有限公司 车辆信息处理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114493668A (zh) * 2021-12-28 2022-05-13 北京五八信息技术有限公司 车辆信息处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
US20200051134A1 (en) Wholesale/trade-in pricing system, method and computer program product therefor
CN104303199B (zh) 用于二手车定价数据分析与呈现的系统和方法
CN108921569B (zh) 一种确定用户投诉类型的方法及装置
CA2891934C (en) Pay-per-sale system, method and computer program product therefor
US20090018859A1 (en) Method for vehicle repair estimate and scheduling
KR102431144B1 (ko) 블록체인 기반의 nft를 이용한 객체의 등기 서비스를 위한 서비스 제공 방법 및 장치
US20240169214A1 (en) Knowledge graph updating method, apparatus, electronic device, storage medium and program thereof
CN110349035A (zh) 业务处理系统以及方法
Salutina et al. Transformation of business technologies into digital platforms and evaluation of the effectiveness of their application
US20090276290A1 (en) System and method of optimizing commercial real estate transactions
CN112633926A (zh) 车辆估价模型的生成方法、车辆的估价方法
US20210118016A1 (en) Net valuation guarantee for vehicles
CN112435068A (zh) 一种恶意订单识别方法、装置、电子设备及存储介质
CN115600942B (zh) 一种汽车零件交易管理方法及系统
CN116452802A (zh) 车损检测方法、装置、设备及存储介质
CN110020958A (zh) 一种投保和投保链路测试方法、装置及设备
CN110544165B (zh) 一种信用风险评分卡创建方法、装置及电子设备
CN112001658A (zh) 一种车险报价生成方法和装置
JP7457099B1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
JP7503125B1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
WO2024143222A1 (ja) 情報提示装置、情報提示方法及び情報提示プログラム
US20220351047A1 (en) Automated inquiry analysis
CN116681448A (zh) 车辆的价格评估方法、装置、存储介质及计算机设备
US20220261666A1 (en) Leveraging big data, statistical computation and artificial intelligence to determine a likelihood of object renunciation prior to a resource event

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination