CN112508600A - 一种基于互联网公开数据的车辆价值评估方法 - Google Patents
一种基于互联网公开数据的车辆价值评估方法 Download PDFInfo
- Publication number
- CN112508600A CN112508600A CN202011284421.3A CN202011284421A CN112508600A CN 112508600 A CN112508600 A CN 112508600A CN 202011284421 A CN202011284421 A CN 202011284421A CN 112508600 A CN112508600 A CN 112508600A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- vehicle
- internet
- lightgbm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于互联网公开数据的车辆价值评估方法,属于互联网金融技术领域,解决了由于车商数据源的限制,很难保证将每一辆车的数据都收集到数据库,导致不能给每一个车进行估值,从而不能为全部车贷业务提供服务,也不能在独立授信环节给车贷业务提供估值服务的问题,所述方法通过采集互联网新车数据和二手车数据,将多源异构的数据处理成结构化数据,采用BLEU和levenshtein距离的方法对候选集数据进行匹配度评分,匹配出最优结果,采用一种结合LightGBM模型、DeepFM模型和传统规则模型的融合模型对新车和二手车价格进行评估,实现了对所有车辆的超高覆盖率,可以给每一个车辆的价值进行评估。
Description
技术领域
本发明涉及互联网金融技术领域,具体涉及一种基于互联网公开数据的车辆价值评估方法
背景技术
数据驱动智慧银行,践行普惠金融。随着科学技术的快速发展,依托大数据与人工智能技术,银行将变得越来越无界、智慧。金融服务将超越物理边界,随时随地为人们提供金融服务,将更加深度融合到衣食住行等各个生活场景。从中国的移动支付就可以看出,从13年到18年增长了差不多40倍的业务量,可预知的未来金融将便捷服务每一个生活角落;再者银行将会变得更加智能,从每一个银行的业务运营、决策风控,到每一个金融使用用户享受更加便捷、智能的金融服务,从传统的经验驱动业务转向数据驱动的智慧银行。现如今中国银行业已经通过大数据分析加传统方式的征信,实现分钟级别的车贷申请及发放。未来将会有更多的智慧产品不断问世,基于数据驱动业务运营,需要不断探索并挖掘数据价值,并将数据价值赋能业务场景,服务每个用户,践行普惠金融。
现有车价值估值方法是采用车架号匹配估值,车架号是车的“身份照号”,能唯一的标识对应的车辆。现有技术方案首先需要将全国各地汽车数据进行收集,再进行聚合,清洗、归并,并建立大量真实的数据;根据基础数据,再使用车架号对车进行估值。现有方案主要是通过真实的数据给出真实的价格,可建立精确、透明、快速的车估值方法,但是缺点也很明显,由于车商数据源的限制,这种根据每一个车给每一个车估值,很难保证将每一辆车的数据都收集到数据库;很难保证高覆盖率;这也就导致不能给每一个车进行估值。
发明内容
针对现有技术中存在的技术问题,本发明所述方法通过采集互联网新车数据和二手车数据,将多源异构的数据处理成结构化数据,采用BLEU和levenshtein距离(又称编辑距离)的方法对候选集数据进行匹配度评分,匹配出最优结果,采用一种结合LightGBM模型、DeepFM模型和传统规则模型的融合模型对新车和二手车价格进行评估,实现了对所有车辆的超高覆盖率,可以给每一个车辆进行估值。
本发明采用的技术方案如下:
一种基于互联网公开数据的车辆价值评估方法,其特征在于,包括:
步骤1:互联网公开数据实时采集并更新;
步骤2:对采集、更新得到的互联网数据进行数据去重和数据清洗;
步骤3:根据处理得到的数据进行融合编码建模;
步骤4:根据车辆实际输入的信息,智能选择使用DFS或者BFS的方法,对数据融合编码后的结构进行层级匹配,得到候选集,用BLEU和Levenshtein距离的方法对候选集数据进行匹配度评分,根据车辆型号的特性,选出评分最高的车辆作为评估结果;
步骤5:对于二手车估值,将LightGBM模型、DeepFM模型和传统规则模型的用加权平均的方法计算得到融合模型,通过融合模型对车辆价格进行评估。
步骤1中的互联网数据实时采集,是基于互联网采集平台对全网相关车辆的公开数据进行爬取,主要是通过汽车之家、优信数据和Web车等平台爬取数据。
如图2所示,其中互联网采集平台包括互联网数据采集模块和数据整合模块,通过数据清洗、统计分析建模,将互联网数据与银行内部数据整合产生更大价值。
其中所述互联网数据采集模块通过动态网页分布式抓取和结构化数据抽取来获取数据,动态网页分布式抓取通过JS引擎渲染动态网页,从而获取最终展现页面的HTML,通过分布式架构提升抓取速度,并支持水平扩展,在分布式架构中,从节点负责抓取,主节点负责调度;结构化数据抽取,负责对抓取得到的HTML进行结构化数据提取,将半结构化的HTML转化成需要的结构化数据,通过基于模板配置的信息提取技术,快速定位不同网站的字段信息,根据不同来源提取不同信息,最终保存至关系型数据库。
其中所述步骤2包括:将采集到的异构多源的脏数据进行数据去重和数据清洗后得到结构化数据。
车辆数据融合编码建模方法基于树形结构,根据车贷业务的需求建立更适合业务的数据模型,加强了车辆字段数据对于车贷业务本来的权重优先级的联系。
其中所述步骤4中,由于客户使用接口时,输入数据是不标准的、散乱的甚至时部分错误的,导致这些数据融合编码后会有一些缺失值或无效值的出现,产生数据质量上的差异,针对搜素匹配车辆数据时输入质量不同的情况,采用以下技术方法:
当输入数据质量高时,此时客户输入的车辆信息时完整且较为准确的,搜索算法会根据数据融合编码后的结构进行层级匹配,由于数据准确,匹配时采用DFS的方法,以求快速的、高准确率的得到车辆信息的候选集,DFS的方法得到的候选集数据量一般较小。
当输入数据质量低时,此时客户输入的车信息一版存在缺失或者不准确的情况,采取层级匹配时会采用BFS的方法,寻找此层级所有可能的数据,并依次按层级搜索,以求高查全率的得到车辆信息的候选集,BFS的方法得到的候选集数据量一般较大。
其中数据通过智能搜索的方法得到候选集,采用BLEU和Levenshtein距离的方法对候选集数据进行匹配度评分,根据车辆型号的特性,两种评分方式按照加权平均计算出最终结果。选出评分最高的车辆作为评估结果。
进一步的,BLEU是一种机器翻译质量的评价指标,其原理是使用候选文本以及一些标准的参考文本计算相似程度,指标取值范围在0-1,取值越靠近1表示机器翻译结果越好,BLEU的计算公式如式(1)所示,
其中BP是BLEU的惩罚因子,用来惩罚翻译结果的句子过短,N是n取值的上限,Pn是各个n值下的n-gram的精度计算结果,ωn是各个n-gram结果的权重。
Levenshtein距离,是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:
a)删除一个字符
b)插入一个字符
c)修改一个字符
一般来说,两个字符串的Levenshtein距离越小,则它们越相似。如果两个字符串相等,则它们的Levenshtein距离为0(不需要任何操作)。
其中步骤5采用一种结合LightGBM模型、DeepFM模型和传统规则模型的融合模型对二手车价格进行评估,对于新车,当新车的车型被完全确定下来后,仅需要在数据库种查找厂商指导价字段数据即可唯一确定此新车的价格;对于二手车,需要根据每一辆车的型号、车龄、行驶里程、维修保养记录等输入的字段数据信息对车辆进行建模评估价格。
所述LightGBM是基于GBDT算法实现的,利用已爬取的二手车数据经过一定的特征工程进行二手车估值模型的建模,其训练步骤可分为:数据预处理、特征工程、模型训练与参数优化、预测输出等四个部分,训练速度快,精度高。
所述数据预处理部分将之前通过外部互联网得到的经过实时清洗的数据进行缺失值处理、异常值处理、样本分层处理等基本预处理工作;特征工程部分将选择对预测任务有关系的特征进行建模,针对年代款、排量、公里数、车龄、新车价、是否进口等不需要预处理或仅需要简单的预处理即可;在完成特征工程后,可以进行模型训练,在训练调参阶段,采用贝叶斯优化算法调参的方式在指定范围内搜索LightGBM模型中的各项超参数,得到最优的LightGBM模型;最后进行车估值的预测输出。
所述DeepFM结合了FM处理低阶组合特征和DNN处理高阶组合特征的优势,其训练步骤可分FM部分、全连接DNN部分、预测输出等三个部分。
FM由一阶特征和二阶特征两部分组成,一阶特征仅需要在特征前乘一个系数向量ω,而二阶特征,需要考虑两个特征对应的嵌入向量,做内积即可,ω和嵌入向量都是我们要学习的参数,如公式(2)所示:
其中:x代表嵌入向量,ω代表系数,<w,x>代表w和x的内积,i和j代表枚举数,Vi和Vj代表两个特征矩阵对应的权重系数向量,<Vi,Vj>代表Vi和Vj的内积,d代表权重系数向量Vi和Vj的阶数,xi和xj代表当前阶数下嵌入向量。
FM部分会将低阶特征进行组合,得到高阶的特征提升数据表达能力,将在本发明的应用场景中,数据预处理和LightGBM方法基本类似,之后,我们对特征进行分为7个数值类特征密集特征和8个类别型特征稀疏特征,在FM的一阶线性处理环节中,将7个数值类特征进行拼接可得到批次大小×7的张量,然后接上一个全连接层即可,得到密集部分特征进行线性加和的结果;对于类别类特征,可以采用嵌入查找的方式例如:汽车的排放方式有自吸L,涡轮T,电动E三个类别,在one-hot下为自吸为[1 0 0],在进行一阶向量计算时会有:ω1*1+ω2*0+ω3*0,最后可以构造出一个3*1的嵌入向量,再通过查找将one-hot向量降低到[嵌入尺寸],其中嵌入尺寸会相对较小,如图5所示,每个领域即为单个类别特征进行one-hot后的稀疏特征,通过相加单元到FM层,接下来,再进行FM的二阶交叉部分进行构造:将之前得到的嵌入特征再次拼接起来,得到(n,k)矩阵,即是图5中的密集层经过内积单元到FM层。
再介绍DNN(全连接层)部分,如图5所示,左为FM部分,右为DNN部分,DNN部分的输入和FM部分是共享密集嵌入层的,然后将输入经过密集嵌入层,经过平滑层处理后,进入隐藏层,再通过多个隐藏层(结构为全连接层)即可进入输出单元,DNN预测模型表达式可记为公式(3):
yDNN=WH+1*aH+bH+1 (3)
其中W是模型的权重矩阵,a为前一层的输出结果,b是每层的偏置量,H为隐藏层的层数。
yDeepFM模型的计算公式记为公式(4):
yDeepFM=f(yFM+yDNN) (4)
其中yFM是FM模型输出,yDNN是DNN模型的输出。
最后输出结果如公式(4)所示,最终的预测结果yDeepFM由这两部分yFM和yDNN经过sigmoid函数f得到。
其中yDeepFM是DeepFM模型输出,yLightGBM是LightGBM模型输出。
但在实际的二手车预估模型中,因为特定价位的车型估值模型和其他车价位的车型有较大的差异,可以认为它们的数据分布不能单独用一个建模方式实现,本发明考虑了基于厂商指导价折价计算的传统二手车估价的方式来平衡特定价位汽车估值不准的问题,在特定的价格区间内,用传统规则模型的结果和DeepFM模型、LightGBM模型做加权平均,对之前模型进行一点修正,得到二手车价格估值的准确值。
最终,二手车预测结果如公式(6)所示,其中ωi为各计算结果权重:
y=ω1×yDeepFM+ω2×yLightGBM+ω3×yrule (6)
其中yDeepFM是DeepFM模型输出,yLightGBM是LightGBM模型输出,yrule是传统规则模型输出值,ω1为DeepFM模型的权重,ω2为LightGBM模型的权重,ω3为传统规则模型的权重。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.结合互联网大数据平台,可以在车架号信息数据源不足的情况下,快速高效准确的匹配对应车辆信息,可以给每一辆车提供估值服务,实现对车辆评估的超高覆盖率。
2.采用一种结合LightGBM模型、DeepFM模型和传统规则模型的融合模型对车辆价格进行评估,对新车和二手车价格评估更加精准。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明实施例基于互联网数据的智能车辆价值评估方法的流程图;
图2是互联网数据采集平台结构示意图;
图3是车辆数据节点联系结构示意图;
图4是车辆数据树形结构示意图;
图5是DeepFM结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要说明的是,术语“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面对本申请实施例中涉及的部分概念进行介绍:
DFS:指深度优先搜索,深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。
HTML称为超文本标记语言,是一种标识性的语言,它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体,HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。
BFS:指宽度优先搜索算法(又称广度优先搜索),是最简便的图的搜索算法之一,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位置,彻底地搜索整张图,直到找到结果为止。
BLUE:中文名称为双语互译质量辅助工具,计算这个指标,需要使用机器翻译好的文本以及一些专业翻译人员翻译的文本,本质上讲BLEU就是用来衡量机器翻译文本与参考文本之间的相似程度的指标,取值范围在0-1,取值越靠近1表示机器翻译结果越好.然而这个指标也是经过多次的更新升级。
Levenshtein距离:又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
LightGBM(Light Gradient Boosting Machine)是微软开源的一个实现GBDT算法的框架,支持高效率的并行训练。
GBDT是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。GBDT也是各种数据挖掘竞赛的致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。
DeepFM:基于CTR预估的推荐系统。
FM模型,又称因子分解机,解决数据稀疏情况下的特征组合问题。
DNN模型;又称深度神经网络,是深度学习的基础。
one-hot:独热码
下面结合图1~图5对本发明作详细说明。
一种基于互联网公开数据的车辆价值评估方法,步骤1~步骤5如图一所示,具体如下:
步骤1:互联网数据实时采集,包含对新车数据、二手车数据采集,实时采集,实时更新数据源。
具体的,互联网数据实时采集,主要是通过汽车之家、优信数据和Web车等平台进行24小时不间断的数据爬取,采集有效信息,将非结构化数据转化成结构化数据,与银行内部的数据结合,更好的为车贷业务服务。
进一步的,互联网采集平台包括互联网数据采集模块和数据整合模块。
本实施例中,所述互联网数据采集模块通过动态网页分布式抓取和结构化数据抽取来获取数据,动态网页分布式抓取通过JS引擎渲染动态网页,从而获取最终展现页面的HTML,通过分布式架构提升抓取速度,并支持水平扩展,在分布式架构中,从节点负责抓取,主节点负责调度;结构化数据抽取,负责对抓取得到的HTML进行结构化数据提取,将半结构化的HTML转化成需要的结构化数据,通过基于模板配置的信息提取技术,快速定位不同网站的字段信息,根据不同来源提取不同信息,最终保存至关系型数据库。
步骤2:对互联网数据进行数据去重和数据清洗,从而提供数据支持,为业务估值提供数据源;
具体的,数据去重是基于Bloom Filter实现基于url的去重方法,数据清洗主要依赖配置。
步骤2进一步还包括:将异构多源的脏数据进行归一化处理,得到结构化数据。
步骤3:对格式化的数据进行数据融合编码建模,为后续的智能搜索做准备。
进一步的,车辆数据融合编码建模方法基于树形结构,根据车贷业务的需求建立更适合业务的数据模型,加强了车辆字段数据对于车贷业务本来的权重优先级的联系,银行业现有车价值估值方法对基础结构化数据的管理较为粗放,不对结构化的数据的进一步处理,割裂了车数据字段数据对于车贷业务本来的权重优先级与联系本发明根据车贷业务的需求建立了更适合于业务的数据模型。
本实施例中,以车数据中的车型、车系、车品牌为例,图3展示了一个车节点和其车型号结点、车系节点、车品牌结点的包含信息和连接关系:对于每个车节点,可以通过另外三个结点找到。而车型、车系、车品牌结点的存储方式则是树形结构的,可创建一个4层结构的车型数据树,如图4所示。
步骤4:根据车辆实际输入的信息,智能选择使用DFS或者BFS的方法,对数据融合编码后的结构进行层级匹配,得到候选集,用BLEU和Levenshtein距离的方法对候选集数据进行匹配度评分,根据车辆型号的特性,选出评分最高的车辆作为评估结果。
具体的,由于客户使用接口时,输入数据是不标准的、散乱的甚至时部分错误的,导致这些数据融合编码后会有一些缺失值或无效值的出现,产生数据质量上的差异,针对搜素匹配车辆数据时输入质量不同的情况,采用以下技术方法:
当输入数据质量高时,此时客户输入的车辆信息时完整且较为准确的,搜索算法会根据数据融合编码后的结构进行层级匹配,由于数据准确,匹配时采用DFS的方法,以求快速的、高准确率的得到车辆信息的候选集,DFS的方法得到的候选集数据量一般较小。
当输入数据质量低时,此时客户输入的车辆信息一般存在缺失或者不准确的情况,采取层级匹配时会采用BFS的方法,寻找此层级所有可能的数据,并依次按层级搜索,以求高查全率的得到车辆信息的候选集,BFS的方法得到的候选集数据量一般较大。
其中数据通过智能搜索的方法得到候选集,采用BLEU和Levenshtein距离的方法对候选集数据进行匹配度评分,根据车辆型号的特性,两种评分方式按照加权平均计算出最终结果。选出评分最高的车辆作为评估结果。
进一步的,BLEU是一种机器翻译质量的评价指标,其原理是使用候选文本以及一些标准的参考文本计算相似程度,指标取值范围在0-1,取值越靠近1表示机器翻译结果越好,BLEU的计算公式如式(1)所示,
其中BP是BLEU的惩罚因子,用来惩罚翻译结果的句子过短,N是n取值的上限,Pn是各个n值下的n-gram的精度计算结果,ωn是各个n-gram结果的权重。
在本实施例中,若算法匹配的candidate型号为:大众2013款朗逸改款经典1.6L自动舒适版,标准reference型号为:大众2013款朗逸改款经典1.6L手动舒适版,可以看出,匹配的型号在手动/自动这部分出错了,现计算BLEU得分,首先计算n-gram(n最大取4)下的Pn值,4-gram分割即是将句子分为每四个词一组的词袋,本例中有7个词,按词序号即可分序号1-4,2-5,3-6,4-7这四个词袋,可得P1=6/7=0.86714,P2=4/6=0.6667,P3=3/5=0.6,P4=2/4=0.5,再计算∑log(Pn)=-1.7519,ωn=1/n(n取4)=0.25,BP=1,最终BLEU=1.0*exp^((P1+P2+P3+P4)/4)=0.6453。
Levenshtein距离,是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:
a)删除一个字符(Insert a character)
b)插入一个字符(Delete a character)
c)修改一个字符(Replace a character)
一般来说,两个字符串的Levenshtein距离越小,则它们越相似,如果两个字符串相等,则它们的Levenshtein距离为0(不需要任何操作)。
在本实施例中,若算法匹配的candidate型号为:大众2014款朗逸改款经典1.6L自动舒适版。标准reference型号为:大众2013款朗逸改款经典1.6L自动风尚版。计算Levenshtein距离:2014->2013,修改一个字符,距离为1;舒适版->自动版,距离为2,所以累计Levenshtein距离为3。
步骤5:对于二手车估值,将LightGBM模型、DeepFM模型和传统规则模型的用加权平均的方法计算得到融合模型,通过融合模型对车辆价格进行评估。。
对于新车,当新车的车型被完全确定下来后,仅需要在数据库种查找厂商指导价字段数据即可唯一确定此新车的价格;对于二手车,需要根据每一辆车的型号、车龄、行驶里程、维修保养记录等输入的字段数据信息对车辆进行建模评估价格。
所述LightGBM模型是基于GBDT算法实现的,利用已爬取的二手车数据经过一定的特征工程进行二手车估值模型的建模,其训练步骤可分为:数据预处理、特征工程、模型训练与参数优化、预测输出等四个部分,训练速度快,精度高。
在本实施例中,所述数据预处理部分将之前通过外部互联网得到的经过实时清洗的数据进行缺失值处理、异常值处理、样本分层处理等基本预处理工作;特征工程部分将选择对预测任务有关系的特征进行建模,例如一辆车的特征在初始预处理后可表示为:{"品牌":"本田","车系":"思域","是否进口":"否","年代款","2012","排量":"1.8L","公里数":"8.67","年龄":"7","城市代码":"010100","新车价":"15.7","车名":"2012款思域1.8L自动EXi舒适版","排放标准":"国5"},针对年代款、排量、公里数、车龄、新车价、是否进口等不需要预处理或仅需要简单的预处理即可;对于品牌和车系等类别特征,数量有数百或接近一千类之多,若直接采用one-hot编码将产生数百维的特征矩阵,将有较大的维度灾难风险,本发明采用类别特征one-hot编码后在进行embedding的方法将品牌、车系特征进行处理,可将这两个特征转化较低维度的稠密矩阵作为特征输入;对于城市代码特征,可将城市按照发展度水平进行简单的分级处理,综上可得到二手车的特征向量矩阵,用于模型训练。
在完成特征工程后,可以进行模型训练,在训练调参阶段,采用贝叶斯优化算法调参的方式在指定范围内搜索LightGBM模型中的各项超参数,得到最优的LightGBM模型;最后进行车估值的预测输出。
所述DeepFM结合了FM处理低阶组合特征和DNN处理高阶组合特征的优势,其训练步骤可分FM部分、全连接DNN部分、预测输出等三个部分。
FM由一阶特征和二阶特征两部分组成,一阶特征仅需要在特征前乘一个系数向量ω,而二阶特征,需要考虑两个特征对应的嵌入向量,做内积即可,ω和嵌入向量都是我们要学习的参数,如公式(2)所示:
其中:x代表嵌入向量,ω代表系数,<w,x>代表w和x的内积,i和j代表枚举数,Vi和Vj代表两个特征矩阵对应的权重系数向量,<Vi,Vj>代表Vi和Vj的内积,d代表权重系数向量Vi和Vj的阶数,xi和xj代表当前阶数下嵌入向量。
FM部分会将低阶特征进行组合,得到高阶的特征提升数据表达能力,将在本发明的应用场景中,数据预处理和LightGBM方法基本类似,之后,我们对特征进行分为7个数值类特征密集特征和8个类别型特征稀疏特征,在FM的一阶线性处理环节中,将7个数值类特征进行拼接可得到批次大小*7的张量,然后接上一个全连接层即可,得到密集部分特征进行线性加和的结果;对于类别类特征,可以采用嵌入查找的方式例如:汽车的排放方式有自吸L,涡轮T,电动E三个类别,在one-hot下为自吸为[1 0 0],在进行一阶向量计算时会有:ω1*1+ω2*0+ω3*0,最后可以构造出一个3*1的嵌入向量,再通过查找将one-hot向量降低到[嵌入尺寸],其中嵌入尺寸会相对较小,如图5所示,每个领域即为单个类别特征进行one-hot后的稀疏特征,通过相加单元到FM层。接下来,再进行FM的二阶交叉部分进行构造:将之前得到的嵌入特征再次拼接起来,得到(n,k)矩阵,即是密集层经过内积单元到FM层。其中n为特征数,k为嵌入大小参数,二阶特征组合系数由嵌入矩阵计算。
再介绍DNN(全连接层)部分,如图5所示,左为FM部分,右为DNN部分,DNN部分的输入和FM部分是共享密集嵌入层的,然后将输入经过密集嵌入层,经过平层处理后,进入隐藏层,再通过多个隐藏层(结构为全连接层)即可进入输出单元。DNN预测模型表达式可记为公式(3):
yDNN=WH+1*aH+bH+1 (3)
其中W是模型的权重矩阵,a为前一层的输出结果,b是每层的偏置量,H为隐藏层的层数。
模型的计算公式记为公式(4):
yDeepFM=f(yFM+yDNN) (4)
其中yFM是FM模型输出,yDNN是DNN模型的输出。
最后输出结果如公式(4)所示,最终的预测结果yDeepFM由这两部分yFM和yDNN经过sigmoid函数f得到。
其中yDeepFM是DeepFM模型输出,yLightGBM是LightGBM模型输出。
本实施例中,但在实际的二手车预估模型中,因为特定价位的车型估值模型和其他车价位的车型有较大的差异,可以认为它们的数据分布不能单独用一个建模方式实现,本发明考虑了基于厂商指导价折价计算的传统二手车估价的方式来平衡特定价位汽车估值不准的问题,在特定的价格区间内,用传统规则模型的结果和DeepFM模型、LightGBM模型做加权平均,对之前模型进行一点修正,得到二手车价格估值的准确值,例如当二手车的厂商指导价高于50W时,采用高价车折价率计算的方式,如下:
车型:2011款宝马7系列(进口)730Li典雅型。厂商指导价:89.8W。行驶里程:7.8W公里,使用4.6年,价格可计算为:P=厂商指导价*进口系数(1.05)*里程成新率(0.6)*年限成新率(0.5)*品牌型号折旧率(0.95)*厂商指导价修正系数(0.9)=24.2W。
最终,二手车预测结果如公式(6)所示,其中ωi为各计算结果权重:
y=ω1×yDeepFM+ω2×yLightGBM+ω3×yrule (6)
其中yDeepFM是DeepFM模型输出,yLightGBM是LightGBM模型输出,yrule是传统规则模型输出值,ω1为DeepFM模型的权重,ω2为LightGBM模型的权重,ω3为传统规则模型的权重。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (10)
1.一种基于互联网公开数据的车辆价值评估方法,其特征在于,包括:
步骤1:互联网公开数据实时采集并更新;
步骤2:对采集、更新得到的互联网数据进行数据处理;
步骤3:根据处理得到的数据进行融合编码建模;
步骤4:根据车辆实际输入的信息,智能选择使用DFS或者BFS的方法,对数据融合编码后的结构进行层级匹配,得到候选集,用BLEU和Levenshtein距离的方法对候选集数据进行匹配度评分,根据车辆型号的特性,选出评分最高的车辆作为评估结果;BLEU的算法公式为:
其中,BP是BLEU的惩罚因子,用来惩罚翻译结果的句子过短,Pn是各个n值下的n-gram的精度计算结果,ωn是各个n-gram结果的权重因子。
步骤5:对于二手车估值,将LightGBM模型、DeepFM模型和传统规则模型的用加权平均的方法计算得到融合模型,通过融合模型对车辆价格进行评估,所述传统规则模型是指按厂商指导价折价计算的二手车估价方式来训练建模。
2.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述步骤1中的互联网公开数据实时采集,是基于互联网采集平台对全网公开的新车数据、二手车数据进行24小时不间断爬取。
3.根据权利要求2所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述互联网采集平台包括互联网数据采集模块和数据整合模块,所述互联网数据采集模块通过动态网页分布式抓取和结构化数据抽取来获取数据。
4.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述步骤2包括:将采集到的异构多源的脏数据进行数据去重和数据清洗后得到结构化数据。
5.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述步骤3中融合编码建模基于树形结构,对格式化的数据进行建模。
6.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述步骤4中,客户使用接口时数据质量存在差异,
当输入数据质量高时,匹配采用DFS的方法进行数据搜索;
当输入数据质量低时,匹配采用BFS的方法进行数据搜索。
7.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述LightGBM模型是基于GBDT算法实现的,利用已爬取的车辆数据经过特征工程进行车辆估值模型的建模,其训练步骤分为:数据预处理、特征工程、模型训练与参数优化、预测输出四个部分。
8.根据权利要求7所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述数据预处理部分将之前通过外部互联网得到的经过实时清洗的数据进行缺失值处理、异常值处理、样本分层处理基本预处理工作;特征工程部分将选择对预测任务有关系的特征进行建模;在完成特征工程后,进行模型训练,在训练调参阶段,采用贝叶斯优化算法调参的方式在指定范围内搜索LightGBM模型中的各项超参数,得到最优的LightGBM模型;最后进行车估值的预测输出。
9.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述DeepFM模型结合了FM处理低阶组合特征和DNN处理高阶组合特征的优势,联合训练FM模型和DNN模型。
10.根据权利要求1所述的一种基于互联网公开数据的车辆价值评估方法,其特征在于,所述融合模型是指结合DeepFM模型、LightGBM模型和传统规则模型,在特定的价格区间内做加权平均,得到二手车价格估值的准确值,计算结果如下公式所示:
y=ω1×yDeepFM+ω2×yLightGBM+ω3×yrule
其中yDeepFM是DeepFM模型输出,yLightGBM是LightGBM模型输出,yrule是传统规则模型输出值,ω1为DeepFM模型的权重,ω2为LightGBM模型的权重,ω3为传统规则模型的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284421.3A CN112508600A (zh) | 2020-11-17 | 2020-11-17 | 一种基于互联网公开数据的车辆价值评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284421.3A CN112508600A (zh) | 2020-11-17 | 2020-11-17 | 一种基于互联网公开数据的车辆价值评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508600A true CN112508600A (zh) | 2021-03-16 |
Family
ID=74956607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011284421.3A Pending CN112508600A (zh) | 2020-11-17 | 2020-11-17 | 一种基于互联网公开数据的车辆价值评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508600A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927022A (zh) * | 2021-03-23 | 2021-06-08 | 湖南汽车工程职业学院 | 一种基于大数据的电动汽车评估系统 |
CN113297172A (zh) * | 2021-05-11 | 2021-08-24 | 浙江惠瀜网络科技有限公司 | 银行车贷业务数据处理确定方法、装置、设备和存储介质 |
CN113421107A (zh) * | 2021-04-26 | 2021-09-21 | 上海霍普建筑设计事务所股份有限公司 | 一种地库车位价值分析系统及分析方法 |
CN113837803A (zh) * | 2021-09-24 | 2021-12-24 | 深圳闪回科技有限公司 | 一种基于多模型融合的二手手机回收价格预测算法 |
CN116362778A (zh) * | 2023-05-31 | 2023-06-30 | 鱼快创领智能科技(南京)有限公司 | 一种基于大数据分析的车辆估值方法及系统 |
CN117114775A (zh) * | 2023-04-10 | 2023-11-24 | 上海信宝博通电子商务有限公司 | 一种基于LightGBM模型的二手车快速定价方法及系统 |
-
2020
- 2020-11-17 CN CN202011284421.3A patent/CN112508600A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927022A (zh) * | 2021-03-23 | 2021-06-08 | 湖南汽车工程职业学院 | 一种基于大数据的电动汽车评估系统 |
CN113421107A (zh) * | 2021-04-26 | 2021-09-21 | 上海霍普建筑设计事务所股份有限公司 | 一种地库车位价值分析系统及分析方法 |
CN113297172A (zh) * | 2021-05-11 | 2021-08-24 | 浙江惠瀜网络科技有限公司 | 银行车贷业务数据处理确定方法、装置、设备和存储介质 |
CN113837803A (zh) * | 2021-09-24 | 2021-12-24 | 深圳闪回科技有限公司 | 一种基于多模型融合的二手手机回收价格预测算法 |
CN117114775A (zh) * | 2023-04-10 | 2023-11-24 | 上海信宝博通电子商务有限公司 | 一种基于LightGBM模型的二手车快速定价方法及系统 |
CN116362778A (zh) * | 2023-05-31 | 2023-06-30 | 鱼快创领智能科技(南京)有限公司 | 一种基于大数据分析的车辆估值方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508600A (zh) | 一种基于互联网公开数据的车辆价值评估方法 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
CN111914096B (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN109684440A (zh) | 基于层级标注的地址相似度度量方法 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN101408885A (zh) | 利用统计分布对主题进行建模 | |
CN115470339A (zh) | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 | |
CN114880486A (zh) | 基于nlp和知识图谱的产业链识别方法及系统 | |
CN110532398A (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110109902A (zh) | 一种基于集成学习方法的电商平台推荐系统 | |
CN116610816A (zh) | 一种基于图卷积神经网络的人员画像知识图谱分析方法及系统 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
Cong et al. | Conceptual design of a user-centric smart product-service system using self-organizing map | |
CN116610818A (zh) | 一种输变电工程项目知识库的构建方法及系统 | |
CN113553856B (zh) | 一种基于深度神经网络的争议焦点识别方法 | |
Jang et al. | Exploring technology opportunities based on user needs: application of opinion mining and SAO analysis | |
CN107798137B (zh) | 一种基于可加模型的多源异构数据融合架构系统 | |
CN117252186A (zh) | 基于xai的信息处理方法、装置、设备及存储介质 | |
CN114547346B (zh) | 知识图谱的构建方法和装置、电子设备和存储介质 | |
Guo et al. | Car Emotion Labeling Based on Color‐SSL Semi‐Supervised Learning Algorithm by Color Augmentation | |
Shanti et al. | Machine Learning-Powered Mobile App for Predicting Used Car Prices | |
CN114417011A (zh) | 检察业务画像知识融合方法、装置、电子设备及存储介质 | |
Alshara | [Retracted] Multilayer Graph‐Based Deep Learning Approach for Stock Price Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210316 |