发明内容
本发明的发明目的在于提供一种二手车的定价模型构建方法,所述方法包括:
获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
预处理所述文本信息,得到文本向量;
合并所述文本向量,以及,数值信息,生成价格影响因素;
基于所述价格影响因素,以及,成交价格,构建二手车的定价模型。
可选择的,所述预处理文本信息,得到文本向量的步骤包括:
对所述文本信息进行分词预处理,得到词库,所述词库中存储有建模词汇;
获取模型超参数,所述模型超参数包括:词向量的维度,模型输入上下文词汇数,经过模型训练,生成每个建模词汇的词向量;
根据所述词向量,计算出每条文本信息的文本向量。
可选择的,所述对所述文本信息进行分词预处理,得到词库的步骤包括:
根据预置规则,对所述文本信息进行分词,得到第一词库,所述第一词库包括对所述文本信息进过中文分词切分得到的词汇;
遍历所述第一词库,删除停用词,数字,以及,符号,得到词库。
可选择的,所述根据预置规则,对所述文本信息进行分词,得到第一词库的步骤包括:
遍历所述文本信息;
判断所述文本信息中是否包括预置标准词汇;
如果包括,将所述预置标准词汇作为一个分词整体,对所述文本信息进行分词,得到第一词库。
本申请实施例第二方面示出一种二手车的定价方法,所述方法包括:
获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
预处理所述文本信息,得到文本向量;
合并所述文本向量,以及,数值信息,生成价格影响因素;
基于所述价格影响因素,以及,成交价格,构建二手车的定价模型;
基于所述二手车的定价模型,评估二手车的定价。
本申请实施例第三方面示出一种二手车的定价模型构建装置,所述装置包括:
获取单元,用于获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
预处理单元,用于预处理所述文本信息,得到文本向量;
合并单元,用于合并所述文本向量,以及,数值信息,生成价格影响因素;
构建单元,用于基于所述价格影响因素,以及,成交价格,构建二手车的定价模型。
可选择的,所述预处理单元包括:
分词单元,用于对所述文本信息进行分词预处理,得到词库;
词向量生成单元,用于获取模型超参数,所述模型超参数包括:词向量的维度,模型输入上下文词汇数,经过模型的训练,生成每个建模词汇的词向量;
文本向量计算单元,用于根据所述词向量,计算出每条文本信息的文本向量。
可选择的,所述分词单元包括:
第一词库生成单元,用于根据预置规则,对所述文本信息进行分词,得到第一词库,所述第一词库包括切分所述文本信息后生成的建模词汇;
删除单元,用于遍历所述第一词库,删除停用词,数字,以及,符号,得到词库。
可选择的,所述第一词库生成单元包括:
遍历单元,用于遍历所述文本信息;
判断单元,用于判断所述文本信息中是否包括预置标准词汇;
分词单元,用于如果包括,将所述预置标准词汇作为一个分词整体,对所述文本信息进行分词,得到第一词库。
本申请实施例第四方面示出一种二手车的定价装置,所述装置包括:
第一获取单元,用于获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
第一预处理单元,用于预处理所述文本信息,得到文本向量;
第一合并单元,用于合并所述文本向量,以及,数值信息,生成价格影响因素;
第一构建单元,用于基于所述价格影响因素,以及,成交价格,构建二手车的定价模型;
评估单元,用于基于所述二手车的定价模型,评估二手车的定价。
由以上技术方案可知,本申请实施例示出一种二手车的定价模型构建方法,定价方法及装置,其中,定价模型构建方法包括:获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;预处理所述文本信息,得到文本向量;合并所述文本向量,以及,数值信息,生成价格影响因素;基于所述价格影响因素,以及,成交价格,构建二手车的定价模型。本申请实施例示出一种二手车的定价模型构建方法,定价方法及装置,本申请实施例示出的方法,预先将文本信息转化为计算机可识别的文本向量,然后,将文本向量与数值信息合并,作为价格影响因素,然后,根据价格影响因素与成交价格,构建二手车的定价模型。可见本申请实施例示出的技术方案,在构建二手车的定价模型的过程中,同时,考虑文本信息与数值信息,整个建模环境更接近与二手车的实际交易环境,进而保证才用本申请实施例构建的二手车的定价模型,准确的评估二手车的价格。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
现有技术示出的二手车的定价模型的构建方法,在构建的过程中,仅仅考虑数值信息对二手车价格的影响,构建的二手车定价模型与二手车的实际交易情况存在较大的差异,采用现有技术示出的二手车定价模型对二手车的价格进行评估,其准确度难以保证。
为了解决现有技术存在的技术问题,本申请实施例第一方面示出一种二手车的定价模型构建方法,具体的,请参阅图1,所述方法包括:
S101获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
所述建模车辆为已成交的二手车,所述建模车辆的车辆数据已知;
车辆交易平台,在门店或个人手中收购二手车,在收购二手车之前,通常对车辆的性能进行一些检测。生成检索报告,所述检索报告记录着二手车的车辆数据。建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
所述文本信息为对二手车车况的描述,例如,底盘的描述,外观的描述,电路板的描述,发动机的描述……一系列车况的描述。
S102预处理所述文本信息,得到文本向量;
所述文本向量为可被计算机识别的语言;
如一个车况信息product.txt,里面包含每个产品的是三个数据分别是编号,名称和描述举例:4456(编号)奥迪(名称)发动机漏油(描述)如何用java语言搜索4456,并且将编号,名称和描述打印在二手车建议平台;
再例如:取用10万个建模车辆。通过统计10w个车况信息中某一句话或某一个词汇出现的次数,将该词汇或一句话赋予较大的权重,然后将所述权重作为价格影响因素的一部分。
再例如,通过学习将文本信息通过一个嵌入空间转换到另一个计算机可识别的空间。
本申请实施例示出的技术方案只是示例性的几种文本向量的生成方法,在实际应用,凡是可以将文本信息转化为计算机可识别的文本向量的方法均在本申请实施例的保护范围,在此由于篇幅有限,便不一一介绍。
S103合并所述文本向量,以及,数值信息,生成价格影响因素;
S104基于所述价格影响因素,以及,成交价格,构建二手车的定价模型。
本申请实施例示出一种二手车的定价模型构建方法,本申请实施例示出的方法,预先将文本信息转化为计算机可识别的文本向量,然后,将文本向量与数值信息合并,作为价格影响因素,然后,根据价格影响因素与成交价格,构建二手车的定价模型。可见本申请实施例示出的技术方案,在构建二手车的定价模型的过程中,同时,考虑文本信息与数值信息,整个建模环境更接近与二手车的实际交易环境,进而保证才用本申请实施例构建的二手车的定价模型,准确的评估二手车的价格。
实施例2:
通常在二手车定价模型的构建过程中,在将文本信息转换为计算机可识别的语言的过程中,并不能准确的衡量不用文本之间的相似度,例如发动机漏油与发动机漏油严重,可能作为同样的影响因素;但是,在实际情况下,发动机漏油与发动机严重漏油,显然对二手车的价格的影响程度是不一样的,如将二手车漏油与二手车严重漏油作为同一影响因素,构建的二手车定价模型的准确度难以保证;
为解决上述问题本申请实施例示出一种文本向量的生成方法,具体的,请参阅图2,以及,图3;
实施例2实施例1示出的技术方案与实施例1示出的技术方案具有相似的步骤,唯一的区别在于实施例1示出的技术方案中,所述预处理文本信息,得到文本向量的步骤包括:
S1021对所述文本信息进行分词预处理,得到词库,所述词库中存储有建模词汇;
对所有文本信息进行中文分词、预处理(包括去除标点、停用词、去重等),得到词库;
例如:对于10万个车样本对应的文本信息进,进行上述操作之后,得到包含了100万个词汇的词库;
并且,词库里面100万个词汇彼此不重复。
中文分词法采用结巴分词:
例如:前轮更换;采用结巴分词后的词汇为:前轮,更换;
常用文本分词,中华人民共和国采用结巴分词后的词汇为:中华,人民,共和国;
在实际应用中凡是可以将一段文本切分成单个词汇的方法,均在本申请实施例示出的技术方案的保护范围内,再次由于篇幅有限便不一一列举。
S1022获取模型超参数,所述模型超参数包括:词向量的维度(dim),模型输入上下文词汇数(window),经过模型的训练,生成每个建模词汇的词向量;
本申请实施例示出的方法,预先构建影响二手车的维度,在实际构建的过程中,采用200维的空间向量作为向量的维度;
然后将建模词汇用one-hot编码;
词汇1;{10000000000000000000000………n}
词汇2;{010000000000000000000000………n}
………
词汇100w;{000000000000000000000000………1}
然后随机得到固定大小(词库词汇数*词向量维度)的权重矩阵;
然后根据预置window的数值,取相应数量词汇,;例如,预置window的数值为4,相应的词汇为(词汇1,词汇2,词汇3,以及,词汇4);
然后根据词汇1,词汇2,词汇3,以及,词汇4的one-hot输入进行训练得到这些词的输出概率;
以中心词输出和实际中心词对比反向(BP)调整权重,最后得到100w*200的权重矩阵;
然后根据每个词one-hot编码向量与权重矩阵乘积,得到对应词的词向量;
S1023根据所述词向量,计算出每条文本信息的文本向量。
将每个文本信息对应的词汇的词向量加和后除以词汇的个数,即为所述文本信息的文本向量。
本申请实施例示出的方法,通过浅层神经网络结构可以解决车况信息间的相似性判定,不同的词汇采用不同的词向量表示,即使表达上相似度较高的词汇,在词向量上的表示方式也存在一定差异,本申请实施例示出技术方案文本信息通过一个固定维度的将文本信息映射到一个新的多维空间上,新的多维空间,可以表示相似度较高的文本之间的差异,在建模的过程中更加准确的反应二手车的车况,二手车估价模型准确性可以显著提高。
实施例3:
为了减小应用平台的数据处理量,本申请实施例示出一种词汇的过滤方法,具体的,请参阅图4;
实施例3实施例2示出的技术方案与实施例2示出的技术方案具有相似的步骤,唯一的区别在于实施例示出的技术方案中,所述对所述文本信息进行分词预处理,得到词库的步骤包括:
S10211根据预置规则,对所述文本信息进行分词,得到第一词库,所述第一词库包括对所述文本信息进过中文分词切分得到的词汇;
具体的,可采用主谓分词方法:
例如:前轮更换;采用主谓分词方式分词后的结果为:前轮,更换;
常用分词方法,中华人民共和国分词后的结果为:中华,人民,共和国;
S10212遍历所述第一词库,删除停用词,数字,以及,符号,得到词库。
在实际应用中,文本信息的分词的结果除了词汇为还有一些数字,以及,符号,这些数字对车况的评价不产生影响,本申请实施例示出的技术方案直接将数字,以及,符号删除;
所述停用词为对车况描述不产生任何作用的词汇;
例如,文本信息中存在一些语气助词,例如:的,了…;
可见本申请实施例示出的技术方案,在将文本信息分词后,将停用词,数字,以及,符号删除,剩余的词汇作为词库,可见本申请实施例示出技术方案通过预先删除停用词,数字,以及,符号的方法,减少了应用平台数据处理量,提高了系统的带宽及资源的利用率。
实施例4:
为了进一步减小应用平台的数据处理量,本申请实施例示出一种词汇的过滤方法,具体的,请参阅图5;
实施例4与实施例3示出的技术方案与实施例3示出的技术方案具有相似的步骤,唯一的区别在于实施例示出的技术方案中,,所述根据预置规则,对所述文本信息进行分词,得到第一词库的步骤包括:
S102111遍历所述文本信息;
S102112判断所述文本信息中是否包括预置标准词汇;
在实际应用中一个短语虽然有多个词汇,在实际建模过程中可见所述短语作为一个建模词汇;
例如,中华人民共和国,这个短语,由,中华,人民,共和国组成,本申请实施例示出的技术方案将中华人民共和国定义为预置标准词汇,在文本信息分词的过程中将中华人民共和国作为一个整体进行分词。
S102113如果包括,将所述预置标准词汇作为一个分词整体,对所述文本信息进行分词,得到第一词库。
S102114如果不包括,根据预置规则,对所述文本信息进行分词,得到第一词库。
中文分词法采用结巴分词:
例如:前轮更换;采用结巴分词后的词汇为:前轮,更换;
常用文本分词,中华人民共和国采用结巴分词后的词汇为:中华,人民,共和国。
本申请实施例示出的技术方案预先通过数据统计,将一些可以作为一个整体的词汇设计成预置标准词汇,并存储起来,在遍历文本信息的过程中,若存在预置标准词汇,则直接将预置标准词汇作为一个分词整体。本申请实施例示出方案,在一定程度生,减少了建模词汇的数量,进而减少了,应用平台服务器数据处理量,提高了系统的带宽及资源的利用率。
实施例5:
请参阅图6;
本申请实施例第二方面示出一种二手车的定价方法,所述方法包括:
S201获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
所述建模车辆为已成交的二手车,所述建模车辆已知车辆数据
车辆交易平台,在门店或个人手中收购二手车,在收购二手车之前,通常对车辆的性能进行一些检测。生成检索报告,所述检索报告记录着二手车的车辆数据。建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
所述文本信息为对二手车车况的描述,例如,底盘的描述,外观的描述,电路板的描述,发动机的描述……一系列车况的描述。
S202预处理所述文本信息,得到文本向量;
所述文本向量为可被计算机识别的语言;
如说一个车况信息product.txt,里面包含每个产品的是三个数据分别是编号,名称和描述举例:4456(编号)奥迪(名称)发动机漏油(描述)如何用java语言搜索4456,并且将编号,名称和描述打印在二手车建议平台;
再例如:取用10万个建模车辆。通过统计10w个车况信息中某一句话,或某一个词汇出现的次数,将该词汇或一句话赋予较大的权重,然后将所述权重作为价格影响因素的一部分。
再例如,通过学习将文本信息通过一个嵌入空间转换到另一个计算机可识别的空间。
再例如,n-grams。5语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换;
TFIDF法TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency);
本申请实施例示出的技术方案只是示例性的几种文本向量的生成方法,在实际应用,方式可以将文本信息转化为技术及可识别的文本向量的方法均在本申请实施例的保护范围,在此由于篇幅有限,便不一一介绍。
S203合并所述文本向量,以及,数值信息,生成价格影响因素;
S204基于所述价格影响因素,以及,成交价格,构建二手车的定价模型;
S205基于所述二手车的定价模型,评估二手车的定价。
本申请实施例示出一种二手车的定价方法,本申请实施例示出的方法,预先将文本信息转化为计算机可识别的文本向量,然后,将文本向量与数值信息合并,作为价格影响因素,然后,根据价格影响因素与成交价格,构建二手车的定价模型。可见本申请实施例示出的技术方案,在构建二手车的定价模型的过程中,同时,考虑文本信息与数值信息,整个建模环境更接近与二手车的实际交易环境,进而保证才用本申请实施例构建的二手车的定价模型,准确的评估二手车的价格。
实施例6:
请参阅图7,本申请实施例第三方面示出一种二手车的定价模型构建装置,所述装置包括:
获取单元31,用于获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
预处理单元32,用于预处理所述文本信息,得到文本向量;
合并单元33,用于合并所述文本向量,以及,数值信息,生成价格影响因素;
构建单元34,用于基于所述价格影响因素,以及,成交价格,构建二手车的定价模型。
可选择的,所述预处理单元包括:
分词单元,用于对所述文本信息进行分词预处理,得到词库;
词向量生成单元,用于获取模型超参数,所述模型超参数包括:词向量的维度,模型输入上下文词汇数,经过模型的训练,生成每个建模词汇的词向量;
文本向量计算单元,用于根据所述词向量,计算出每条文本信息的文本向量。
可选择的,所述分词单元包括:
第一词库生成单元,用于根据预置规则,对所述文本信息进行分词,得到第一词库,所述第一词库包括切分所述文本信息后生成的建模词汇;
删除单元,用于遍历所述第一词库,删除停用词,数字,以及,符号,得到词库。
可选择的,所述第一词库生成单元包括:
遍历单元,用于遍历所述文本信息;
判断单元,用于判断所述文本信息中是否包括预置标准词汇;
分词单元,用于如果包括,将所述预置标准词汇作为一个分词整体,对所述文本信息进行分词,得到第一词库。
实施例7:
请参阅图8;
本申请实施例第四方面示出一种二手车的定价装置,所述装置包括:
第一获取单元41,用于获取建模车辆的车辆数据,所述车辆数据包括,建模车辆的车况信息,以及,建模车辆的成交价格,所述车况信息包括:数值信息,以及,文本信息;
第一预处理单元42,用于预处理所述文本信息,得到文本向量;
第一合并单元43,用于合并所述文本向量,以及,数值信息,生成价格影响因素;
第一构建单元44,用于基于所述价格影响因素,以及,成交价格,构建二手车的定价模型;
评估单元45,用于基于所述二手车的定价模型,评估二手车的定价。
可选择的,所述第一预处理单元包括:
分词单元,用于对所述文本信息进行分词预处理,得到词库;
词向量生成单元,用于获取模型超参数,所述模型超参数包括:词向量的维度,模型输入上下文词汇数,经过模型的训练,生成每个建模词汇的词向量;
文本向量计算单元,用于根据所述词向量,计算出每条文本信息的文本向量。
可选择的,所述分词单元包括:
第一词库生成单元,用于根据预置规则,对所述文本信息进行分词,得到第一词库,所述第一词库包括切分所述文本信息后生成的建模词汇;
删除单元,用于遍历所述第一词库,删除停用词,数字,以及,符号,得到词库。
可选择的,所述第一词库生成单元包括:
遍历单元,用于遍历所述文本信息;
判断单元,用于判断所述文本信息中是否包括预置标准词汇;
分词单元,用于如果包括,将所述预置标准词汇作为一个分词整体,对所述文本信息进行分词,得到第一词库。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。