CN111861667A - 车辆推荐方法及装置、电子设备、存储介质 - Google Patents
车辆推荐方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111861667A CN111861667A CN202010708668.7A CN202010708668A CN111861667A CN 111861667 A CN111861667 A CN 111861667A CN 202010708668 A CN202010708668 A CN 202010708668A CN 111861667 A CN111861667 A CN 111861667A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- algorithm
- model
- sample data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012795 verification Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 8
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种车辆推荐方法及装置、电子设备、存储介质,所述方法包括:获取包含多组样本数据的样本数据集;针对多种算法模型,利用样本数据集评估每种算法模型的预测准确性;从多种算法模型中选取预测准确性最高的目标算法,并利用目标算法训练得到车辆匹配模型;将目标用户的用户特征输入车辆匹配模型,输出车辆特征与目标用户的用户特征匹配的车辆类型。从而无需人工凭借经验推荐车辆,降低了人力成本,提高了推荐结果的准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种车辆推荐方法及装置、电子设备、计算机可读存储介质。
背景技术
目前,车辆销售主要以销售员人工销售为主,通过与客户的交谈,了解客户的需求,并基于自身对各种车辆的了解,再向客户推荐合适的车辆。这种销售模式,很大程度依赖销售人员的经验以及主观意见,存在较大的不确定性;并且前期需要对销售人员进行较长时间的培训,时间和人力成本较高。
发明内容
本申请实施例提供了一种车辆推荐方法,用于实现智能推荐,降低成本并提高推荐的准确性。
本申请实施例提供了一种车辆推荐方法,所述方法包括:
获取包含多组样本数据的样本数据集;
针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性;
从所述多种算法模型中选取所述预测准确性最高的目标算法,并利用所述目标算法训练得到车辆匹配模型;
将目标用户的用户特征输入所述车辆匹配模型,输出车辆特征与所述目标用户的用户特征匹配的车辆类型。
在一实施例中,所述获取包含多组样本数据的样本数据集,包括:
获取多组样本原始数据;
对所述样本原始数据依次进行数据清洗、特征选择以及归一化处理,形成包含多组样本数据的样本数据集。
在一实施例中,所述进行数据清洗的步骤包括:
统计所述多组样本原始数据中不同特征字段的特征值缺失比例;
根据不同特征字段的特征值缺失比例,去除所述多组样本原始数据中特征值缺失比例大于第一阈值的特征字段。
在一实施例中,所述去除所述多组样本原始数据中特征值缺失比例大于第一阈值的特征字段之后,所述方法还包括:
通过独热编码方式对所述多组样本原始数据中的类别型特征数据进行数据转换。
在一实施例中,所述特征选择的步骤包括:
通过相关系数法从所述多组样本原始数据中筛选出与人车匹配相关的用户特征和车辆特征;
通过递归特征消除法保留使模型准确率大于第二阈值的用户特征和车辆特征。
在一实施例中,所述通过递归特征消除法保留使模型准确率大于第二阈值的用户特征和车辆特征之后,所述方法还包括:
通过主成分分析法对所述用户特征和车辆特征进行降维。
在一实施例中,所述针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性,包括:
将所述样本数据集划分为k个子集;
针对指定算法模型,将每个子集分别作为一次验证集,并利用剩余的k-1个子集对所述算法模型进行训练;
通过作为验证集的子集测试利用剩余k-1个子集训练得到的算法模型的准确率;
根据每个子集分别作为验证集时的准确率,计算所述指定算法模型的预测准确性。
本申请实施例还提供了一种车辆推荐装置,所述装置包括:
数据获取模块,用于获取包含多组样本数据的样本数据集;
算法评估模块,用于针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性;
模型训练模块,用于从所述多种算法模型中选取所述预测准确性最高的目标算法,并利用所述目标算法训练得到车辆匹配模型;
车辆推荐模块,用于将目标用户的用户特征输入所述车辆匹配模型,输出车辆特征与所述目标用户的用户特征匹配的车辆类型。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述车辆推荐方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述车辆推荐方法。
本申请上述实施例提供的技术方案,通过样本数据集评估每种算法模型的预测准确性,并选取预测准确性最高的目标算法训练车辆匹配模型,利用训练得到的车辆匹配模型根据目标用户的用户特征,得到与目标用户匹配的车辆类型,从而无需人工凭借经验推荐车辆,降低了人力成本,提高了推荐结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的车辆推荐方法的应用场景示意图;
图2为本申请实施例提供的电子设备的框架示意图;
图3为本申请实施例提供的一种车辆推荐方法的流程示意图;
图4为图3对应实施例中步骤S320的细节流程图;
图5为模型收敛的效果示意图;
图6为本申请实施例提供的车辆推荐装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的车辆推荐方法的应用场景示意图。如图1所示,该应用场景包括:客户端120以及服务端110,客户端120可以是手机、平板电脑、笔记本电脑或台式电脑,服务端110可以是服务器、服务器集群或云计算中心。客户端120与服务端110之间通过有线或无线网络连接。服务端110从客户端120接收目标用户的用户特征,采用本申请实施例提供的方法,确定与目标用户匹配的车辆类型,进而向客户端120发送与目标用户匹配的车辆类型,客户端120可以进行车辆类型的展示。
图2为本申请实施例提供的电子设备的框架示意图。所述电子设备200包括:处理器201;用于存储处理器201可执行指令的存储器202;所述处理器201被配置为执行本申请实施例提供的车辆推荐方法。
存储器202可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器中还存储有多个模块,分别借由该处理器执行,以完成下述车辆推荐方法步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成本申请实施例提供的车辆推荐方法。
图3是本申请实施例提供的一种车辆推荐方法的流程示意图。如图3所示,所述方法包括以下步骤S310-S340。
步骤S310:获取包含多组样本数据的样本数据集。
其中,一组样本数据可以包括用户特征、车辆特征以及相应的用户选择。用户特征可以包括用户画像和/或行为数据。车辆特征可以包括车辆颜色、发动机转速、是否有辅助驾驶功能、是否有自动泊车功能、轴距、车灯类型等。用户选择是指用户特征对应的用户是否会喜欢车辆特征对应的车辆。举例来说,喜欢可以记为1,不喜欢可以记为0。样本数据集是指所有样本数据构成的集合,样本数据集合可以包括不同用户的用户特征以及不同类型车辆的车辆特征,以及不同用户对不同类型车辆的喜好。样本数据集可以提前存储在服务端本地,可以由服务端从其他终端设备获取得到。
步骤S320:针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性。
在一实施例中,多种算法模型可以包括lasso算法和xgboost算法,可以从样本数据集中取出部分数据作为验证集,剩余数据作为训练集,利用训练集分别训练lasso算法和xgboost算法的参数,训练得到的模型称为lasso模型和xgboost模型,利用验证集评估lasso模型和xgboost模型的准确性,从而可以确定lasso算法和xgboost算法哪个算法更优。
在一实施例中,如图4所示,上述步骤S320可以包括以下步骤S321-步骤S324。
步骤S321:将所述样本数据集划分为k个子集。
其中,k大于等于2,也就是将样本数据集分为至少两个子集。实际操作时一般从3开始取,只有在样本数据集数据量少的时候才会尝试取2。
步骤S322:针对指定算法模型,将每个子集分别作为一次验证集,并利用剩余的k-1个子集对所述算法模型进行训练。
指定算法模型是指多个算法模型的每一个算法模型。假设存在k个子集,依次标记为1、2……k,以lasso算法举例来说,可以将第1个子集作为验证集,2~k个子集作为训练集,训练lasso算法的参数,得到模型1,将第2个子集作为验证集,第1、3~k个子集作为训练集,训练lasso算法的参数,得到模型2,依次类推,最后将第k个子集作为验证集,第1~k-1个子集作为训练集,得到模型k。模型的输入可以是用户特征和车辆特征,输出结果是匹配率。可以将用户选择是喜欢的用户特征和车辆特征作为正样本,用户选择是不喜欢的用户特征和车辆特征作为负样本。训练的目标是使正样本的匹配率接近1,负样本的匹配率接近0。
步骤S323:通过作为验证集的子集测试利用剩余k-1个子集训练得到的算法模型的准确率。
举例来说,可以利用第1个子集验证得到模型1的准确率,第2个子集验证得到模型2的准确率,第3个子集验证得到模型3的准确率,以此类推,第k个子集验证得到模型k的准确率。验证又可以称为测试,即将验证集中已知用户选择的用户特征和车辆特征作为训练得到的算法模型的输入,判断算法模型的输出是否与用户选择相同。其中,模型的准确率可以是验证集中输出结果正确的样本数量占总样本的比例。在其他实施例中,模型的准确率也可以用召回率表示,即正样本预测正确的比例。
步骤S324:根据每个子集分别作为验证集时的准确率,计算所述指定算法模型的预测准确性。
举例来说可以计算k个子集对应的准确率的均值,作为指定算法模型的预测准确性。通过上述过程,可以计算lasso算法的预测准确性、xgboost算法的预测准确性。
步骤S330:从所述多种算法模型中选取所述预测准确性最高的目标算法,并利用所述目标算法训练得到车辆匹配模型。
举例来说,假设lasso算法的预测准确性是90%,而xgboost算法的预测准确性是80%,可以将lasso算法作为预测准确性最高的目标算法。目标算法是指多个算法模型中预测准确性最高的算法模型,为进行区分,称为目标算法。假设lasso算法是预测准确性最高的目标算法,可以采集样本数据集重新对lasso算法进行训练。为进行区分,经过参数优化后的目标算法可以称为车辆匹配模型。
步骤S340:将目标用户的用户特征输入所述车辆匹配模型,输出车辆特征与所述目标用户的用户特征匹配的车辆类型。
其中,目标用户是指喜好车型未知的用户,用户特征可以包括用户画像和行为数据。可以将用户特征以及不同车型的车辆特征作为车辆匹配模型的输入,获得车辆匹配模型输出的匹配率,即用户特征与不同车型(例如宝马530、宝马520、宝马x5)的车辆特征的匹配率。匹配率最高时的车辆特征的车型,可以认为是与目标用户的用户特征匹配的车辆类型。
在一实施例中,还可以人工根据目标用户的用户特征,基于经验预测与目标用户匹配的车辆类型,服务端可以将通过车辆匹配模型确定的车辆类型以及人工确定的车辆类型发送到客户端,客户端可以进行两种车辆类型的显示,供客户端的用户做出选择,服务端接收到用户选择,可以生成新的样本数据,用于进一步优化车辆匹配模型。根据需要,还可以计算模型匹配以及人工匹配的准确度,在样本数据不够多,模型匹配的准确度不够高时,可以暂时选择人工匹配方式,从而积累样本数据。
在一实施例中,上述步骤S310可以包括以下步骤:获取多组样本原始数据;对所述样本原始数据依次进行数据清洗、特征选择以及归一化处理,形成包含多组样本数据的样本数据集。
其中,样本原始数据是相对样本数据而言的,样本数据在进行数据清洗、特征选择以及归一化处理之前,可以称为样本原始数据。
数据清洗可以包括对样本原始数据中的用户特征和车辆特征进行过滤和数据编码。举例来说,可以设定数据过滤规则,去除样本原始数据中明显违背逻辑的数据,例如90岁的老人选择了一辆跑车。举例来说,数据编码可以是将红色车用100表示,黑色车用001表示,白色车用010表示。
特征选择是指从样本原始数据中选择跟人车匹配相关的特征,去除对模型的准确率没有贡献的特征。归一化处理是为了让不同维度的特征在数值上有一定比较性,可以大大提高模型的准确性和收敛速度。对类别型数据,不需要进行归一化。对于数值型数据可以采用min-max标准法,即采用公式x’=(x–min)/(max-min)进行归一化。举例来说,假设购车用户的最大年龄是90岁,最小年龄是10岁,某个样本的用户年龄是40岁,则可以将40作为x值代入上式,计算得到x’的值,作为此样本的年龄的归一化结果。对于线性模型来说,数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。从图5中可以看出,第一个图A是没有经过归一化的,在梯度下降的过程中,走的路径更加的曲折,而第二个图B明显路径更加平缓,收敛速度更快。
在一实施例中,数据清洗的步骤可以包括:统计所述多组样本原始数据中不同特征字段的特征值缺失比例;根据不同特征字段的特征值缺失比例,去除所述多组样本原始数据中特征值缺失比例大于第一阈值的特征字段。
其中,特征字段用于表示用户特征的种类、车辆特征的种类。举例来说,用户年龄、身高、体重、居住地、车辆颜色、重量、百米加速时间等分别表示一个特征字段。举例来说,假设某个样本用户的具体年龄缺失,可以认为年龄这个特征字段的特征值缺失。故某个特征字段的特征值缺失比例是指样本原始数据中该特征字段的特征值缺失的样本数量占总样本数量的比例。
在一实施例中,第一阈值可以是50%、60%或者其他数值,举例来说,假设第一阈值是50%,如果58%以上的样本用户均不存在“体重”这个特征字段的特征值,即“体重”这个特征字段的特征值缺失比例达到58%,大于设定的第一阈值,则可以去除样本原始数据中“体重”这个特征字段。
在一实施例中,如果某个特征字段的特征值缺失比例小于等于第一阈值,对于某个样本A缺失的特征值,可以根据相似样本B存在的特征值,填补此样本A缺失的特征值。相似样本B是指与样本A的特征字段的特征值相似的样本。
在一实施例中,在去除特征值缺失比例大于第一阈值的特征字段之后,本申请实施例提供的方法还包括:通过独热编码方式对所述多组样本原始数据中的类别型特征数据进行数据转换。
其中,类别型特征数据是指没有具体参数值,只有类别的特征数据。例如,男性和女性,只有类别没有具体的参数值;红色、白色、黑色和黄色也是类别型特征数据。独热编码即One-Hot编码,又称一位有效编码,举例来说,男性可以用10表示,女性用01表示。红色车辆可以用1000表示,白色车辆用0100表示,黑色车辆用0010表示,黄色车辆用0001表示。数据转换是指将类别型特征数据用数值的形式表示。
在一实施例中,所述特征选择的步骤包括:通过相关系数法从所述多组样本原始数据中筛选出与人车匹配相关的用户特征和车辆特征。通过递归特征消除法保留使模型准确率大于第二阈值的用户特征和车辆特征。
其中,相关系数法是指通过计算每个特征的p值统计量,通过判断p值是否小于0.05,p值小于0.05,则表明该特征显著影响人车匹配,从而选出跟人车匹配相关的特征。P值是:1)一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。2)拒绝原假设的最小显著性水平。3)观察到的(实例的)显著性水平。4)表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。P值的计算:一般地,用X表示检验的统计量,当H0为真时,可由样本数据计算出该统计量的值C,根据检验统计量X的具体分布,可求出P值。具体地说:左侧检验的P值为检验统计量X小于样本统计值C的概率,即:P=P{X<C}右侧检验的P值为检验统计量X大于样本统计值C的概率:P=P{X>C}。
递归特征消除法是指利用全部相关特征训练得到的模型,有一个准确率,把特征一个一个减少时训练得到的模型,分别有对应的准确率,再把一个特征一个特征逐步增加训练得到的模型,也有对应的准确率,从而知道单个特征对模型的准确率的影响情况。换句话说,通过递归消除法可以确定每个特征对模型准确性的影响情况,由此可以仅保留使模型的准确率大于第二阈值时的用户特征和车辆特征。
在所述通过递归特征消除法保留使模型准确率大于第二阈值的用户特征和车辆特征之后,本申请实施例提供的方法还包括:通过主成分分析法对所述用户特征和车辆特征进行降维。
PCA(principal components analysis)即主成分分析法,是指将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。k小于n,降维可以降低数据计算量,提高性能。
PCA过程:1)样本集矩阵X中心化;2)计算样本矩阵的协方差矩阵C;3)求样本集矩阵X的协方差矩阵C的特征值和特征向量;4)构建降维转换矩阵U,按照特征值最大的top k特征值对应的特征向量u1,u2,u3,u4,u5…uk组成U矩阵;5)有降维转换公式Z=XU求得X的降维矩阵Z。
经过上述特征工程处理,可以从样本原始数据中提取出样本数据集,利用样本数据集进行后续最优算法的选择以及最优模型的训练。
下述为本申请装置实施例,可以用于执行本申请上述车辆推荐方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请车辆推荐方法方法实施例。
图6为本申请一实施例示出的车辆推荐装置的框图,如图6所示,该装置包括:数据获取模块610、算法评估模块620、模型训练模块630以及车辆推荐模块640。
数据获取模块610,用于获取包含多组样本数据的样本数据集;
算法评估模块620,用于针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性;
模型训练模块630,用于从所述多种算法模型中选取所述预测准确性最高的目标算法,并利用所述目标算法训练得到车辆匹配模型;
车辆推荐模块640,用于将目标用户的用户特征输入所述车辆匹配模型,输出车辆特征与所述目标用户的用户特征匹配的车辆类型。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于车辆推荐方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种车辆推荐方法,其特征在于,所述方法包括:
获取包含多组样本数据的样本数据集;
针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性;
从所述多种算法模型中选取所述预测准确性最高的目标算法,并利用所述目标算法训练得到车辆匹配模型;
将目标用户的用户特征输入所述车辆匹配模型,输出车辆特征与所述目标用户的用户特征匹配的车辆类型。
2.根据权利要求1所述的方法,其特征在于,所述获取包含多组样本数据的样本数据集,包括:
获取多组样本原始数据;
对所述样本原始数据依次进行数据清洗、特征选择以及归一化处理,形成包含多组样本数据的样本数据集。
3.根据权利要求2所述的方法,其特征在于,所述进行数据清洗的步骤包括:
统计所述多组样本原始数据中不同特征字段的特征值缺失比例;
根据不同特征字段的特征值缺失比例,去除所述多组样本原始数据中特征值缺失比例大于第一阈值的特征字段。
4.根据权利要求3所述的方法,其特征在于,所述去除所述多组样本原始数据中特征值缺失比例大于第一阈值的特征字段之后,所述方法还包括:
通过独热编码方式对所述多组样本原始数据中的类别型特征数据进行数据转换。
5.根据权利要求2所述的方法,其特征在于,所述特征选择的步骤包括:
通过相关系数法从所述多组样本原始数据中筛选出与人车匹配相关的用户特征和车辆特征;
通过递归特征消除法保留使模型准确率大于第二阈值的用户特征和车辆特征。
6.根据权利要求5所述的方法,其特征在于,所述通过递归特征消除法保留使模型准确率大于第二阈值的用户特征和车辆特征之后,所述方法还包括:
通过主成分分析法对所述用户特征和车辆特征进行降维。
7.根据权利要求1所述的方法,其特征在于,所述针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性,包括:
将所述样本数据集划分为k个子集;
针对指定算法模型,将每个子集分别作为一次验证集,并利用剩余的k-1个子集对所述算法模型进行训练;
通过作为验证集的子集测试利用剩余k-1个子集训练得到的算法模型的准确率;
根据每个子集分别作为验证集时的准确率,计算所述指定算法模型的预测准确性。
8.一种车辆推荐装置,其特征在于,所述装置包括:
数据获取模块,用于获取包含多组样本数据的样本数据集;
算法评估模块,用于针对多种算法模型,利用所述样本数据集评估每种算法模型的预测准确性;
模型训练模块,用于从所述多种算法模型中选取所述预测准确性最高的目标算法,并利用所述目标算法训练得到车辆匹配模型;
车辆推荐模块,用于将目标用户的用户特征输入所述车辆匹配模型,输出车辆特征与所述目标用户的用户特征匹配的车辆类型。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的车辆推荐方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的车辆推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010708668.7A CN111861667A (zh) | 2020-07-21 | 2020-07-21 | 车辆推荐方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010708668.7A CN111861667A (zh) | 2020-07-21 | 2020-07-21 | 车辆推荐方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111861667A true CN111861667A (zh) | 2020-10-30 |
Family
ID=73001867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010708668.7A Pending CN111861667A (zh) | 2020-07-21 | 2020-07-21 | 车辆推荐方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111861667A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685641A (zh) * | 2020-12-31 | 2021-04-20 | 五八有限公司 | 一种信息处理方法及装置 |
CN113239964A (zh) * | 2021-04-13 | 2021-08-10 | 联合汽车电子有限公司 | 车辆数据的处理方法、装置、设备和存储介质 |
CN116579671A (zh) * | 2023-07-14 | 2023-08-11 | 新亿成科技(江苏)有限公司 | 一种自动匹配指标的绩效考核方法、系统、终端及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN108460651A (zh) * | 2018-01-04 | 2018-08-28 | 金瓜子科技发展(北京)有限公司 | 车辆推荐方法及装置 |
CN109300018A (zh) * | 2018-10-31 | 2019-02-01 | 深圳市元征科技股份有限公司 | 一种车辆智能推荐方法、装置、设备及存储介质 |
CN110413877A (zh) * | 2019-07-02 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 一种资源推荐方法、装置及电子设备 |
CN110458663A (zh) * | 2019-08-06 | 2019-11-15 | 上海新共赢信息科技有限公司 | 一种车辆推荐方法、装置、设备及存储介质 |
CN110533095A (zh) * | 2019-08-27 | 2019-12-03 | 中国民航大学 | 一种基于改进随机森林的航班飞行风险行为识别方法 |
CN111104153A (zh) * | 2019-12-03 | 2020-05-05 | 上海仙豆智能机器人有限公司 | 一种软件管理方法、系统及存储介质 |
CN111126603A (zh) * | 2019-12-25 | 2020-05-08 | 江苏远望仪器集团有限公司 | 基于神经网络模型的设备故障预测方法、装置及设备 |
WO2020111424A1 (ko) * | 2018-11-28 | 2020-06-04 | 주식회사 파이랩테크놀로지 | 태그 추천 모델을 이용한 자동화된 스마트 컨트랙트 태그 생성 및 추천 시스템 |
CN111275524A (zh) * | 2020-01-19 | 2020-06-12 | 北京众信易保科技有限公司 | 一种保险产品推荐方法和系统 |
CN111401941A (zh) * | 2020-03-06 | 2020-07-10 | 武汉大学 | 一种基于XGBoost推荐算法的车辆销量预测方法 |
-
2020
- 2020-07-21 CN CN202010708668.7A patent/CN111861667A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN108460651A (zh) * | 2018-01-04 | 2018-08-28 | 金瓜子科技发展(北京)有限公司 | 车辆推荐方法及装置 |
CN109300018A (zh) * | 2018-10-31 | 2019-02-01 | 深圳市元征科技股份有限公司 | 一种车辆智能推荐方法、装置、设备及存储介质 |
WO2020111424A1 (ko) * | 2018-11-28 | 2020-06-04 | 주식회사 파이랩테크놀로지 | 태그 추천 모델을 이용한 자동화된 스마트 컨트랙트 태그 생성 및 추천 시스템 |
CN110413877A (zh) * | 2019-07-02 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 一种资源推荐方法、装置及电子设备 |
CN110458663A (zh) * | 2019-08-06 | 2019-11-15 | 上海新共赢信息科技有限公司 | 一种车辆推荐方法、装置、设备及存储介质 |
CN110533095A (zh) * | 2019-08-27 | 2019-12-03 | 中国民航大学 | 一种基于改进随机森林的航班飞行风险行为识别方法 |
CN111104153A (zh) * | 2019-12-03 | 2020-05-05 | 上海仙豆智能机器人有限公司 | 一种软件管理方法、系统及存储介质 |
CN111126603A (zh) * | 2019-12-25 | 2020-05-08 | 江苏远望仪器集团有限公司 | 基于神经网络模型的设备故障预测方法、装置及设备 |
CN111275524A (zh) * | 2020-01-19 | 2020-06-12 | 北京众信易保科技有限公司 | 一种保险产品推荐方法和系统 |
CN111401941A (zh) * | 2020-03-06 | 2020-07-10 | 武汉大学 | 一种基于XGBoost推荐算法的车辆销量预测方法 |
Non-Patent Citations (3)
Title |
---|
何龙: "《深入理解XGBoost高效机器学习算法与进阶》", 31 January 2020, 机械工业出版社, pages: 303 - 304 * |
雷炳业;潘嘉瑜;吴逢春;陆小兵;宁玉萍;陈军;吴凯;: "基于机器学习的神经精神疾病辅助诊断研究进展", 中国医学物理学杂志, no. 02, pages 131 - 138 * |
黄继婷;陈建兵;陈平华;: "融合偏好度与网络结构的推荐算法", 计算机工程与应用, no. 10, pages 14 - 20 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685641A (zh) * | 2020-12-31 | 2021-04-20 | 五八有限公司 | 一种信息处理方法及装置 |
CN113239964A (zh) * | 2021-04-13 | 2021-08-10 | 联合汽车电子有限公司 | 车辆数据的处理方法、装置、设备和存储介质 |
CN113239964B (zh) * | 2021-04-13 | 2024-03-01 | 联合汽车电子有限公司 | 车辆数据的处理方法、装置、设备和存储介质 |
CN116579671A (zh) * | 2023-07-14 | 2023-08-11 | 新亿成科技(江苏)有限公司 | 一种自动匹配指标的绩效考核方法、系统、终端及存储介质 |
CN116579671B (zh) * | 2023-07-14 | 2024-01-02 | 新亿成科技(江苏)有限公司 | 一种自动匹配指标的绩效考核方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111861667A (zh) | 车辆推荐方法及装置、电子设备、存储介质 | |
CN106485562B (zh) | 一种基于用户历史行为的商品信息推荐方法及系统 | |
CN113255815B (zh) | 用户行为异常分析方法、装置、设备及存储介质 | |
CN108665311B (zh) | 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法 | |
US20160180264A1 (en) | Retention risk determiner | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN108470194B (zh) | 一种特征筛选方法及装置 | |
CN112396428B (zh) | 一种基于用户画像数据的客群分类管理方法及装置 | |
CN110766075A (zh) | 轮胎区域图像比对方法、装置、计算机设备和存储介质 | |
CN114926299A (zh) | 一种基于大数据分析的预测车辆事故风险预测方法 | |
CN111506798A (zh) | 用户筛选方法、装置、设备及存储介质 | |
CN112464409B (zh) | 车辆性能参数设定方法及装置 | |
CN110717787A (zh) | 一种用户的分类方法及装置 | |
CN112949592B (zh) | 高光谱图像的分类方法、装置和电子设备 | |
CN114943290A (zh) | 一种基于多源数据融合分析的生物入侵识别方法 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN113313582A (zh) | 拒客回捞模型训练方法、装置及电子设备 | |
CN112927092A (zh) | 理赔趋势预测方法、装置、设备及存储介质 | |
CN112634268A (zh) | 一种视频质量评价方法、装置及电子设备 | |
CN113344747A (zh) | 一种基于潜分类Logit模型的旅游景点吸引力评估方法 | |
CN114548620A (zh) | 物流准时保业务推荐方法、装置、计算机设备和存储介质 | |
CN111340533A (zh) | 基于机器学习的汽车客户画像分析方法、系统及存储介质 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
CN117094814A (zh) | 客户还款的风险预警方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |