CN107622409B

CN107622409B - 购车能力的预测方法和预测装置

Info

Publication number: CN107622409B
Application number: CN201610561299.7A
Authority: CN
Inventors: 贾东
Original assignee: Beijing Chehui Technology Co ltd
Current assignee: Beijing Chehui Technology Co ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2020-05-15
Anticipated expiration: 2036-07-15
Also published as: CN107622409A

Abstract

本发明提供了一种购车能力的预测方法和预测装置，该预测方法包括：基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；通过预设的过滤规则对所述原始训练特征数据进行过滤处理，以获取训练特征数据；根据所述训练特征数据构建预测模型；根据所述预测模型对待预测的用户的购车特征数据进行预测。本发明的技术方案通过预测模型实现对反映购车能力的购车特征数据的自动化分级；实现了用户购车能力的自动化预测，大大降低了预测过程所花费的人力和时间成本；同时提高对反映购车能力的购车特征数据的预测准确率。

Description

购车能力的预测方法和预测装置

技术领域

本发明涉及数据挖掘领域，具体而言，本发明涉及一种购车能力的预测方法和预测装置。

背景技术

近来，我国汽车销量正在缓慢增长，面对我国车市整体增速缓慢的局面，我国的汽车销售行业竞争也愈演愈烈，在如此激烈的市场竞争环境中，如何精确制定汽车营销方案成为了提高行业竞争力的关键。

目前，我国购车网站的浏览日志数量非常庞大，在这些浏览日志中记录了用户对购车网站的访问行为数据，为了实现精细化的运营，需根据浏览日志准确挖掘潜在的购车用户，而潜在的购车用户是通过预测其购车能力来确定的。现有的对用户购车能力的预测主要依据预定的预测规则人工完成，但对于海量的购车网站浏览日志，人工预测具有较大的主观随意性，会造成预测结果类别过于集中，且预测结果的准确性不高的问题。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的实施例提出了一种购车能力的预测预测方法，包括：

基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；

通过预设的过滤规则对原始训练特征数据进行过滤处理，以获取训练特征数据；

根据训练特征数据构建预测模型；

根据预测模型对待预测的用户的购车特征数据进行预测。

优选地，基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据，包括：

对用户购车信息数据和用户购车行为数据进行整合处理，以生成基础变量；

针对每一用户，基于预定的特征构造维度对相应的基础变量进行数据处理，以生成构造变量；

基于获取到的构造变量构造针对每一用户的原始训练特征数据。

更优选地，其中，预定的特征构造维度包括：预定时长内的总页面访问次数和预定时长内的在不同价格区间的页面访问次数和/或预定时长内的在不同价格区间的点击次数。

优选地，预设的过滤规则包括以下至少一项：

对用户的cookie信息不符合预定标识格式的原始训练特征数据进行过滤；

对用户的点击次数属于预定异常值的原始训练特征数据进行过滤；

对用户的页面访问次数小于预定次数阈值的原始训练特征数据进行过滤。

优选地，预测方法还包括：

根据购车交易业务类型，将用户的购车能力基于用户购车信息数据进行分级；

其中，根据训练特征数据构建预测模型，包括：

基于对用户的购车能力的分级结果，确定获取到的训练特征数据相应的级别；

根据训练特征数据，并结合与训练特征数据相应的级别，来构建预测模型。

优选地，预测方法还包括：

根据原始训练特征数据进行原始特征的提取，并确定每一特征分类下的原始特征数据的特征分类相关度；

根据特征分类相关度对原始特征数据进行选择，以获取训练特征数据。

更优选地，选取特征分类相关度大于预定的相关度阈值的每一特征分类下的原始特征数据作为训练特征数据。

优选地，预测方法还包括：

对获取到的训练特征数据进行去重以及数据平衡化处理。

优选地，根据训练特征数据构建预测模型，包括：

根据训练特征数据，依据多元逻辑回归模型来构建预测模型。

本发明的另一实施例提出了一种购车能力的预测装置，包括：

数据构造模块，用于基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；

数据过滤模块，用于通过预设的过滤规则对原始训练特征数据进行过滤处理，以获取训练特征数据；

构建模块，用于根据训练特征数据构建预测模型；

预测模块，用于根据预测模型对待预测预测的用户的购车能力进行预测。

优选地，数据构造模块包括：

基础变量生成单元，用于对用户购车信息数据和用户购车行为数据进行整合处理，以生成基础变量；

构造变量生成单元，用于针对每一用户，基于预定的特征构造维度对相应的基础变量进行数据处理，以生成构造变量；

原始训练特征数据构造单元，用于基于获取到的构造变量构造针对每一用户的原始训练特征数据。

优选地，预设的过滤规则包括以下至少一项：

对用户的点击次数属于预定异常值的原始训练特征数据进行过滤；对用户的页面访问次数小于预定次数阈值的原始训练特征数据进行过滤。

优选地，预测装置还包括：

分级模块，用于根据购车交易业务类型，将用户的购车能力基于用户购车信息数据进行分级；

构建模块，用于基于对用户的购车能力的分级结果，确定获取到的训练特征数据相应的级别；

优选地，预测装置还包括：

提取模块，用于根据原始训练特征数据进行原始特征的提取，并确定每一特征分类下的原始特征数据的特征分类相关度；

选择模块，用于根据特征分类相关度对原始特征数据进行选择，以获取训练特征数据。

更优选地，选择模块包括：

获取单元，用于选取特征分类相关度大于预定的相关度阈值的每一特征分类下的原始特征数据作为训练特征数据。

优选地，预测装置还包括：

数据处理模块，用于对获取到的训练特征数据进行去重以及数据平衡化处理。

优选地，构建模块用于根据训练特征数据，依据多元逻辑回归模型来构建预测模型。

本发明的技术方案通过构造原始训练特征数据，并对该原始训练特征数据进行过滤处理，作为构建的预测模型的训练特征数据；通过预测模型实现对反映购车能力的购车特征数据的自动化分级；实现了用户购车能力的自动化预测，大大降低了预测过程所花费的人力和时间成本；同时提高对反映购车能力的购车特征数据的预测准确率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明中一个实施例的购车能力的预测方法的流程示意图；

图2为本发明的具体实施例中构造原始训练特征数据的流程示意图；

图3为本发明的具体实施例中基础变量和构造变量的示意图；

图4为本发明的具体实施例中构建预测模型的流程示意图；

图5为本发明中另一实施例的购车线索交易转化的预测装置的结构框架示意图；

图6为本发明的具体实施例的中数据构造模块的结构框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

图1为本发明中一个实施例的购车能力的预测方法的流程示意图

步骤S101：基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；步骤S102：通过预设的过滤规则对原始训练特征数据进行过滤处理，以获取训练特征数据；步骤S103：根据训练特征数据构建预测模型；步骤S104：根据预测模型对待预测的用户的购车特征数据进行预测。

本发明的方案中，通过构造原始训练特征数据，并对该原始训练特征数据进行过滤处理，作为构建的预测模型的训练特征数据；通过预测模型实现对反映购车能力的购车特征数据的自动化分级；实现了用户购车能力的自动化预测，大大降低了预测过程所花费的人力和时间成本；同时提高对反映购车能力的购车特征数据的预测准确率。

以下针对各个步骤的具体实现做进一步的说明：

步骤S101：基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；如图2所示，构造原始训练特征数据步骤具体包括：步骤S201：对用户购车信息数据和用户购车行为数据进行整合处理，以生成基础变量；步骤S202：针对每一用户，基于预定的特征构造维度对相应的基础变量进行数据处理，以生成构造变量；步骤S203：基于获取到的构造变量构造针对每一用户的原始训练特征数据。

首先，获取预定历史时间段内的用户购车信息数据和用户购车行为数据。

其中，用户购车信息数据包括但不限于：用户ID、用户姓名、用户所在地和用户年龄。

具体地，获取用户购车信息数据的方式可包括：获取各个用户在购车网站的账号信息，并基于账号信息在购车网站的用户信息库中查询以确定各个用户的用户购车信息数据。

其中，用户购车行为数据包括但不限于：用户访问的车辆页面所显示的车辆价格、用户对同一辆车的页面访问次数和用户访问车辆页面的时间。

具体地，获取用户购车行为的方式可包括：接收到各用户终端上传的cookie信息，获取到cookie中包括的由购车网站的网络服务器生成的该用户的浏览日志，读取该用户的浏览日志以获取该用户访问该购车网站的历史行为记录，从而提取到该用户的用户购车行为数据。

图3示出了本实施例中基础变量和构造变量的示意图，其中，基础变量包括但不限于：用户ID、用户姓名、用户所在地、用户年龄、用户访问的车辆页面所显示的车辆价格、用户对同一辆车的页面访问次数和用户访问车辆页面的时间。

预定的特征构造维度包括：预定时长内的总页面访问次数和预定时长内的在不同价格区间的页面访问次数和/或预定时长内的在不同价格区间的点击次数。

构造变量包括但不限于：用户在预定历史时间内访问页面量总次数、用户在预定历史时间内访问不同价格区间的页面次数和用户在预定历史时间内访问不同价格区间的页面次数。

例如，服务器接收到各用户终端上传的cookie信息，通过读取cookie信息获取到任一用户在购车网站的账号信息和该用户的浏览日志，基于该账号信息在预存的用户信息库中查询以确定该用户的用户购车信息数据，并通过该用户的浏览日志提取到该用户的用户购车行为数据，基于用户购车行为数据进行计算处理以确定该用户在前三个月内访问的所有车系对应的最高价格的访问次数和最低价格的访问次数，从而生成基础变量；基于该用户在前三个月内访问的所有车系对应的最高价格和最低价格的平均值来确定与该用户对应的所访问的车系所在的价格区间，并根据预定的特征构造维度，如预定时长内的总页面访问次数、预定时长内的在不同价格区间的页面访问次数、预定时长内的在不同价格区间的点击次数，来计算确定所有车系对应的最高价格的访问次数和最低价格的访问次数的平均值为与该用户对应的所访问的车系所在的价格区间的访问次数，并将该访问次数作为构造变量；例如用户所访问的车系在0-5万价格区间的访问次数为10次，该构造变量构成了该用户的一条原始训练特征数据。通过步骤S201、步骤S202和步骤S203使得获取到的原始训练特征数据范围更为广泛和准确；进一步使得商家更加准确的了解消费者的购车需求和习惯，有助于商家实现精确营销方案的制定。

步骤S102：通过预设的过滤规则对原始训练特征数据进行过滤处理，以获取训练特征数据。

具体地，预设的过滤规则包括以下至少一项：对用户的cookie信息不符合预定格式的原始训练特征数据进行过滤；对用户的点击次数属于预定异常值的原始训练特征数据进行过滤；对用户的页面访问次数小于预定次数阈值的原始训练特征数据进行过滤。

例如，过滤掉用户的cookie信息的长度不符合其有效长度32位的原始训练特征数据；过滤掉针对车系各价格区间的用户点击次数均为0的原始训练特征数据；过滤掉针对用户的页面访问次数小于预定次数阈值的原始训练特征数据。本实施例中，由于原始训练特征数据中的部分数据无法良好的反应潜在购车者的关注倾向，通过过滤处理的原始训练特征数据将该部分数据滤除，减小原始训练特征数据量的大小，减小原始训练特征数据占用的内存，保留的可用原始训练特征数据可进一步为后续模型建立以及模型训练提供较好的数据输入，同时可提高计算速度。

优选地，预测方法还包括：根据购车交易业务类型，将用户的购车能力基于用户购车信息数据进行分级。

其中，购车交易业务类型包括但不限于：商家电话回访、商家邮件回访和用户购车的付款订单。

具体地，通过购车交易业务类型确定该用户是否购车以及购车的价格，根据购车的价格所在的价格区间将该用户的购车能力进行分级。例如，将用户购车的能力划分为：一级、二级、三级、四级、五级和六级；其中，购买的车辆价格为40万以上的用户，其购车能力为一级，购买的车辆价格为25至40万的用户，其购车能力为二级，购买的车辆价格为18至25万的用户，其购车能力为三级，购买的车辆价格为12至18万的用户，其购车能力为四级，购买的车辆价格为8至12万的用户，其购车能力为五级，购买的车辆价格为8万以下的用户，其购车能力为六级。通过根据购车交易业务类型，将用户的购车能力基于用户购车信息数据进行分级，明确预测模型的训练目的。

步骤S103：根据训练特征数据构建预测模型；如图4所示，构建预测模型的步骤具体包括：步骤S301：基于对用户的购车能力的分级结果，确定获取到的训练特征数据相应的级别；步骤S302：根据训练特征数据，并结合与训练特征数据相应的级别，来构建预测模型。

例如，基于用户的购车能力的分级结果：一级、二级、三级、四级、五级和六级，确定获取到的训练特征数据相应的级别。根据训练特征数据，并结合与训练特征数据相应的级别，构建预测模型。

优选地，根据训练特征数据构建预测模型方法，进一步包括：根据训练特征数据，依据多元逻辑回归模型来构建预测模型。

其中，多元逻辑回归模型的公式如下：

其中，π_j＝P(y＝j)为多元逻辑回归模型对样本y判别属于第j类的概率；α₁,α₂,…α_k-1,β_ij(i＝1,2,…,k-1,j＝1,2,…,p)为模型待估计系数；X₁,X₂,…X_p为特征变量，p为特征变量个数。

具体地，当训练特征数据的样本输入到多元逻辑回归模型时，多元逻辑回归模型会计算出该样本属于正类的概率，当这个概率大于分级阈值P时，把该样本归为正类，否则归为负类。其中，低价车为正类，高价车为负类；根据需求将低价车继续进行分级和将高价车继续进行分级，直到符合预定的用户的购车能力的分级结果：一级、二级、三级、四级、五级和六级。最终得到训练好的多元逻辑回归模型。在构建预测模型时发明人尝试了多种预测模型，包括纠错输出编码(ecoc)模型、集成学习(Ensemble)模型以及多元逻辑回归模型，由于前面两种预测模型实现起来比较复杂，最后综合考虑预测模型效果和易用性，选择多元逻辑回归模型作为构建预测模型的依据。

优选地，预测方法还包括：根据原始训练特征数据进行原始特征的提取，并确定每一特征分类下的原始特征数据的特征分类相关度；根据特征分类相关度对原始特征数据进行选择，以获取训练特征数据。

具体地，对原始训练特征数据进行分词并去除分词停用词，以对原始训练特征数据进行原始特征数据的提取；基于每一特征分类下的原始特征数据在各个级别的分布率，确定特征分类相关度。例如，通过统计算法确定每一特征分类下的原始特征数据在各个级别下的分布率，并基于权重算法确定特征分类相关度。

具体地，选取特征分类相关度大于预定的相关度阈值的每一特征分类下的原始特征数据作为训练特征数据。例如，当用户在预定历史时间内访问不同价格区间的页面次数的特征数据的特征分类相关度大于预定的相关度阈值，则将用户在预定历史时间内访问不同价格区间的页面次数的特征数据作为训练特征数据。同时进行根据特征分类相关度对原始特征数据进行选择的步骤和对原始训练特征数据进行过滤处理的步骤，大大减小特征数据量的大小，选取能够将用户的购车能力划分的更为有效和精确的特征数据，同时也为后续步骤的模型建立以及模型训练提高了计算速度。

优选地，预测方法还包括：对获取到的训练特征数据进行去重以及数据平衡化处理，例如通过simhash算法对训练特征数据进行去重，通过抽样法对训练特征数据进行平衡化处理。

步骤S104：根据预测模型对待预测的用户的购车特征数据进行预测。

其中，待预测的用户的购车特征数据包括待预测的用户的用户购车信息数据与用户购车行为数据。

具体地，将待预测的用户的购车特征数据输入到预测模型中，获取反映该待预测的用户购车能力的待预测的用户的购车特征数据的分级。其中，通过多元逻辑回归模型进行预测效果如下表1所示：

表1

数据集	准确率	精确率	召回率	F1
					训练集	0.90064438	0.95633020	0.8419727	0.89551538
测试集	0.89438202	0.95477266	0.8472567	0.87018182

其中，召回率为：被多元逻辑回归模型预测为正类的正样本/实际所有的正样本；准确率为：(多元逻辑回归模型预测为正类的正样本+多元逻辑回归模型预测为负类的负样本)/(实际所有的正样本+实际所有的负样本)；精确率为：多元逻辑回归模型预测为正类的正样本/全体样本数；F-score为：召回率和精确率的调和平均值；这几个指标越接近1说明预测效果越好。

本发明的预测方法不但实现了对购车线索交易转化的自动化分类，更进一步精确了商家的后续制定销售计划。

图5为本发明中另一实施例的购车线索交易转化的预测装置的结构框架示意图。

数据构造模块501，基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；数据过滤模块502，通过预设的过滤规则对原始训练特征数据进行过滤处理，以获取训练特征数据；构建模块503，根据训练特征数据构建预测模型；预测模块504，根据预测模型对待预测的用户的购车能力进行预测。

以下针对各个模块的具体实现做进一步的说明：

数据构造模块501，基于用户购车信息数据和用户购车行为数据来构造原始训练特征数据；如图6所示，数据构造模块501进一步包括：基础变量生成单元601，对用户购车信息数据和用户购车行为数据进行整合处理，以生成基础变量；构造变量生成单元602，针对每一用户，基于预定的特征构造维度对相应的基础变量进行数据处理，以生成构造变量；原始训练特征数据构造单元603，基于获取到的构造变量构造针对每一用户的原始训练特征数据。

首先，基础变量生成单元601获取预定历史时间段内的用户购车信息数据和用户购车行为数据。

具体地，获取用户购车信息数据的方式可包括：获取各个用户在购车网站的账号信息，并基于账号信息在购车网站的用户信息库中查询以确定各个用户的用户购车信息数据。其中，用户购车行为数据包括但不限于：用户访问的车辆页面所显示的车辆价格、用户对同一辆车的页面访问次数和用户访问车辆页面的时间。

获取用户购车行为的方式可包括：接收到各用户终端上传的cookie信息，获取到cookie中包括的由购车网站的网络服务器生成的该用户的浏览日志，读取该用户的浏览日志以获取该用户访问该购车网站的历史行为记录，从而提取到该用户的用户购车行为数据。

例如，基础变量生成单元601服务器接收到各用户终端上传的cookie信息，通过读取cookie信息获取到任一用户在购车网站的账号信息和该用户的浏览日志，基于该账号信息在预存的用户信息库中查询以确定该用户的用户购车信息数据，并通过该用户的浏览日志提取到该用户的用户购车行为数据，基于用户购车行为数据进行计算处理以确定该用户在前三个月内访问的所有车系对应的最高价格的访问次数和最低价格的访问次数，从而生成基础变量；构造变量生成单元602基于该用户在前三个月内访问的所有车系对应的最高价格和最低价格的平均值来确定与该用户对应的所访问的车系所在的价格区间，并根据预定的特征构造维度，如预定时长内的总页面访问次数、预定时长内的在不同价格区间的页面访问次数、预定时长内的在不同价格区间的点击次数，来计算确定所有车系对应的最高价格的访问次数和最低价格的访问次数的平均值为与该用户对应的所访问的车系所在的价格区间的访问次数，并将该访问次数作为构造变量；例如用户所访问的车系在0-5万价格区间的访问次数为10次，该构造变量构成了原始训练特征数据构造单元603的该用户的一条原始训练特征数据。通过步骤S201、步骤S202和步骤S203使得获取到的原始训练特征数据范围更为广泛和准确；进一步使得商家更加准确的了解消费者的购车需求和习惯，有助于商家实现精确营销方案的制定。

数据过滤模块502，通过预设的过滤规则对原始训练特征数据进行过滤处理，以获取训练特征数据。

具体地，预设的过滤规则包括以下至少一项：对用户的cookie信息不符合预定格式的原始训练特征数据进行过滤；对用户的点击次数属于预定异常值的原始训练特征数据进行过滤；对用户的页面访问次数小于预定次数阈值的原始训练特征数据进行过滤。本实施例中，由于原始训练特征数据中的部分数据无法良好的反应潜在购车者的关注倾向，通过过滤处理的原始训练特征数据将该部分数据滤除，减小原始训练特征数据量的大小，减小原始训练特征数据占用的内存，保留的可用原始训练特征数据可进一步为后续模型建立以及模型训练提供较好的数据输入，同时可提高计算速度。优选地，预测装置还包括：分级模块，根据购车交易业务类型，将用户的购车能力基于用户购车信息数据进行分级。

具体地，分级模块通过购车交易业务类型确定该用户是否购车以及购车的价格，根据购车的价格所在的价格区间将该用户的购车能力进行分级。例如，分级模块将用户购车的能力划分为分为：一级、二级、三级、四级、五级和六级；其中，购买的车辆价格为40万以上的用户，其购车能力为一级，购买的车辆价格为25至40万的用户，其购车能力为二级，购买的车辆价格为18至25万的用户，其购车能力为三级，购买的车辆价格为12至18万的用户，其购车能力为四级，购买的车辆价格为8至12万的用户，其购车能力为五级，购买的车辆价格为8万以下的用户，其购车能力为六级。通过分级模块，根据购车交易业务类型，将用户的购车能力基于用户购车信息数据进行分级，明确预测模型的训练目的。

构建模块503，根据训练特征数据构建预测模型。

具体地，构建模块503基于对用户的购车能力的分级结果，确定获取到的训练特征数据相应的级别；根据训练特征数据，并结合与训练特征数据相应的级别，来构建预测模型。

优选地，构建模块503根据训练特征数据，依据多元逻辑回归模型来构建预测模型。

其中，多元逻辑回归模型的公式如下：

具体地，当训练特征数据的样本输入到构建模块503中的多元逻辑回归模型时，多元逻辑回归模型会计算出该样本属于正类的概率，当这个概率大于分级阈值P时，把该样本归为正类，否则归为负类。其中，低价车为正类，高价车为负类；根据需求将低价车继续进行分级，将高价车继续进行分级，直到符合预定的用户的购车能力的分级结果：一级、二级、三级、四级、五级和六级。最终得到训练好的多元逻辑回归模型。在构建模块503中的构建预测模型时发明人尝试了多种预测模型，包括纠错输出编码(ecoc)模型、集成学习(Ensemble)模型以及多元逻辑回归模型，由于前面两种预测模型实现起来比较复杂，最后综合考虑预测模型效果和易用性，选择多元逻辑回归模型作为构建预测模型的依据。

优选地，预测装置还包括：提取模块，根据原始训练特征数据进行原始特征的提取，并确定每一特征分类下的原始特征数据的特征分类相关度；选择模块，根据特征分类相关度对原始特征数据进行选择，以获取训练特征数据。

具体地，提取模块对原始训练特征数据进行分词并去除分词停用词，以对原始训练特征数据进行原始特征数据的提取；基于每一特征分类下的原始特征数据在各个级别的分布率，确定特征分类相关度。例如，通过统计算法确定每一特征分类下的原始特征数据在各个级别下的分布率，并基于权重算法确定特征分类相关度。

具体地，选择模块包括：获取单元，选取特征分类相关度大于预定的相关度阈值的每一特征分类下的原始特征数据作为训练特征数据。例如，当用户在预定历史时间内访问不同价格区间的页面次数的特征数据的特征分类相关度大于预定的相关度阈值，则获取单元将用户在预定历史时间内访问不同价格区间的页面次数的特征数据作为训练特征数据。提取模块、选择模块和数据过滤模块502分别同时进行与其对应的根据特征分类相关度对原始特征数据进行选择和对原始训练特征数据进行过滤处理，大大减小特征数据量的大小，选取能够将用户的购车能力划分的更为有效和精确的特征数据，同时也为后续步骤的模型建立以及模型训练提高了计算速度。

优选地，预测装置还包括：数据处理模块，对获取到的训练特征数据进行去重以及数据平衡化处理。例如，通过simhash算法对训练特征数据进行去重，通过抽样法对训练特征数据进行平衡化处理。

预测模块504，根据预测模型对待预测的用户的购车能力进行预测。

具体地，预测模块504将待预测的用户的购车特征数据输入到预测模型中，获取反映该待预测的用户购车能力的待预测的用户的购车特征数据的分级。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。