CN107622410A

CN107622410A - 购车线索质量的评级方法和评级装置

Info

Publication number: CN107622410A
Application number: CN201610561866.9A
Authority: CN
Inventors: 贾东; 宋丹丹
Original assignee: BEIJING YICHE INTERNET INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING YICHE INTERNET INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2018-01-23

Abstract

本发明提供了一种购车线索质量的评级方法和评级装置，评级方法包括对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据；对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据；根据训练特征数据构建分级模型；根据分级模型对待分级的用户购车线索数据进行分级。本发明方案通过对分级模型实现对购车线索质量的自动化分级；降低对购车线索分级所花费的人力和时间成本；同时提高购车线索质量分级的效率和准确率。

Description

购车线索质量的评级方法和评级装置

技术领域

本发明涉及数据挖掘领域，具体而言，本发明涉及一种购车线索质量的评级方法和评级装置。

背景技术

近来，我国汽车销量正在缓慢增长，面对我国车市整体增速缓慢的局面，我国的汽车销售行业竞争也愈演愈烈，在如此激烈的市场竞争环境中，商家想要更敏锐的捕捉到客户，就需要更精准的获得质量佳的购车线索。

目前，我国汽车行业中的购车线索数量非常庞大，就近年购车线索数已经突破几千万条，在这样大量的购车线索数据中存在着质量较好的购车线索，也会存在着质量较差的购车线索，为了实现精细化的运营，需要对购车线索质量进行级别的划分。日前，汽车行业中对购车线索质量的级别划分方法主要是人为去划分购车线索质量的级别；但是，人为主观去划分购车线索质量的级别具有很大的不确定性，且对于大量的购车线索数据，会耗费大量的人力及时间成本，且划分购车线索质量级别的准确率也不高。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的实施例提出了一种购车线索质量的评级方法，包括：

对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据；

对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；

根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据；

根据训练特征数据构建分级模型；

根据分级模型对待分级的用户购车线索数据进行分级。

优选地，该方法还包括：

根据预设的购车交易业务类型确定用户购车线索数据的质量分级；

其中，根据训练特征数据构建分级模型，包括：

基于用户购车线索数据的质量分级，确定获取到的训练特征数据相应的质量分级；

根据训练特征数据，并结合与训练特征数据相应的质量分级，来构建分级模型。

优选地，根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据，包括：

对比同一特征分类下的原始特征数据的特征分级密度；

若特征分级密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；

选取特征重要度大于预定重要度阈值的备用特征变量作为训练特征数据。

优选地，获取训练特征数据，还包括：

对训练特征数据进行去重以及数据平衡化处理。

优选地，根据训练特征数据构建分级模型，包括：

从训练特征数据中随机选择多个特征数据样本；

从一个特征数据样本中随机选择多个特征分类下的特征数据；

根据预定的分级规则对每个特征数据样本的多个特征分类下的特征数据进行分级，建立多个分级器。

优选地，根据分级模型对待分级的用户购车线索数据进行分级，包括：

通过已建立的多个分级器对待分级的用户购车线索数据进行分级。

本发明的另一实施例提出了一种购车线索质量的评级装置，包括：

数据处理模块，用于对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据；

提取模块，用于对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；

选择模块，用于根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据

构建模块，用于根据训练特征数据构建分级模型；

评级模块，用于根据分级模型对待分级的用户购车线索数据进行分级。

优选地，评级装置还包括：

分级模块，用于根据购车交易业务类型确定用户购车线索数据的质量分级；

构建模块，用于基于用户购车线索数据的质量分级，确定获取到的训练特征数据相应的质量分级；

优选地，选择模块包括：

对比单元，用于对比同一特征分类下的原始特征数据的特征分级密度；

第一选取单元，用于若特征分级密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；

第二选取单元，用于选取特征重要度大于预定重要度阈值的备用特征变量作为训练特征数据。

更优选地，选择模块还包括：

训练特征数据处理单元，用于对训练特征数据进行去重以及数据平衡化处理。

优选地，构建模块包括：

特征数据样本选择单元，用于从训练特征数据中随机选择多个特征数据样本；

特征数据选择单元，用于从一个特征数据样本中随机选择多个特征分类下的特征数据；

建立分级器单元，用于根据预定的分级规则对每个特征数据样本的多个特征分类下的特征数据进行分级，建立多个分级器。

更优选地，评级模块用于通过已建立的多个分级器对待分级的用户购车线索数据进行分级。

本发明的技术方案通过提取构造的可用数据的特征数据，并对该特征数据进行筛选，作为构建的分级模型的训练数据；通过分级模型自动的实现对购车线索质量的分级；降低对购车线索分级所花费的人力和时间成本；同时提高购车线索质量分级的效率和准确率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明中一个实施例的购车线索质量的评级方法的流程示意图；

图2为本发明中购车线索质量的评级方法的构造可用数据的示意图；

图3为本发明中购车线索质量的评级方法的特征分级密度的对比示意图；

图4为本发明中购车线索质量的评级方法的特征重要度的对比示意图；

图5为本发明中购车线索质量的评级方法的获取训练特征数据的流程示意图；

图6为本发明中购车线索质量的评级方法的构建分级模型的流程示意图；

图7为本发明中购车线索质量的评级方法的构建分级模型的具体流程示意图；

图8为本发明中另一实施例的购车线索质量的评级装置的结构框架示意图；

图9为本发明另一实施例的购车线索质量的评级装置的选择模块的结构框架示意图；

图10为本发明一个优选实施例的购车线索质量的评级装置的构建模块的结构框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

图1为本发明一个实施例的购车线索质量的评级方法的流程示意图。

步骤S101：对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据；步骤S102：对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；步骤S103：根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据；步骤S104：根据训练特征数据构建分级模型；步骤S105：根据分级模型对待分级的用户购车线索数据进行分级。

本发明的实施例，通过提取和筛选可用数据的特征数据，建立分级模型；通过分级模型实现对购车线索质量的自动化分级；降低对购车线索分级所花费的人力和时间成本；同时提高购车线索质量分级的效率和准确率。

步骤S101：对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据。

具体地，整合用户购车线索数据和用户购车行为数据；对整合后的数据进行清洗，以获取可用数据。

其中，获取用户购车线索数据的方式包括当不限于：针对该用户在购车网站上的注册信息，在用户历史行为记录库中进行查询以获取到该用户的用户购车线索数据。图2示出了购车线索质量的评级方法的构造可用数据的示意图，用户购车线索数据包括但不限于：用户所在地域、用户是否有车、用户计划购买的车型以及该用户是否想要置换车辆。

其中，获取用户购车行为数据的方式包括但不限于：针对该用户在购车网站上进行账号登陆并对该购车网站的页面进行浏览，在用户历史行为记录库中进行查询以获取到该用户的用户购车行为数据。图2示出了购车线索质量的评级方法的构造可用数据的示意图，用户购车行为数据包括但不限于：用户关注的车型，用户关注的车辆品牌、用户关注的车辆价格、用户下单买车的时间、用户下单买车的频道。

将用户购车线索数据和该用户购车行为数据进行匹配，并去除所有匹配后的数据中的冗余数据，以获取可用数据。例如，将用户所在地域与该用户关注的车型进行匹配，如北京商务车；若所有匹配后的数据中出现多个“北京商务车”，则去除冗余“北京商务车”，仅获取一个可用“北京商务车”。

其中，图2示出了购车线索质量的评级方法的构造可用数据的示意图，可用数据包括但不限于：用户关注的车辆品牌分散度、用户关注的车型品牌分散度、用户关注的车辆价格分散度以及用户购车的下单时间。通过统计算法确定用户关注的车辆品牌分散度、用户关注的车型品牌分散度和用户关注的车辆价格分散度。通过将用户购车线索数据和用户购车行为数据相结合，构造可用数据，使得后续得到的训练数据范围更为广泛和准确；进一步使得商家更加准确的了解消费者的购车需求和习惯，有助于商家实现精确营销方案的制定。

具体地，该方法还包括：根据预设的购车交易业务类型确定用户购车线索数据的质量分级；其中，购车交易业务类型包括但不限于：商家电话回访、商家邮件回访和用户购车的付款订单。

购车线索数据的质量分级方式包括但不限于：根据预设的购车交易业务类型确定用户是否对车辆进行了购买；将购买车辆的用户所对应的用户购车线索数据的质量划分为一级；将未购买车辆的用户所对应的用户购车线索数据的质量划分为二级；一级被认定为用户购车线索数据的质量好，二级被认定为用户购车线索数据的质量差。

根据预设的购车交易业务类型确定用户购车线索数据的质量分级，明确分级模型的训练目的。

步骤S102：对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度。

其中，原始特征数据包括但不限于：用户关注的车辆品牌分散度、用户关注的车型品牌分散度、用户关注的车辆价格分散度以及用户购车的下单时间。

对可用数据进行原始特征数据的提取方式包括但不限于：通过过滤器模型对可用数据进行原始特征数据的提取。

具体地，确定每一特征分类下的原始特征数据的特征分级密度方式为通过统计算法确定用户购车的下单时间特征分类下的原始特征数据分别在购车线索数据的质量一级和购车线索数据的质量二级的下的分布密度。图3示出了购车线索质量的评级方法的特征分级密度的对比示意图，其中，左侧图为用户购车的下单时间特征分类下的原始特征数据在购车线索数据的质量一级下的分布密度图，右侧图为用户购车的下单时间特征分类下的原始特征数据在购车线索数据的质量二级下的分布密度图。确定每一特征分类下的原始特征数据的特征重要度方式包括但不限于：通过特征权重算法确定特征重要度；图4示出了购车线索质量的评级方法的特征重要度的对比示意图，其中，横坐标为特征数据，纵坐标为特征重要度。

如图5所示，步骤S103：根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据。具体地，步骤S103进一步包括：步骤S201、步骤S202和步骤S203。

步骤S201：对比同一特征分类下的原始特征数据的特征分级密度；步骤S202：若特征分级密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；步骤S203：选取特征重要度大于预定重要度阈值的备用特征变量作为训练特征数据。

具体地，对比同一特征分类下的原始特征数据分别在购车线索数据的质量一级和购车线索数据的质量二级下的特征分布密度；例如，如图3所示，对比用户购车的下单时间特征数据分别在购车线索数据的质量一级和购车线索数据的质量二级下的特征分布密度。

具体地，若同一特征分类下的原始特征数据在购车线索数据的质量一级下的特征分类密度与在购车线索数据的质量二级下的特征分布密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；例如，如图3所示，当左侧图显示的用户购车的下单时间特征数据在购车线索数据的质量一级下的特征分布密度与右侧图显示的用户购车的下单时间特征数据在购车线索数据的质量二级下的特征分布密度间的差异大于预定差异阈值，则选取用户购车的下单时间特征数据作为备用特征变量。

具体地，当备用特征变量的特征重要度大于预定重要度阈值，则将备用特征变量作为训练特征数据；例如，当用户购车的下单时间特征数据的特征重要度大于预定重要度阈值，则将用户购车的下单时间特征数据作为训练特征数据；通过步骤S103对可用数据进行筛选，减小数据的量的大小，选取能够将购车线索数据质量分级的更为有效和精确的特征数据，同时也为后续步骤的数据处理和模型建立以及模型训练提高了计算速度。

具体地，该方法还包括：对训练特征数据进行去重以及数据平衡化处理。

如图6所示，步骤S104：根据训练特征数据构建分级模型，步骤S104进一步包括：步骤S301和步骤S302。

步骤S301：基于用户购车线索数据的质量分级，确定获取到的训练特征数据相应的质量分级；步骤S302：根据训练特征数据，并结合与训练特征数据相应的质量分级，来构建分级模型。

具体地，基于用户购车线索数据的质量一级和质量二级，确定获取到的训练特征数据的质量一级和质量二级。根据训练特征数据，并结合与训练特征数据的质量一级和质量二级，构建分级模型。

更具体地，如图7所示，根据训练特征数据构建分级模型的方法，具体包括：步骤S401、步骤S402和步骤S403。

步骤S401：从训练特征数据中随机选择多个特征数据样本；步骤S402：从一个特征数据样本中随机选择多个特征分类下的特征数据；步骤S403：根据预定的分级规则对每个特征数据样本的多个特征分类下的特征数据进行分级，建立多个分级器。

具体地，有放回从训练特征数据中N个特征数据样本随机采样到N个特征数据样本；如，从训练特征数据中N个特征数据样本随机采样到一个特征数据样本后，将该特征数据样本再放回到训练特征数据中，继续随机采集下一个特征样本数据。由于有放回的采样方式会使得采样到的N个特征数据样本中有重复的特征数据样本，从而不会预防特征数据样本后续的处理过程中的过拟合；无放回的从其中一个特征数据样本中随机采样到X个特征数据；如，从其中一个特征数据样本中随机采样到一个特征数据后，不再将该特征数据放回到该特征数据样本中，继续随机采样下一个特征数据；对于每个特征数据样本随机采样到的X个特征数据的特征分类都是一样的；

其中，预定的分级规则包括但不限于：完全分裂规则。分级器包括但不限于：决策树。

具体地，每棵决策树的生成遵循自顶向下的递归的完全分裂规则，即从每棵决策树的根节点开始依次对特征数据样本进行划分；在决策树中，其根节点包含随机采样到N个特征数据样本，根据节点纯度最小原则，将根节点分裂为左节点和右节点，根据点纯度最小原则，将左节点和右节点继续分裂，直到满足决策树的分支停止规则而停止生长，并最终形成决策树的叶子节点。决策树的每个非叶节点表示一个特征分类上的测试，每个决策树的分支代表该特征分类下的特征数据在一个值域上的输出，而每个叶节点存放一个级别；决策树的其中一个叶子节点要么是无法继续分裂的，要么里面的所有特征数据样本的都是指向的同一个级别；从而建立决分级器；多个分级器的建立形成了分级模型，如随机森林分级模型；通过步骤S401、步骤S402和步骤S403，实现了快速处理高维度的数据，对特征数据样本的适应能力强：既能处理离散型数据，也能处理连续型数据，特征数据样本无需规范化。

步骤S105：根据分级模型对待分级的用户购车线索数据进行分级，包括：通过已建立的多个分级器对待分级的用户购车线索数据进行分级。其中，带分级用户购车线索的分级结果根据分级器的投票而定。

具体地，当待分级的用户购车线索数据进入分级模型时，通过分级模型中的每一个分级器分别对其进行判断，判断该待分级的用户购车线索数据属于哪一级别，哪一级别被选择最多，就判断这个待分级的用户购车线索数据为哪一级别；待分级的用户购车线索数据通过分级器的分级结果经统计投票后选择最可能的级别。通过步骤S105，实现了在分级模型中建立组合分级器；组合分级器比单一分级器的分级效果好，即分级更准确。

数据处理模块501对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据；提取模块502对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；选择模块503根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据；构建模块504根据训练特征数据构建分级模型；评级模块505根据分级模型对待分级的用户购车线索数据进行分级。

本发明的另一实施例中，该装置通过提取和筛选可用数据的特征数据，建立分级模型；通过分级模型实现对购车线索质量的自动化分级；降低对购车线索分级所花费的人力和时间成本；同时提高购车线索质量分级的效率和准确率。

数据处理模块501对用户购车线索数据和用户购车行为数据进行预处理，以构造可用数据。

具体地，数据处理模块501包括：整合数据单元整合用户购车线索数据和用户购车的行为数据；清洗数据单元对整合后的数据进行清洗，以获取可用数据。

数据处理模块501将用户购车线索数据和该用户购车行为数据进行匹配，并去除所有匹配后的数据中的冗余数据，以获取可用数据。例如，数据处理模块501将用户所在地域与该用户关注的车型进行匹配，如北京商务车；若所有匹配后的数据中出现多个“北京商务车”，则去除冗余“北京商务车”，仅获取一个可用“北京商务车”。

其中，图2示出了购车线索质量的评级方法的构造可用数据的示意图，可用数据包括但不限于：用户关注的车辆品牌分散度、用户关注的车型品牌分散度、用户关注的车辆价格分散度以及用户购车的下单时间。通过统计算法确定用户关注的车辆品牌分散度、用户关注的车型品牌分散度和用户关注的车辆价格分散度。通过数据处理模块501将用户购车线索数据和用户购车行为数据相结合，构造可用数据，使得后续得到的训练数据范围更为广泛和准确；进一步使得商家更加准确的了解消费者的购车需求和习惯，有助于商家实现精确营销方案的制定。

具体地，评级装置还包括：分级模块根据购车交易业务类型确定用户购车线索数据的质量分级。

其中，购车交易业务类型包括但不限于：商家电话回访、商家邮件回访和用户购车的付款订单。

分级模块根据预设的购车交易业务类型确定用户购车线索数据的质量分级，明确分级模型的训练目的。

提取模块502对可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度。

提取模块502对可用数据进行原始特征数据的提取方式包括但不限于：通过过滤器模型对可用数据进行原始特征数据的提取。

具体地，确定每一特征分类下的原始特征数据的特征分级密度方式为通过统计算法确定用户购车的下单时间特征分类下的原始特征数据分别在购车线索数据的质量一级和购车线索数据的质量二级的下的分布密度。图3示出了购车线索质量的评级方法的特征分级密度的对比示意图，其中，左侧图为用户购车的下单时间特征分类下的原始特征数据在购车线索数据的质量一级下的分布密度图，右侧图为用户购车的下单时间特征分类下的原始特征数据在购车线索数据的质量二级下的分布密度图。

提取模块502确定每一特征分类下的原始特征数据的特征重要度方式包括但不限于：通过特征权重算法确定特征重要度。图4示出了购车线索质量的评级方法的特征重要度的对比示意图，其中，横坐标为特征数据，纵坐标为特征重要度。

如图9所示，选择模块503根据特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据。具体地，选择模块503进一步包括：对比单元601、第一选取单元602和第二选取单元603。

对比单元601对比同一特征分类下的原始特征数据的特征分级密度；第一选取单元602若特征分级密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；第二选取单元603选取特征重要度大于预定重要度阈值的备用特征变量作为训练特征数据。

具体地，对比单元601对比同一特征分类下的原始特征数据分别在购车线索数据的质量一级和购车线索数据的质量二级下的特征分布密度；例如，如图3所示，对比单元601对比用户购车的下单时间特征数据分别在购车线索数据的质量一级和购车线索数据的质量二级下的特征分布密度。

具体地，若同一特征分类下的原始特征数据在购车线索数据的质量一级下的特征分类密度与在购车线索数据的质量二级下的特征分布密度间的差异大于预定差异阈值，则第一选取单元602选取该特征分类下的原始特征数据作为备用特征变量；例如，如图3所示，当左侧图显示的用户购车的下单时间特征数据在购车线索数据的质量一级下的特征分布密度与右侧图显示的用户购车的下单时间特征数据在购车线索数据的质量二级下的特征分布密度间的差异大于预定差异阈值，则第一选取单元602选取用户购车的下单时间特征数据作为备用特征变量。

具体地，当备用特征变量的特征重要度大于预定重要度阈值，则第二选取单元603将备用特征变量作为训练特征数据；例如，当用户购车的下单时间特征数据的特征重要度大于预定重要度阈值，则第二选取单元603将用户购车的下单时间特征数据作为训练特征数据；通过选择模块503对可用数据进行筛选，减小数据的量的大小，选取能够将购车线索数据质量分级的更为有效和精确的特征数据，同时也为后续步骤的数据处理和模型建立以及模型训练提高了计算速度。

选择模块503还包括：训练特征数据处理单元对训练特征数据进行去重以及数据平衡化处理。构建模块504根据训练特征数据构建分级模型。

具体地，构建模块504基于用户购车线索数据的质量分级，确定获取到的训练特征数据相应的质量分级；根据训练特征数据，并结合与训练特征数据相应的质量分级，来构建分级模型。

具体地，构建模块504基于用户购车线索数据的质量一级和质量二级，确定获取到的训练特征数据的质量一级和质量二级；根据训练特征数据，并结合与训练特征数据的质量一级和质量二级，构建分级模型。

如图10所示，构建模块504具体包括：特征数据样本选择单元701、特征数据选择单元702和建立分级器单元703。

特征数据样本选择单元701从训练特征数据中随机选择多个特征数据样本；特征数据选择单元702从一个特征数据样本中随机选择多个特征分类下的特征数据；建立分级器单元703根据预定的分级规则对每个特征数据样本的多个特征分类下的特征数据进行分级，建立多个分级器。

具体地，特征数据样本选择单元701有放回从训练特征数据中N个特征数据样本随机采样到N个特征数据样本；如，特征数据样本选择单元701从训练特征数据中N个特征数据样本随机采样到一个特征数据样本后，将该特征数据样本再放回到训练特征数据中，继续随机采集下一个特征样本数据。由于特征数据样本选择单元701有放回的采样方式会使得采样到的N个特征数据样本中有重复的特征数据样本，从而不会预防特征数据样本后续的处理过程中的过拟合。

特征数据选择单元702无放回的从其中一个特征数据样本中随机采样到X个特征数据；如，从其中一个特征数据样本中随机采样到一个特征数据后，不再将该特征数据放回到该特征数据样本中，继续随机采样下一个特征数据；对于每个特征数据样本随机采样到的X个特征数据的特征分类都是一样的。

其中，建立分级器单元703预定的分级规则包括但不限于：完全分裂规则。

建立分级器单元703中的分级器包括但不限于：决策树。

具体地，建立分级器单元703中每棵决策树的生成遵循自顶向下的递归的完全分裂规则，即从每棵决策树的根节点开始依次对特征数据样本进行划分；在决策树中，其根节点包含随机采样到N个特征数据样本，根据节点纯度最小原则，将根节点分裂为左节点和右节点，根据点纯度最小原则，将左节点和右节点继续分裂，直到满足决策树的分支停止规则而停止生长，并最终形成决策树的叶子节点。决策树的每个非叶节点表示一个特征分类上的测试，每个决策树的分支代表该特征分类下的特征数据在一个值域上的输出，而每个叶节点存放一个级别；决策树的其中一个叶子节点要么是无法继续分裂的，要么里面的所有特征数据样本的都是指向的同一个级别；从而建立决分级器；多个分级器的建立形成了分级模型，如随机森林分级模型；通过特征数据样本选择单元701、特征数据选择单元702和建立分级器单元703，实现了快速处理高维度的数据，对特征数据样本的适应能力强：既能处理离散型数据，也能处理连续型数据，特征数据样本无需规范化。

评级模块505根据分级模型对待分级的用户购车线索数据进行分级；其中，带分级用户购车线索的分级结果根据分级器的投票而定。

具体地，当待分级的用户购车线索数据进入评级装置的分级模型时，评级模块505通过分级模型中的每一个分级器分别对其进行判断，判断该待分级的用户购车线索数据属于哪一级别，哪一级别被选择最多，就判断这个待分级的用户购车线索数据为哪一级别；待分级的用户购车线索数据通过分级器的分级结果经统计投票后选择最可能的级别。通过评级模块505，实现了在分级模型中建立组合分级器；组合分级器比单一分级器的分级效果好，即分级更准确。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种购车线索质量的评级方法，其特征在于，包括：

对所述可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；

根据所述特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据；

根据所述训练特征数据构建分级模型；

根据所述分级模型对待分级的用户购车线索数据进行分级。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

根据预设的购车交易业务类型确定所述用户购车线索数据的质量分级；

其中，根据所述训练特征数据构建分级模型，包括：

基于所述用户购车线索数据的质量分级，确定获取到的训练特征数据相应的质量分级；

根据所述训练特征数据，并结合与所述训练特征数据相应的质量分级，来构建分级模型。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据，包括：

对比同一特征分类下的原始特征数据的特征分级密度；

若所述特征分级密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；

选取所述特征重要度大于预定重要度阈值的备用特征变量作为训练特征数据。

4.根据权利要求1所述的方法，其特征在于，所述获取训练特征数据，还包括：

对所述训练特征数据进行去重以及数据平衡化处理。

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述训练特征数据构建分级模型，包括：

从所述训练特征数据中随机选择多个特征数据样本；

根据预定的分级规则对每个特征数据样本的所述多个特征分类下的特征数据进行分级，建立多个分级器。

6.根据权利要求5所述的方法，其特征在于，所述根据所述分级模型对待分级的用户购车线索数据进行分级，包括：

7.一种购车线索质量的评级装置，其特征在于，包括：

提取模块，用于对所述可用数据进行原始特征数据的提取，并确定每一特征分类下的原始特征数据的特征分级密度和特征重要度；

选择模块，用于根据所述特征分级密度和特征重要度对原始特征数据进行筛选，以获取训练特征数据

构建模块，用于根据所述训练特征数据构建分级模型；

评级模块，用于根据所述分级模型对待分级的用户购车线索数据进行分级。

8.根据权利要求7所述的装置，其特征在于，还包括：

分级模块，用于根据购车交易业务类型确定所述用户购车线索数据的质量分级；

所述构建模块，用于基于所述用户购车线索数据的质量分级，确定获取到的训练特征数据相应的质量分级；

9.根据权利要求7或8所述的装置，其特征在于，所述选择模块包括：

第一选取单元，用于若所述特征分级密度间的差异大于预定差异阈值，则选取该特征分类下的原始特征数据作为备用特征变量；

第二选取单元，用于选取所述特征重要度大于预定重要度阈值的备用特征变量作为训练特征数据。

10.根据权利要求9所述的装置，其特征在于，所述选择模块还包括：

训练特征数据处理单元，用于对所述训练特征数据进行去重以及数据平衡化处理。

11.根据权利要求7或8所述的装置，其特征在于，所述构建模块包括：

特征数据样本选择单元，用于从所述训练特征数据中随机选择多个特征数据样本；

建立分级器单元，用于根据预定的分级规则对每个特征数据样本的所述多个特征分类下的特征数据进行分级，建立多个分级器。

12.根据权利要求11所述的装置，其特征在于，所述评级模块用于通过已建立的多个分级器对待分级的用户购车线索数据进行分级。