CN115936763A

CN115936763A - 一种基于特征衍生与特征筛选的车机用户流失预测方法

Info

Publication number: CN115936763A
Application number: CN202211595349.5A
Authority: CN
Inventors: 徐小敏
Original assignee: Shanghai Pingjia Technology Co ltd
Current assignee: Shanghai Pingjia Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-07

Abstract

本发明公开了一种基于特征衍生与特征筛选的车机用户流失预测方法，包括数据预处理；变量相关性探索分析；数据编码；特征衍生和特征筛选；随机森林算法的训练与优化。本发明的有益效果是：本发明采用特征衍生的方法，创建更多的特征来提供更多捕捉数据规律的维度，显著提升数据集质量，最终提升模型效果。本发明通过对车机流失率进行预测分析，为后续进一步优化运营策略提供支持。

Description

一种基于特征衍生与特征筛选的车机用户流失预测方法

技术领域

本发明涉及一种车机用户流失预测方法计算，具体为一种基于特征衍生与特征筛选的车机用户流失预测方法，属于特征工程和数据挖掘技术领域。

背景技术

随着5G时代的到来，5G的工业化应用，如车联网、物联网、工业互联网等，也将在未来发展成为万亿规模产业，并且增强宽带、海量连接、低延时、高可靠的网络基础设施，将为构建物联网、人工智能等技术体系提供保障。在此背景下，汽车车机市场的竞争也愈发激烈。

而在数字时代，传统的大众营销已经失去优势，如何基于用户信息和行为进行更加精准的营销，从而满足用户更加多样化、层次化和个性化的需求，成为所以主机厂必须面对的课题。本发明采用特征衍生和特征筛选的方式，深层次挖掘导致用户流失的“蛛丝马迹”，从而提升模型效果。

发明内容

本发明的目的就在于为了解决上述至少一个技术问题而提供一种基于特征衍生与特征筛选的车机用户流失预测方法，不但可以对流失用户进行预测，同时还能找到影响用户流失的重要因子，来辅助运营人员来进行营销策略调整或制定用户挽留措施。

本发明通过以下技术方案来实现上述目的：一种基于特征衍生与特征筛选的车机用户流失预测方法，包括以下步骤：

步骤一、数据预处理，在了解了数据集字段含义后，首先要对数据集的数据质量进行探索，属于数据探索的基础角度；

步骤二、变量相关性探索分析，通过标签取值分布、变量相关性分析以及探索性数据分析，探索标签取值，并结合标签相关性的强弱进行分析；

步骤三、数据编码，对数据集的数据采用离散字段的数据进行重新编码，并对连续字段的特征变换；

步骤四、特征衍生和特征筛选，对数据的特征进行多类别衍生，并基于不同的衍生方式进行特征筛选，且特征衍生的类别包括基于业务背景的特征衍生、基于数据分布规律的特征衍生、时序特征衍生、多项式特征衍生、交叉组合特征衍生以及分组统计特征衍生；

步骤五、随机森林算法的训练与优化，在完成了特征衍生与初步筛选后，接下来就将进入到模型训练与优化的阶段，对特征的更精确的筛选其本质也可以看成是一种优化方法，在特征初筛结束后，围绕当前筛选出来的特征尝试进行模型训练。

作为本发明再进一步的方案：步骤一中，预处理主要为数据质量探索，包括数据集正确性校验、数据缺失值检验；字段类型探索包括时序字段处理、连续/离散型变量标注、缺失值检验与填补、异常值检验。

作为本发明再进一步的方案：步骤二中，变量相关性探索分析具体包括：

①标签取值分布，通过探索标签在不同特征上的分布，初步探索哪些特征对标签取值影响较大；

②变量相关性分析，首先先计算相关系数矩阵，直接通过具体数值大小来表示相关性强弱；

③探索性数据分析，通过对用户人口统计信息的简单探索性分析。

作为本发明再进一步的方案：步骤三中，对数据进行编码具体包括：

①离散字段的数据重编码，所用的方法包括：OrdinalEncoder自然数排序、OneHotEncoder独热编码、ColumnTransformer转化流水线；

②连续字段的特征变换，包括数据标准化和归一化、连续变量分箱。

作为本发明再进一步的方案：步骤四中，特征衍生和特征筛选包括：

①基于业务背景的特征衍生，在数据集中增加两个字段来衡量用户粘性，其一是新人用户标识(专门标记最近1-2个月内入网的用户)、其二是用户购买服务数量；

②基于数据分布规律的特征衍生，包括人口统计信息字段探索与特征衍生、合约周期字段探索与特征衍生，该方法通过计算IV(information value)值进行特征筛选；

③时序特征衍生，需要手动创建年、月、日和所属季度的特征，特征衍生后可以先通过相关系数，简单验证衍生的时序特征和标签之间的关系；

④多项式特征衍生，多项式的特征衍生也是通过相关系数进行筛选；

⑤交叉组合特征衍生，包括原始特征的两两交叉组合、原始特征的多变量交叉组合、带入时序衍生特征的交叉组合衍生；

⑥分组统计特征衍生，包括单变量分组统计、时序衍生字段分组统计、多变量分组统计，最终根据相关系数进行特征筛选。

作为本发明再进一步的方案：步骤五中，随机森林算法的训练与优化采用的是网格搜索策略。

本发明的有益效果是：采用特征衍生的方法，创建更多的特征来提供更多捕捉数据规律的维度，显著提升数据集质量，最终提升模型效果。本发明通过对车机流失率进行预测分析，为后续进一步优化运营策略提供支持。

附图说明

图1为本发明流程示意图；

图2为本发明不同特征的模型对比结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，一种基于特征衍生与特征筛选的车机用户流失预测方法，包括以下步骤：

S10、数据预处理，在了解了数据集字段含义后，首先要对数据集的数据质量进行探索，属于数据探索的基础角度；

S20、变量相关性探索分析，通过标签取值分布、变量相关性分析以及探索性数据分析，探索标签取值，并结合标签相关性的强弱进行分析；

S30、数据编码，对数据集的数据采用离散字段的数据进行重新编码，并对连续字段的特征变换；

S40、特征衍生和特征筛选，对数据的特征进行多类别衍生，并基于不同的衍生方式进行特征筛选，且特征衍生的类别包括基于业务背景的特征衍生、基于数据分布规律的特征衍生、时序特征衍生、多项式特征衍生、交叉组合特征衍生以及分组统计特征衍生；

S50、随机森林算法的训练与优化，在完成了特征衍生与初步筛选后，接下来就将进入到模型训练与优化的阶段，对特征的更精确的筛选其本质也可以看成是一种优化方法，在特征初筛结束后，围绕当前筛选出来的特征尝试进行模型训练。

实施例二

本实施例中除包括实施例一中的所有技术特征之外，还包括：

预处理主要为数据质量探索，包括数据集正确性校验、数据缺失值检验；字段类型探索包括时序字段处理、连续/离散型变量标注、缺失值检验与填补、异常值检验，首先是是数据集正确性校验。一般来说数据集正确性校验分为两种，其一是检验数据集字段是否和数据字典中的字段一致，其二则是检验数据集中ID列有无重复。由于该数据集并为提供数据字典，因此此处主要校验数据集ID有无重复；接下来进一步检查数据集缺失情况，我们可以通过isnull来快速查看数据集缺失情况；接下来，我们将进一步围绕数据集的字段类型来进行调整，比如入网时间时序字段的处理、连续/离散型变量标注、缺失值检验与填补、异常值的检验。

实施例三

变量相关性探索分析具体包括：

②变量相关性分析，首先先计算相关系数矩阵，直接通过具体数值大小来表示相关性强弱，尽管可以忽略变量的连续/离散特性，但为了更好的分析分类变量如何影响标签的取值，需要将标签转化为整型，视作连续变量，而将所有的分类变量进行哑变量处理；

③探索性数据分析，通过对用户人口统计信息的简单探索性分析，能够发现，老年用户、未结婚用户以及经济未独立用户流失比例相对较高，而性别因素对是否流失影响不大，在实际制定运营策略时，这三类用户需要重点关注，同理对用户合同属性和已注册的服务信息进行探索性数据分析。

对数据进行编码具体包括：

实施例四

特征衍生和特征筛选包括：

①基于业务背景的特征衍生，例如：根据经验可知，影响用户粘性的因素可能包括服务体验、用户习惯、群体偏好、用户注册时长、同质化竞品等因素，据此，可以在数据集中增加两个字段来衡量用户粘性，其一是新人用户标识(专门标记最近1-2个月内入网的用户)、其二是用户购买服务数量，带入不同特征的模型对比结果如图2所示；

③时序特征衍生，该数据集比较特殊，不能直接调用timeSeries函数进行时序特征衍生，需要手动创建年、月、日和所属季度的特征，特征衍生后可以先通过相关系数，简单验证衍生的时序特征和标签之间的关系；

④多项式特征衍生，由于原始数据集较为简单，只有两个连续变量，因此我们只需要考虑这两个变量的多项式计算即可，多项式的特征衍生也是通过相关系数进行筛选；

⑤交叉组合特征衍生，包括原始特征的两两交叉组合、原始特征的多变量交叉组合、带入时序衍生特征的交叉组合衍生，与此前的思路相同，可以借助相关系数来初步评估衍生特征和标签的相关关系；

实施例五

随机森林算法的训练与优化采用的是网格搜索策略，在完成了特征衍生与初步筛选后，接下来就将进入到模型训练与优化的阶段了，对特征的更精确的筛选其本质也可以看成是一种优化方法。不过需要注意的是，一般在特征初筛结束后，都会将围绕当前筛选出来的特征尝试进行模型训练，若模型能够有效的挖掘出当前特征池的全部信息，且计算量在可以承受的范围内，则无需进一步进行特征精筛；但如果模型无法有效挖掘当前海量特征的全部信息，甚至是出现了加入新特征的模型效果反而不如只带入原始特征的模型的情况，则需要考虑进一步围绕特征进行更加精确的搜索，以提高模型效果。而要如何才能测试模型能否“消化”当前海量特征池的全部信息呢？很明显，只靠可解释型模型(逻辑回归和决策树模型)肯定是远远不够的，将采用可解释型更弱、但更能从海量特征池中提取有效信息的集成学习进行建模。并且也将采用模型融合的策略，以进一步提升模型效果和从海量特征中提取有效信息的能力。集成学习+模型融合，这也是效果优先的机器学习建模必然会采用的策略。本步先聚焦如何训练并优化好一个集成学习算法，再考虑带入衍生特征后模型的优化方法。这里需要注意，少量特征和海量特征在优化策略方面也会有较大的差别。本专利经过六轮搜索调参，得到最优模型。

工作原理：数据预处理，在了解了数据集字段含义后，首先要对数据集的数据质量进行探索，属于数据探索的基础角度；通过标签取值分布、变量相关性分析以及探索性数据分析，探索标签取值，并结合标签相关性的强弱进行分析；对数据集的数据采用离散字段的数据进行重新编码，并对连续字段的特征变换；对数据的特征进行多类别衍生，并基于不同的衍生方式进行特征筛选；随机森林算法的训练与优化。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于特征衍生与特征筛选的车机用户流失预测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法，其特征在于：所述步骤一中，预处理主要为数据质量探索，包括数据集正确性校验、数据缺失值检验；字段类型探索包括时序字段处理、连续/离散型变量标注、缺失值检验与填补、异常值检验。

3.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法，其特征在于：所述步骤二中，变量相关性探索分析具体包括：

4.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法，其特征在于：所述步骤三中，对数据进行编码具体包括：

5.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法，其特征在于：所述步骤四中，特征衍生和特征筛选包括：

6.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法，其特征在于：所述步骤五中，随机森林算法的训练与优化采用的是网格搜索策略。