CN115936763A - 一种基于特征衍生与特征筛选的车机用户流失预测方法 - Google Patents
一种基于特征衍生与特征筛选的车机用户流失预测方法 Download PDFInfo
- Publication number
- CN115936763A CN115936763A CN202211595349.5A CN202211595349A CN115936763A CN 115936763 A CN115936763 A CN 115936763A CN 202211595349 A CN202211595349 A CN 202211595349A CN 115936763 A CN115936763 A CN 115936763A
- Authority
- CN
- China
- Prior art keywords
- feature
- derivation
- data
- screening
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009795 derivation Methods 0.000 title claims abstract description 92
- 238000012216 screening Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000007637 random forest analysis Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 13
- 238000011985 exploratory data analysis Methods 0.000 claims description 11
- 238000010219 correlation analysis Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013486 operation strategy Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 229920001872 Spider silk Polymers 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000265 homogenisation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于特征衍生与特征筛选的车机用户流失预测方法,包括数据预处理;变量相关性探索分析;数据编码;特征衍生和特征筛选;随机森林算法的训练与优化。本发明的有益效果是:本发明采用特征衍生的方法,创建更多的特征来提供更多捕捉数据规律的维度,显著提升数据集质量,最终提升模型效果。本发明通过对车机流失率进行预测分析,为后续进一步优化运营策略提供支持。
Description
技术领域
本发明涉及一种车机用户流失预测方法计算,具体为一种基于特征衍生与特征筛选的车机用户流失预测方法,属于特征工程和数据挖掘技术领域。
背景技术
随着5G时代的到来,5G的工业化应用,如车联网、物联网、工业互联网等,也将在未来发展成为万亿规模产业,并且增强宽带、海量连接、低延时、高可靠的网络基础设施,将为构建物联网、人工智能等技术体系提供保障。在此背景下,汽车车机市场的竞争也愈发激烈。
而在数字时代,传统的大众营销已经失去优势,如何基于用户信息和行为进行更加精准的营销,从而满足用户更加多样化、层次化和个性化的需求,成为所以主机厂必须面对的课题。本发明采用特征衍生和特征筛选的方式,深层次挖掘导致用户流失的“蛛丝马迹”,从而提升模型效果。
发明内容
本发明的目的就在于为了解决上述至少一个技术问题而提供一种基于特征衍生与特征筛选的车机用户流失预测方法,不但可以对流失用户进行预测,同时还能找到影响用户流失的重要因子,来辅助运营人员来进行营销策略调整或制定用户挽留措施。
本发明通过以下技术方案来实现上述目的:一种基于特征衍生与特征筛选的车机用户流失预测方法,包括以下步骤:
步骤一、数据预处理,在了解了数据集字段含义后,首先要对数据集的数据质量进行探索,属于数据探索的基础角度;
步骤二、变量相关性探索分析,通过标签取值分布、变量相关性分析以及探索性数据分析,探索标签取值,并结合标签相关性的强弱进行分析;
步骤三、数据编码,对数据集的数据采用离散字段的数据进行重新编码,并对连续字段的特征变换;
步骤四、特征衍生和特征筛选,对数据的特征进行多类别衍生,并基于不同的衍生方式进行特征筛选,且特征衍生的类别包括基于业务背景的特征衍生、基于数据分布规律的特征衍生、时序特征衍生、多项式特征衍生、交叉组合特征衍生以及分组统计特征衍生;
步骤五、随机森林算法的训练与优化,在完成了特征衍生与初步筛选后,接下来就将进入到模型训练与优化的阶段,对特征的更精确的筛选其本质也可以看成是一种优化方法,在特征初筛结束后,围绕当前筛选出来的特征尝试进行模型训练。
作为本发明再进一步的方案:步骤一中,预处理主要为数据质量探索,包括数据集正确性校验、数据缺失值检验;字段类型探索包括时序字段处理、连续/离散型变量标注、缺失值检验与填补、异常值检验。
作为本发明再进一步的方案:步骤二中,变量相关性探索分析具体包括:
①标签取值分布,通过探索标签在不同特征上的分布,初步探索哪些特征对标签取值影响较大;
②变量相关性分析,首先先计算相关系数矩阵,直接通过具体数值大小来表示相关性强弱;
③探索性数据分析,通过对用户人口统计信息的简单探索性分析。
作为本发明再进一步的方案:步骤三中,对数据进行编码具体包括:
①离散字段的数据重编码,所用的方法包括:OrdinalEncoder自然数排序、OneHotEncoder独热编码、ColumnTransformer转化流水线;
②连续字段的特征变换,包括数据标准化和归一化、连续变量分箱。
作为本发明再进一步的方案:步骤四中,特征衍生和特征筛选包括:
①基于业务背景的特征衍生,在数据集中增加两个字段来衡量用户粘性,其一是新人用户标识(专门标记最近1-2个月内入网的用户)、其二是用户购买服务数量;
②基于数据分布规律的特征衍生,包括人口统计信息字段探索与特征衍生、合约周期字段探索与特征衍生,该方法通过计算IV(information value)值进行特征筛选;
③时序特征衍生,需要手动创建年、月、日和所属季度的特征,特征衍生后可以先通过相关系数,简单验证衍生的时序特征和标签之间的关系;
④多项式特征衍生,多项式的特征衍生也是通过相关系数进行筛选;
⑤交叉组合特征衍生,包括原始特征的两两交叉组合、原始特征的多变量交叉组合、带入时序衍生特征的交叉组合衍生;
⑥分组统计特征衍生,包括单变量分组统计、时序衍生字段分组统计、多变量分组统计,最终根据相关系数进行特征筛选。
作为本发明再进一步的方案:步骤五中,随机森林算法的训练与优化采用的是网格搜索策略。
本发明的有益效果是:采用特征衍生的方法,创建更多的特征来提供更多捕捉数据规律的维度,显著提升数据集质量,最终提升模型效果。本发明通过对车机流失率进行预测分析,为后续进一步优化运营策略提供支持。
附图说明
图1为本发明流程示意图;
图2为本发明不同特征的模型对比结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,一种基于特征衍生与特征筛选的车机用户流失预测方法,包括以下步骤:
S10、数据预处理,在了解了数据集字段含义后,首先要对数据集的数据质量进行探索,属于数据探索的基础角度;
S20、变量相关性探索分析,通过标签取值分布、变量相关性分析以及探索性数据分析,探索标签取值,并结合标签相关性的强弱进行分析;
S30、数据编码,对数据集的数据采用离散字段的数据进行重新编码,并对连续字段的特征变换;
S40、特征衍生和特征筛选,对数据的特征进行多类别衍生,并基于不同的衍生方式进行特征筛选,且特征衍生的类别包括基于业务背景的特征衍生、基于数据分布规律的特征衍生、时序特征衍生、多项式特征衍生、交叉组合特征衍生以及分组统计特征衍生;
S50、随机森林算法的训练与优化,在完成了特征衍生与初步筛选后,接下来就将进入到模型训练与优化的阶段,对特征的更精确的筛选其本质也可以看成是一种优化方法,在特征初筛结束后,围绕当前筛选出来的特征尝试进行模型训练。
实施例二
本实施例中除包括实施例一中的所有技术特征之外,还包括:
预处理主要为数据质量探索,包括数据集正确性校验、数据缺失值检验;字段类型探索包括时序字段处理、连续/离散型变量标注、缺失值检验与填补、异常值检验,首先是是数据集正确性校验。一般来说数据集正确性校验分为两种,其一是检验数据集字段是否和数据字典中的字段一致,其二则是检验数据集中ID列有无重复。由于该数据集并为提供数据字典,因此此处主要校验数据集ID有无重复;接下来进一步检查数据集缺失情况,我们可以通过isnull来快速查看数据集缺失情况;接下来,我们将进一步围绕数据集的字段类型来进行调整,比如入网时间时序字段的处理、连续/离散型变量标注、缺失值检验与填补、异常值的检验。
实施例三
本实施例中除包括实施例一中的所有技术特征之外,还包括:
变量相关性探索分析具体包括:
①标签取值分布,通过探索标签在不同特征上的分布,初步探索哪些特征对标签取值影响较大;
②变量相关性分析,首先先计算相关系数矩阵,直接通过具体数值大小来表示相关性强弱,尽管可以忽略变量的连续/离散特性,但为了更好的分析分类变量如何影响标签的取值,需要将标签转化为整型,视作连续变量,而将所有的分类变量进行哑变量处理;
③探索性数据分析,通过对用户人口统计信息的简单探索性分析,能够发现,老年用户、未结婚用户以及经济未独立用户流失比例相对较高,而性别因素对是否流失影响不大,在实际制定运营策略时,这三类用户需要重点关注,同理对用户合同属性和已注册的服务信息进行探索性数据分析。
对数据进行编码具体包括:
①离散字段的数据重编码,所用的方法包括:OrdinalEncoder自然数排序、OneHotEncoder独热编码、ColumnTransformer转化流水线;
②连续字段的特征变换,包括数据标准化和归一化、连续变量分箱。
实施例四
本实施例中除包括实施例一中的所有技术特征之外,还包括:
特征衍生和特征筛选包括:
①基于业务背景的特征衍生,例如:根据经验可知,影响用户粘性的因素可能包括服务体验、用户习惯、群体偏好、用户注册时长、同质化竞品等因素,据此,可以在数据集中增加两个字段来衡量用户粘性,其一是新人用户标识(专门标记最近1-2个月内入网的用户)、其二是用户购买服务数量,带入不同特征的模型对比结果如图2所示;
②基于数据分布规律的特征衍生,包括人口统计信息字段探索与特征衍生、合约周期字段探索与特征衍生,该方法通过计算IV(information value)值进行特征筛选;
③时序特征衍生,该数据集比较特殊,不能直接调用timeSeries函数进行时序特征衍生,需要手动创建年、月、日和所属季度的特征,特征衍生后可以先通过相关系数,简单验证衍生的时序特征和标签之间的关系;
④多项式特征衍生,由于原始数据集较为简单,只有两个连续变量,因此我们只需要考虑这两个变量的多项式计算即可,多项式的特征衍生也是通过相关系数进行筛选;
⑤交叉组合特征衍生,包括原始特征的两两交叉组合、原始特征的多变量交叉组合、带入时序衍生特征的交叉组合衍生,与此前的思路相同,可以借助相关系数来初步评估衍生特征和标签的相关关系;
⑥分组统计特征衍生,包括单变量分组统计、时序衍生字段分组统计、多变量分组统计,最终根据相关系数进行特征筛选。
实施例五
本实施例中除包括实施例一中的所有技术特征之外,还包括:
随机森林算法的训练与优化采用的是网格搜索策略,在完成了特征衍生与初步筛选后,接下来就将进入到模型训练与优化的阶段了,对特征的更精确的筛选其本质也可以看成是一种优化方法。不过需要注意的是,一般在特征初筛结束后,都会将围绕当前筛选出来的特征尝试进行模型训练,若模型能够有效的挖掘出当前特征池的全部信息,且计算量在可以承受的范围内,则无需进一步进行特征精筛;但如果模型无法有效挖掘当前海量特征的全部信息,甚至是出现了加入新特征的模型效果反而不如只带入原始特征的模型的情况,则需要考虑进一步围绕特征进行更加精确的搜索,以提高模型效果。而要如何才能测试模型能否“消化”当前海量特征池的全部信息呢?很明显,只靠可解释型模型(逻辑回归和决策树模型)肯定是远远不够的,将采用可解释型更弱、但更能从海量特征池中提取有效信息的集成学习进行建模。并且也将采用模型融合的策略,以进一步提升模型效果和从海量特征中提取有效信息的能力。集成学习+模型融合,这也是效果优先的机器学习建模必然会采用的策略。本步先聚焦如何训练并优化好一个集成学习算法,再考虑带入衍生特征后模型的优化方法。这里需要注意,少量特征和海量特征在优化策略方面也会有较大的差别。本专利经过六轮搜索调参,得到最优模型。
工作原理:数据预处理,在了解了数据集字段含义后,首先要对数据集的数据质量进行探索,属于数据探索的基础角度;通过标签取值分布、变量相关性分析以及探索性数据分析,探索标签取值,并结合标签相关性的强弱进行分析;对数据集的数据采用离散字段的数据进行重新编码,并对连续字段的特征变换;对数据的特征进行多类别衍生,并基于不同的衍生方式进行特征筛选;随机森林算法的训练与优化。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种基于特征衍生与特征筛选的车机用户流失预测方法,其特征在于:包括以下步骤:
步骤一、数据预处理,在了解了数据集字段含义后,首先要对数据集的数据质量进行探索,属于数据探索的基础角度;
步骤二、变量相关性探索分析,通过标签取值分布、变量相关性分析以及探索性数据分析,探索标签取值,并结合标签相关性的强弱进行分析;
步骤三、数据编码,对数据集的数据采用离散字段的数据进行重新编码,并对连续字段的特征变换;
步骤四、特征衍生和特征筛选,对数据的特征进行多类别衍生,并基于不同的衍生方式进行特征筛选,且特征衍生的类别包括基于业务背景的特征衍生、基于数据分布规律的特征衍生、时序特征衍生、多项式特征衍生、交叉组合特征衍生以及分组统计特征衍生;
步骤五、随机森林算法的训练与优化,在完成了特征衍生与初步筛选后,接下来就将进入到模型训练与优化的阶段,对特征的更精确的筛选其本质也可以看成是一种优化方法,在特征初筛结束后,围绕当前筛选出来的特征尝试进行模型训练。
2.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法,其特征在于:所述步骤一中,预处理主要为数据质量探索,包括数据集正确性校验、数据缺失值检验;字段类型探索包括时序字段处理、连续/离散型变量标注、缺失值检验与填补、异常值检验。
3.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法,其特征在于:所述步骤二中,变量相关性探索分析具体包括:
①标签取值分布,通过探索标签在不同特征上的分布,初步探索哪些特征对标签取值影响较大;
②变量相关性分析,首先先计算相关系数矩阵,直接通过具体数值大小来表示相关性强弱;
③探索性数据分析,通过对用户人口统计信息的简单探索性分析。
4.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法,其特征在于:所述步骤三中,对数据进行编码具体包括:
①离散字段的数据重编码,所用的方法包括:OrdinalEncoder自然数排序、OneHotEncoder独热编码、ColumnTransformer转化流水线;
②连续字段的特征变换,包括数据标准化和归一化、连续变量分箱。
5.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法,其特征在于:所述步骤四中,特征衍生和特征筛选包括:
①基于业务背景的特征衍生,在数据集中增加两个字段来衡量用户粘性,其一是新人用户标识(专门标记最近1-2个月内入网的用户)、其二是用户购买服务数量;
②基于数据分布规律的特征衍生,包括人口统计信息字段探索与特征衍生、合约周期字段探索与特征衍生,该方法通过计算IV(information value)值进行特征筛选;
③时序特征衍生,需要手动创建年、月、日和所属季度的特征,特征衍生后可以先通过相关系数,简单验证衍生的时序特征和标签之间的关系;
④多项式特征衍生,多项式的特征衍生也是通过相关系数进行筛选;
⑤交叉组合特征衍生,包括原始特征的两两交叉组合、原始特征的多变量交叉组合、带入时序衍生特征的交叉组合衍生;
⑥分组统计特征衍生,包括单变量分组统计、时序衍生字段分组统计、多变量分组统计,最终根据相关系数进行特征筛选。
6.根据权利要求1所述的一种基于特征衍生与特征筛选的车机用户流失预测方法,其特征在于:所述步骤五中,随机森林算法的训练与优化采用的是网格搜索策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211595349.5A CN115936763A (zh) | 2022-12-13 | 2022-12-13 | 一种基于特征衍生与特征筛选的车机用户流失预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211595349.5A CN115936763A (zh) | 2022-12-13 | 2022-12-13 | 一种基于特征衍生与特征筛选的车机用户流失预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115936763A true CN115936763A (zh) | 2023-04-07 |
Family
ID=86697481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211595349.5A Pending CN115936763A (zh) | 2022-12-13 | 2022-12-13 | 一种基于特征衍生与特征筛选的车机用户流失预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115936763A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
-
2022
- 2022-12-13 CN CN202211595349.5A patent/CN115936763A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
CN117252555B (zh) * | 2023-11-14 | 2024-04-09 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN111210093B (zh) | 基于大数据的日用水量预测方法 | |
CN104572449A (zh) | 一种基于用例库的自动化测试方法 | |
CN102508907A (zh) | 一种基于训练集优化的推荐系统的动态推荐方法 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN112149352B (zh) | 一种结合gbdt自动特征工程对营销活动点击的预测方法 | |
CN111950806B (zh) | 一种基于因子分解机的营销活动预测模型结构和预测方法 | |
US8577776B2 (en) | Risk and reward assessment mechanism | |
CN115936763A (zh) | 一种基于特征衍生与特征筛选的车机用户流失预测方法 | |
CN115965110A (zh) | 面向产业园区的企业用能画像及碳排放精准测算方法 | |
CN113591971B (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
CN103281555B (zh) | 基于半参考评估的视频流业务QoE客观评估方法 | |
CN114548494A (zh) | 一种可视化造价数据预测智能分析系统 | |
CN117453764A (zh) | 一种数据挖掘分析方法 | |
CN111966726A (zh) | 基于不同类型客户的自适应数据分析报告生成系统及方法 | |
CN110738565A (zh) | 基于数据集合的房产金融人工智能复合风控模型 | |
CN115759460A (zh) | 基于卷积神经网络的核心企业与供应商合作关系预测方法 | |
CN115456092A (zh) | 电力系统异常数据实时监测方法 | |
CN112581177B (zh) | 结合自动特征工程及残差神经网络的营销预测方法 | |
CN114240090A (zh) | 基于定量分析的发电装备工业互联网平台能力评价方法 | |
CN113837803A (zh) | 一种基于多模型融合的二手手机回收价格预测算法 | |
Mattiaa et al. | Modelling and evaluating an environmental damage scenario: Discussing an assessment model predicted through a geographical information system procedure | |
CN114757495A (zh) | 一种基于逻辑回归的会员价值量化评估方法 | |
CN114915563A (zh) | 一种网络流量预测方法和系统 | |
CN112633937A (zh) | 基于深度自动编码器降维结合梯度提升决策树的营销预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |