CN112232833A - 流失会员客群数据预测方法、模型训练方法及装置 - Google Patents

流失会员客群数据预测方法、模型训练方法及装置 Download PDF

Info

Publication number
CN112232833A
CN112232833A CN202010950478.6A CN202010950478A CN112232833A CN 112232833 A CN112232833 A CN 112232833A CN 202010950478 A CN202010950478 A CN 202010950478A CN 112232833 A CN112232833 A CN 112232833A
Authority
CN
China
Prior art keywords
data
loss
model
machine learning
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010950478.6A
Other languages
English (en)
Inventor
李伟杰
夏成成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202010950478.6A priority Critical patent/CN112232833A/zh
Publication of CN112232833A publication Critical patent/CN112232833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种流失会员客群数据预测方法、模型训练方法及装置,属于机器学习和人工智能技术领域。所述方法包括:统计分析会员流失数据,获取预定义的会员流失样本数据;对所述会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据;将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,所述机器学习分类模型用于预测流失会员客群。本发明通过结合大数据挖掘、特征数据构建及机器学习,实现了对流失用户数据的智能预测,预测精度较高,且学习、泛化能力强,为用户流失预警提供了强有力的数据支撑。

Description

流失会员客群数据预测方法、模型训练方法及装置
技术领域
本发明涉及机器学习和人工智能技术领域,特别涉及一种流失会员客群数据预测方法、模型训练方法及装置。
背景技术
在互联网高速发展的时代,相对于传统的实体店营销模式,线上平台营销的优势愈发明显。而会员制营销是线上战略营销的一个重要组成部分,目的是留住用户,与用户保持系统、持续、周期性的沟通,同时打通买卖双方的信息通道,开展全民综合的营销活动。但线上平台的竞争激烈,让广大用户面临更多的对比和选择,因此在资源有限的情况下,在提升产品和服务质量的同时扩展市场,增加会员数量,锁定目标客群成为重中之重。会员中老客户相对新客户更加成熟,更加了解商家的产品与服务,更加易于开展营销活动,同时吸引新的用户比维持老用户花费的成本更高,因此防止会员老用户流失,建立流失预警模型在会员整个生命周期的管理上都至关重要。
以往的会员流失预测多是基于行业领域的相关信息进行分析对比,但是随着互联网的发展,传统的统计学方法在面对海量数据时,缺少细致规范的处理,导致预测精度不高,不能满足学习、泛化能力和智能需求。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种流失会员客群数据预测方法、模型训练方法及装置,结合大数据挖掘、特征数据构建及机器学习,实现了对流失用户数据的智能预测,预测精度较高,且学习、泛化能力强,为用户流失预警提供了强有力的数据支撑。所述技术方案如下:
一方面,提供了一种流失会员客群数据预测模型训练方法,所述方法包括:
统计分析会员流失数据,获取预定义的会员流失样本数据;
对所述会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据;
将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,所述机器学习分类模型用于预测流失会员客群。
优选地,统计分析会员流失数据,获取预定义的会员流失样本数据,包括:
监测获取预定周期内的会员流失数据;
对所述会员流失数据进行分析计算,获取会员流失的建模数据时间窗参数与预测变量时间窗参数;
根据所述建模数据时间窗参数与所述预测变量时间窗参数,确定会员流失样本数据的会员样本分类条件;
根据所述会员样本分类条件标注正样本会员和负样本会员,根据获取到的所述正样本会员的特征数据以及所述负样本会员的特征数据,确定自变量建立特征宽表,得到所述会员流失样本数据。
优选地,所述会员流失数据包括流失用户数、流失率、留存率、持续沉默环比、回访用户数、回访率,所述特征数据包括会员基础属性、基础日期、会员价值属性、会员交易行为、会员浏览行为。
优选地,所述会员基础属性包括用户年龄、用户学历、月收入水平,所述基础日期包括实名认证时间、首次快捷绑卡时间、首次订单时间,所述会员价值属性包括APP活跃度、客户价值等级、首购产品类型,所述会员交易行为包括预定时间内的成功支付订单数、预定时间内的线上购买订单数、预定时间内的使用信用卡支付的金额,所述会员浏览行为包括预定时间内的浏览金融页面的访问次数、会员访问深度_跳出率、会员访问深度_页面数。
优选地,所述数据预处理包括:
数据清洗、数据衍生、缺失值处理、重复异常值处理、数据规整。
优选地,
所述缺失值处理包括:删除缺失值为90%的变量,根据预设业务意义规则填充缺失值;
所述重复异常值处理包括:删除重复值、异常值和为1的唯一值;
所述数据规整包括:对数据进行归一化、离散化、采样。
优选地,所述变量筛选包括:
进行相关性变量筛选,并根据利用随机森林+交叉验证计算的变量重要性指标进行变量筛选。
优选地,将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型包括:
按照预设比例条件设置模型训练样本和模型测试样本;
将所述模型训练样本输入随机森林模型、迭代+决策树组合模型进行训练,获得模型训练结果;
根据所述模型训练结果调整决策树算法数的深度和学习器的迭代次数,并通过ROC及KS曲线进行模型检验,从而获得训练好的机器学习分类模型。
另一方面,提供了一种流失会员客群数据预测方法,包括:将待测会员流失数据输入根据上述方案任一项所述的训练好的机器学习分类模型,计算得到流失会员客群数据预测结果。
又一方面,提供了一种流失会员客群数据预测模型训练装置,所述装置包括:
数据获取模块,用于:统计分析会员流失数据,获取预定义的会员流失样本数据;
特征构建模块,用于:对所述会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据;
模型计算模块,用于:将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,所述机器学习分类模型用于预测流失会员客群。
又一方面,提供了一种流失会员客群数据预测模型训练设备,包括:
处理器;
存储器,用于存储有所述处理器的可执行指令;
其中,所述处理器配置为经由所述可执行指令来执行上述方案任一项所述的流失会员客群数据预测模型训练的步骤。
本发明实施例提供的技术方案带来的有益效果是:
1、通过大数据挖掘和统计分析手段,把流失变化稳定的点作为时间观测节点,同时给出时间表现期确定正负样本,把实际的场景转化为基于分类算法的二分类问题;
2、采用会员基础属性、基础日期、会员价值属性、会员标签信息、会员交易行为、会员投资行为和会员浏览行为等多种类型变量构建会员特征宽表,既包含会员的基础信息,又包括活跃和价值信息,能够适用电商、出行、购物等APP,全方位涵盖会员特征;
3、采用随机森林+交叉验证输出特征的重要性,根据特征重要性拐点来筛选特征,同时采随机森林模型、迭代+决策树组合模型的分类方法训练模型获得模型参数,泛化能力好,准确性高;
4、特征覆盖面广泛,模型泛化能力强,能够接入不同场景,准确预测目标客群,提升会员价值,减少会员运营成本;
5、为用户流失预警提供了强有力的数据支撑,以便准确找到预流失会员,采取挽回措施,提升企业市场会员占有率,适用于涉及会员流失监控、预测、预警的多种应用场景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的流失会员客群数据预测模型训练方法流程图;
图2是图1中101步骤的子步骤流程图;
图3是会员流失数据的流失率和回访率随周变化折线图;
图4是会员流失数据观测周期设定示例;
图5是数据预处理和变量筛选在内的特征构建操作流程示例。
图6是ROC曲线示例;
图7是本发明实施例提供的流失会员客群数据预测模型训练装置结构示意图;
图8是本发明实施提供的流失会员客群数据预测模型训练设备结构示意图;
图9是本发明实施提供的流失会员客群数据预测模型训练方法、装置及设备的一优选实施方式的的业务流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
随着市场的逐渐饱和,市场用户的资源占有愈发重要,而经营一个老用户的成本远远低于会员拉新,因此如何在提升自身产品,增加用户黏性减少流失成为企业重点关注的问题。会员流失预警一直是值得研究的课题,传统的有基于统计知识的预测,有单一的机器学习算法的预测,但是随着大数据技术的不断更新,数据越来越复杂,导致一般的方法不能精确有效的预判出即将流失的会员。
而随着大数据的普及和数据挖掘技术的快速发展,会员流失的预测主要是根据用户的已有静态属性和动态特征,预判流失的可能性,及时采取有效措施,增加用户黏性,预防流失,如何将各种数据指标量化,通过算法构建特征空间,建立分类模型。而发明人发现,准确定位预流失用户是重点需要解决的问题,目前的会员流失模型,多采用单一的模型进行特征空间构建和分类,虽然可以克服传统方法中非线性映射的缺点,但是无法适应如今复杂的数据类型,泛化能力有限。因此提供一种流失会员客群数据预测方法、模型训练方法及装置,结合大数据挖掘、统计分析、特征数据构建及机器学习等技术,实现了对流失用户数据的智能预测,预测精度较高,且学习、泛化能力强,为用户流失预警提供了强有力的数据支撑,以便准确找到预流失会员,采取挽回措施,提升企业市场会员占有率,适用于涉及会员流失监控、预测、预警的多种应用场景。
下面结合具体实施例及附图,对本发明实施例提供的流失会员客群数据预测方法、模型训练方法及装置详细说明。
图1是本发明实施例提供的流失会员客群数据预测模型训练方法流程图,如图1所示,本发明实施例提供的流失会员客群数据预测模型训练方法包括以下步骤:
101、统计分析会员流失数据,获取预定义的会员流失样本数据。
为了达到流失会员客群数据预测的预期目的,可以将会员的流失预警转换为一个二分类问题,在建立分类模型之前如何定义目标变量十分重要。
优选地,如图2所示,上述101步骤进一步包括以下子步骤:
1011、监测获取预定周期内的会员流失数据。
这里的预定周期可以根据需要进行设定。优选地,会员流失数据包括流失用户数、流失率、留存率、持续沉默环比、回访用户数、回访率。用户随着距离首登时间的增加逐渐流失,如果用户太长时间没有登录,挽回的可能就会很小,因此为了给与用户足够的表现期,根据用户的首登起始时间为基点,以周为单位观察用户的流失和留存。示例性地,设定总体样本量为256156,以周为观测周期(即预定周期),会员流失数据的具体内容如下表1所示,流失率和回访率随周变化折线图如图3所示。
指标 1stweek 2stweek 3stweek 4stweek 5stweek 6stweek 7stweek
流失用 47020 35018 29420 26618 24484 23554 22577
流失率 18.36% 13.67% 11.49% 10.39% 9.56% 9.20% 8.81%
留存率 81.64% 86.33% 88.51% 89.61% 90.44% 90.80% 91.19%
持续沉 -- 34.27% 19.03% 10.53% 8.72% 3.95% 4.33%
回访用 28239 16237 10639 7837 5703 4773 3796
回访率 60.06% 46.37% 36.16% 29.44% 23.29% 20.26% 16.81%
表1会员流失数据表
1012、对会员流失数据进行分析计算,获取会员流失的建模数据时间窗参数与预测变量时间窗参数。
从图3的折线图可以看出,流失率在第1-2周时间段内变化趋势明显,在第5周以及往后时间内流失变化率趋于稳定,因此把持续35天未登录的用户定义为流失目标用户,给该部分用户7天的表现期,即得到的会员流失的建模数据时间窗参数为35天,预测变量时间窗参数为7天,正如图4所示。
1013、根据建模数据时间窗参数与预测变量时间窗参数,确定会员流失样本数据的会员样本分类条件。7天内回访的用户作为正样本,其他作为负样本。
1014、根据会员样本分类条件标注正样本会员和负样本会员,根据获取到的正样本会员的特征数据以及负样本会员的特征数据,确定自变量建立特征宽表,得到会员流失样本数据。定义完成目标客群之后,需要确定自变量建立特征宽表。
优选地,如下表2所示,特征数据包括会员基础属性、基础日期、会员价值属性、会员交易行为、会员浏览行为。会员基础属性包括用户年龄、用户学历、月收入水平,基础日期包括实名认证时间、首次快捷绑卡时间、首次订单时间,会员价值属性包括APP活跃度、客户价值等级、首购产品类型,会员交易行为包括预定时间内的成功支付订单数、预定时间内的线上购买订单数、预定时间内的使用信用卡支付的金额,会员浏览行为包括预定时间内的浏览金融页面的访问次数、会员访问深度_跳出率、会员访问深度_页面数。
Figure BDA0002676711540000081
表2特征数据表
值得注意的是,步骤101的过程,除了上述步骤所述的方式之外,在不脱离本发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
102、对会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据。
获取了会员的基础特征之后需要对数据进行预处理以及变量筛选,最后进行数据特征工程构建,根据变量的重要性筛选变量,用于模型构建。
优选地,数据预处理包括:数据清洗、数据衍生、缺失值处理、重复异常值处理、数据规整。缺失值处理包括:删除缺失值为90%的变量,根据预设业务意义规则填充缺失值;重复异常值处理包括:删除重复值、异常值和为1的唯一值;数据规整包括:对数据进行归一化、离散化、采样。变量筛选包括:进行相关性变量筛选,并根据利用随机森林+交叉验证计算的变量重要性指标进行变量筛选,正如图5所示。
值得注意的是,步骤102的过程,除了上述步骤所述的方式之外,在不脱离本发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
103、将特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,机器学习分类模型用于预测流失会员客群。
优选地,按照预设比例条件设置模型训练样本和模型测试样本;将模型训练样本输入随机森林模型、迭代+决策树组合模型,获得模型训练结果;根据模型训练结果调整决策树算法数的深度和学习器的迭代次数,并通过ROC及KS曲线进行模型检验。
对筛选后的变量,需要建立分类模型,预测即将流失的会员客群,可用的分类算法有逻辑回归、随机森林、GBDT、SVM等等。示例性地,在模型开发过程中,80%的样本作为训练样本来训练样本,20%的样本作为测试样用来预测模型的好坏,同时调整模型的参数,采用样本外数据验证模型的好坏。考虑到数据的不均衡性,模型的可解释性,模型性能等问题,采用随机森林(Random Forest)和Adaboost+Decision Tree(Adaboost+决策树)模型解决该二分类问题。一方面,两个模型都可以加入‘class_weight’参数进一步调整两类样本的权重;另一方面,Adaboost可以加强对难以分类的样本的分类;此外,两个模型都可以输出标签在模型内的重要程度,方便对模型结果的理解。采用训练好的模型参数,调整决策树算法数的深度和学习器的迭代次数,用同一批样本外的数据的ROC及KS曲线作为模型检验的依据,最终预测出即将流失的会员客群,ROC曲线如图6所示。值得注意的是,步骤103的过程,除了上述步骤所述的方式之外,在不脱离本发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
另外,本发明实施例还提供了一种流失会员客群数据预测方法,包括:将待测会员流失数据输入上述训练好的机器学习分类模型,计算得到流失会员客群数据预测结果。
图7是本发明实施例提供的流失会员客群数据预测模型训练装置结构示意图。如图7所示,本发明实施例提供的流失会员客群数据预测模型训练装置包括数据获取模块21、特征构建模块22和模型计算模块23。数据获取模块21,用于:统计分析会员流失数据,获取预定义的会员流失样本数据;特征构建模块22,用于:对会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据;模型计算模块23,用于:将特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,所述机器学习分类模型用于预测流失会员客群。
图8是本发明实施提供的流失会员客群数据预测模型训练设备结构示意图,如图8所示,该流失会员客群数据预测模型训练设备包括:处理器31;存储器32,用于存储有处理器的可执行指令;其中,处理器31配置为经由所述可执行指令(即程序)来执行上述任一项方案所述的流失会员客群数据预测模型训练设备的步骤。
图9示出了本发明实施提供的流失会员客群数据预测模型训练方法、装置及设备的业务流程操作的一优选实施方式,需要说明的是,其中的实施方式仅仅是示例性的,不排除其他不脱离本发明发明构思的变换设置可能。
需要说明的是:上述实施例提供的流失会员客群数据预测模型训练装置、设备在触发流失会员客群数据预测模型训练业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置或设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的流失会员客群数据预测模型训练装置、设备与流失会员客群数据预测模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的流失会员客群数据预测方法、模型训练方法及装置,相比现有技术,具有以下有益效果:
1、通过大数据挖掘和统计分析手段,把流失变化稳定的点作为时间观测节点,同时给出时间表现期确定正负样本,把实际的场景转化为基于分类算法的二分类问题;
2、采用会员基础属性、基础日期、会员价值属性、会员标签信息、会员交易行为、会员投资行为和会员浏览行为等多种类型变量构建会员特征宽表,既包含会员的基础信息,又包括活跃和价值信息,能够适用电商、出行、购物等APP,全方位涵盖会员特征;
3、采用随机森林+交叉验证输出特征的重要性,根据特征重要性拐点来筛选特征,同时采随机森林模型、迭代+决策树组合模型的分类方法训练模型获得模型参数,泛化能力好,准确性高;
4、特征覆盖面广泛,模型泛化能力强,能够接入不同场景,准确预测目标客群,提升会员价值,减少会员运营成本;
5、为用户流失预警提供了强有力的数据支撑,以便准确找到预流失会员,采取挽回措施,提升企业市场会员占有率,适用于涉及会员流失监控、预测、预警的多种应用场景。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种流失会员客群数据预测模型训练方法,其特征在于,所述方法包括:
统计分析会员流失数据,获取预定义的会员流失样本数据;
对所述会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据;
将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,所述机器学习分类模型用于预测流失会员客群。
2.根据权利要求1所述的方法,其特征在于,统计分析会员流失数据,获取预定义的会员流失样本数据,包括:
监测获取预定周期内的会员流失数据;
对所述会员流失数据进行分析计算,获取会员流失的建模数据时间窗参数与预测变量时间窗参数;
根据所述建模数据时间窗参数与所述预测变量时间窗参数,确定会员流失样本数据的会员样本分类条件;
根据所述会员样本分类条件标注正样本会员和负样本会员,根据获取到的所述正样本会员的特征数据以及所述负样本会员的特征数据,确定自变量建立特征宽表,得到所述会员流失样本数据。
3.根据权利要求2所述的方法,其特征在于,所述会员流失数据包括流失用户数、流失率、留存率、持续沉默环比、回访用户数、回访率,所述特征数据包括会员基础属性、基础日期、会员价值属性、会员交易行为、会员浏览行为。
4.根据权利要求3所述的方法,其特征在于,所述会员基础属性包括用户年龄、用户学历、月收入水平,所述基础日期包括实名认证时间、首次快捷绑卡时间、首次订单时间,所述会员价值属性包括APP活跃度、客户价值等级、首购产品类型,所述会员交易行为包括预定时间内的成功支付订单数、预定时间内的线上购买订单数、预定时间内的使用信用卡支付的金额,所述会员浏览行为包括预定时间内的浏览金融页面的访问次数、会员访问深度_跳出率、会员访问深度_页面数。
5.根据权利要求1所述的方法,其特征在于,所述数据预处理包括:
数据清洗、数据衍生、缺失值处理、重复异常值处理、数据规整。
6.根据权利要求5所述的方法,其特征在于,
所述缺失值处理包括:删除缺失值为90%的变量,根据预设业务意义规则填充缺失值;
所述重复异常值处理包括:删除重复值、异常值和为1的唯一值;
所述数据规整包括:对数据进行归一化、离散化、采样。
7.根据权利要求1所述的方法,其特征在于,所述变量筛选包括:
进行相关性变量筛选,并根据利用随机森林+交叉验证计算的变量重要性指标进行变量筛选。
8.根据权利要求1至7任一项所述的方法,其特征在于,将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型包括:
按照预设比例条件设置模型训练样本和模型测试样本;
将所述模型训练样本输入随机森林模型、迭代+决策树组合模型进行训练,获得模型训练结果;
根据所述模型训练结果调整决策树算法数的深度和学习器的迭代次数,并通过ROC及KS曲线进行模型检验,从而获得训练好的机器学习分类模型。
9.一种流失会员客群数据预测方法,其特征在于,包括:将待测会员流失数据输入根据权利要求1至8任一项所述的训练好的机器学习分类模型,计算得到流失会员客群数据预测结果。
10.一种流失会员客群数据预测模型训练装置,其特征在于,所述装置包括:
数据获取模块,用于:统计分析会员流失数据,获取预定义的会员流失样本数据;
特征构建模块,用于:对所述会员流失样本数据进行包括数据预处理和变量筛选在内的特征构建操作,得到特征变量数据;
模型计算模块,用于:将所述特征变量数据输入预设机器学习分类模型进行训练,得到训练好的机器学习分类模型,所述机器学习分类模型用于预测流失会员客群。
CN202010950478.6A 2020-09-11 2020-09-11 流失会员客群数据预测方法、模型训练方法及装置 Pending CN112232833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010950478.6A CN112232833A (zh) 2020-09-11 2020-09-11 流失会员客群数据预测方法、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010950478.6A CN112232833A (zh) 2020-09-11 2020-09-11 流失会员客群数据预测方法、模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN112232833A true CN112232833A (zh) 2021-01-15

Family

ID=74116786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010950478.6A Pending CN112232833A (zh) 2020-09-11 2020-09-11 流失会员客群数据预测方法、模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN112232833A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240451A (zh) * 2021-04-12 2021-08-10 西南财经大学 一种用户流失的预测方法和装置
CN113379452A (zh) * 2021-06-07 2021-09-10 广发银行股份有限公司 一种手机银行客户流失预警方法及系统
CN113421122A (zh) * 2021-06-25 2021-09-21 创络(上海)数据科技有限公司 改进的迁移学习框架下的首购用户精细化流失预判方法
CN113436020A (zh) * 2021-08-26 2021-09-24 深圳华锐金融技术股份有限公司 违规账户的识别方法、装置、计算机设备和存储介质
CN113657808A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 一种人员评定方法、装置、设备及存储介质
CN113935780A (zh) * 2021-10-28 2022-01-14 平安银行股份有限公司 基于生存分析的客户流失风险的预测方法、及其相关设备
CN114707699A (zh) * 2022-03-04 2022-07-05 易视腾科技股份有限公司 基于机器学习的网络电视订单退订预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN109359770A (zh) * 2018-10-11 2019-02-19 中国疾病预防控制中心环境与健康相关产品安全所 一种基于机器学习预测中暑发生的模型及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN109359770A (zh) * 2018-10-11 2019-02-19 中国疾病预防控制中心环境与健康相关产品安全所 一种基于机器学习预测中暑发生的模型及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240451A (zh) * 2021-04-12 2021-08-10 西南财经大学 一种用户流失的预测方法和装置
CN113379452A (zh) * 2021-06-07 2021-09-10 广发银行股份有限公司 一种手机银行客户流失预警方法及系统
CN113421122A (zh) * 2021-06-25 2021-09-21 创络(上海)数据科技有限公司 改进的迁移学习框架下的首购用户精细化流失预判方法
CN113436020A (zh) * 2021-08-26 2021-09-24 深圳华锐金融技术股份有限公司 违规账户的识别方法、装置、计算机设备和存储介质
CN113436020B (zh) * 2021-08-26 2021-12-10 深圳华锐金融技术股份有限公司 违规账户的识别方法、装置、计算机设备和存储介质
CN113657808A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 一种人员评定方法、装置、设备及存储介质
CN113935780A (zh) * 2021-10-28 2022-01-14 平安银行股份有限公司 基于生存分析的客户流失风险的预测方法、及其相关设备
CN113935780B (zh) * 2021-10-28 2024-05-17 平安银行股份有限公司 基于生存分析的客户流失风险的预测方法、及其相关设备
CN114707699A (zh) * 2022-03-04 2022-07-05 易视腾科技股份有限公司 基于机器学习的网络电视订单退订预测方法

Similar Documents

Publication Publication Date Title
CN112232833A (zh) 流失会员客群数据预测方法、模型训练方法及装置
US10467572B1 (en) Systems and methods for control strategy criteria selection
CN112561598B (zh) 基于客户画像的客户流失预测及挽回方法和系统
Ngo et al. Calibration and validation of agent-based models of land cover change
CN111160473A (zh) 一种分类标签的特征挖掘方法及装置
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
US20190354993A1 (en) System and method for generation of case-based data for training machine learning classifiers
Shukla et al. Comparative analysis of ml algorithms & stream lit web application
Kulkarni et al. Evolve systems using incremental clustering approach
CN110674178B (zh) 构建用户画像标签的方法及其系统
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN113138977A (zh) 交易转化分析方法、装置、设备及存储介质
CN111160929B (zh) 一种客户类型的确定方法及装置
Chashmi et al. Predicting customer turnover using recursive neural networks
CN116911994A (zh) 对外贸易风险预警系统
Dewi et al. Modification of random forest method to predict student graduation data
CN113706258B (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
Prasasti et al. Customer lifetime value and defection possibility prediction model using machine learning: An application to a cloud-based software company
CN115293783A (zh) 风险用户识别方法、装置、计算机设备和存储介质
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
Zamula et al. Binary Recommender System with Artificial Intelligence Aids
Arghir Web-Based Machine Learning System for Assessing Consumer Behavior
Tavakolirad et al. Key Performance Indicators Analysis Using Machine Learning Techniques
Hardjono et al. Implementation of Data Mining for Churn Prediction in Music Streaming Company Using 2020 Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210115

RJ01 Rejection of invention patent application after publication