CN110147803B

CN110147803B - 用户流失预警处理方法与装置

Info

Publication number: CN110147803B
Application number: CN201810130083.4A
Authority: CN
Inventors: 陈实如
Original assignee: FOUNDER BROADBAND NETWORK SERVICE CO LTD; Peking University Founder Group Co Ltd
Current assignee: FOUNDER BROADBAND NETWORK SERVICE CO LTD; Peking University Founder Group Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2022-02-18
Anticipated expiration: 2038-02-08
Also published as: CN110147803A

Abstract

本发明提供一种用户流失预警处理方法与装置，方法包括：根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息；根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息；根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的。从而能够提高用户流失风险预测的准确率，进而减少用户的流失，降低企业损失。

Description

用户流失预警处理方法与装置

技术领域

本发明涉及数据处理领域，尤其涉及一种用户流失预警处理方法与装置。

背景技术

随着互联网业务的发展，可供用户选择的电信宽带的种类逐渐增加，而在电信行业中，获取新用户的成本远远大于老用户的维护，因此，为了实现用户的留存，需要对用户的流失概率进行预测。

现有的用户流失预测方法一般是从各个业务系统中获取当前用户的全部业务数据，并直接根据获取到的获取当前用户的全部业务数据来建立用户流失概率模型，实现对用户流失概率的计算。

但是，采用上述方法计算用户流失概率时，在大数据工具建立模型的过程中，往往会忽略一些占比重较小的数据，以实际应用来举例，在分析宽带用户流失原因时，采用上述方法来计算用户流失概率，由于投诉用户只占当前获取的全部业务数据的2％，因此往往很容易得出投诉不是影响用户流失的关键原因之一，但是，统计发现，在一年时间内发生投诉的用户中，有50％-60％的比例出现了流失；对于出现2次以上投诉用户流失的概率更高。由此可见，直接根据获取到的业务数据对用户流失概率计算往往不够准确，进而会导致用户大量流失，并给企业带来不必要的损失。

发明内容

本发明提供一种用户流失预警处理方法与装置，用于解决现有技术中由于大数据处理时造成的重要数据丢失而导致的用户流失概率计算不准确的技术问题。

本发明的第一个方面是提供一种用户流失预警处理方法，包括：

根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息；

根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息；

根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的。

本发明的另一个方面是提供一种用户流失预警处理装置，包括：

分类模块，用于根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息；

聚类模块，用于根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息；

预测模块，用于根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的。

本发明提供的用户流失预警处理方法与装置，通过预先按照预设的维度对获取到的第一业务特征信息进行分类，并将分类之后的第一业务特征信息按照用户所接入的小区进行二次分类，针对不同的小区建立不同的用户流失预测模型，实现对待测用户流失概率的准确运算。本发明通过预先对获取到的第一业务特征信息进行分类，针对每一个维度计算用户的流失概率，从而能够避免在后续大数据处理时数据流失而导致的预测结果不准确的缺陷，提高预测结果的准确性，进而能够减少用户流失，降低企业的损失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的用户流失预警处理方法的流程示意图；

图2为本发明实施例二提供的用户流失预警处理方法的流程示意图；

图3为本发明实施例三提供的用户流失预警处理装置的结构示意图；

图4为本发明实施例四提供的用户流失预警处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的用户流失预警处理方法的流程示意图，如图1所示，所述方法还包括：

101、根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息。

现有的用户流失风险预测方法中，一般是从各个业务系统中获取当前用户的全部业务数据，并直接根据获取到的获取当前用户的全部业务数据来建立用户流失概率模型，实现对用户流失概率的计算。但是，采用该方法计算用户流失概率时，在大数据工具建立模型的过程中，往往会忽略一些占比重较小的数据，以实际应用来举例，在分析宽带用户流失原因时，采用上述方法来计算用户流失概率，由于投诉用户只占当前获取的全部业务数据的2％，因此往往很容易得出投诉不是影响用户流失的关键原因之一，但是，统计发现，在一年时间内发生投诉的用户中，有50％-60％的比例出现了流失；对于出现2次以上投诉用户流失的概率更高。由此可见，直接根据获取到的业务数据对用户流失概率计算往往不够准确，进而会导致用户大量流失，并给企业带来不必要的损失。

因此，为了提高用户流失预测的准确性，在建立用户流失预测模型之前，需要根据预先设置的各个维度对获取到的已流失用户的用户特征数据进行分类。具体地，已流失用户包括但不限于当前已经停止使用宽带或者没有续交宽带费用的用户，第一业务特征信息包括用户基本信息以及宽带使用信息；预先设置的维度包括但不限于用户ID、性别、年龄段，小区有效用户，小区接入率、覆盖方式；本期入网时间段，本期合同执行期占比，当期宽带产品，当期月均ARPU、当期宽带时长，累计缴费金额、历史上续费次数、平均续费时长，过去1月访问线上平台次数，过去3月访问线上平台次数，微信公众号关注时长，过去3月微信满意度调查结果；日平均上网时长，日主要上网时段，视频网络使用占比，游戏网络使用占比，过去三月访问租房网次数；网络平均时延，网页首页打开时间，站点DNS解析时长，文件平均下载速度；过去三月故障数量，过去1年故障数量，过去3月故障回访满意度平均值，过去12月故障回访满意度平均值；平均每天上网终端数量，主要上网终端类型等。

需要说明的是，对第一业务特征信息进行分类之后，后续再计算用户流失概率时，即可将每个维度对应的第一业务特征信息作为一个完整的单元进行计算，从而能够避免在大数据处理时而造成的数据丢失，进而提高了用户流失概率计算的准确性。

102、根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息。

实际应用中，由于用户流失与很多因素都有很大的关联，不同用户类型对应的流失概率也有所不同，用户类型可以包括用户的不同入网时间、用户接入的不同小区等，举例来说，即使在统一管理体系下，宽带运营业务分布的城市区域不同，网络质量不同，线下运维团队不同，用户体验存在差异，用户对运营商的认可度也存在差别，也就是说非同一业务场景下的预测用户数据不存在关联性，从而导致计算结果会出现误差。因此，为了提高用户流失预测概率的准确性，需对已经按照维度进行分类的用户第一业务特征信息按照预设的用户类型进行再一次分类。具体地，首先需要根据预设的用户类型，对已经分类的各维度下的第一业务特征信息中的相同用户类型对应的第一业务特征信息进行聚类，从而能够获得不同用户类型下各维度的第一业务特征信息。

103、根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的。

在本实施方式中，由于不同小区对应的客户服务、网络服务都有着较大的差异，故不同小区的流失概率也有所不同，相应地用户流失的维度也有所不同，因此，为了提高用户流失预测概率的准确性，应该针对不同的小区建立不同的用户流失预测模型。具体地，针对每一个小区，可以根据该小区对应的各维度对应的第一业务特征信息进行机器学习，获取各个小区对应的用户流失预测模型。获取到各个小区对应的用户流失预测模型之后，可以获取当前待测用户对应的第二业务特征信息，并将获取到的第二业务特征信息加入用户流失预测模型，从而能够获得当前待测用户的流失风险系数。具体地，流失风险系数按{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}取值。用户流失风险系数0.8，意味着在满足该业务特征分布式宽带用户80％出现流失，该用户流失概率0.8，属于高风险流失用户。在宽带领域风险系数0～0.3可归为流失低风险用户，0.4～0.6归为流失中风险用户，0.7～1归为流失高风险用户。用户的流失风险可以作为宽带用户画像的组成部分。

本实施例提供的用户流失预警处理方法，通过预先按照预设的维度对获取到的第一业务特征信息进行分类，并将分类之后的第一业务特征信息按照用户所接入的小区进行二次分类，针对不同的小区建立不同的用户流失预测模型，实现对待测用户流失概率的准确运算。本发明通过预先对获取到的第一业务特征信息进行分类，针对每一个维度计算用户的流失概率，从而能够避免在后续大数据处理时数据流失而导致的预测结果不准确的缺陷，提高预测结果的准确性，进而能够减少用户流失，降低企业的损失。

可选地，由于不同用户类型对应的用户流失概率存在差异，因此，可以将入网时间作为当前的用户类型对各维度下的第一业务特征信息进行聚类，具体地，所述用户类型包括所述已流失用户所接入的各小区；步骤102具体包括：

根据所述已流失用户所接入的小区，将所述各维度下的第一业务特征信息中相同小区对应的第一业务特征信息进行聚类，获得不同小区下各维度的第一业务特征信息。

在本实施方式中，即使在统一管理体系下，宽带运营业务分布的城市区域不同，网络质量不同，线下运维团队不同，用户体验存在差异，用户对运营商的认可度也存在差别，也就是说非同一业务场景下的预测用户数据不存在关联性，从而导致计算结果会出现误差。因此，为了提高用户流失预测概率的准确性，可以对当前获取的已流失用户的第一业务特征信息进行分类，获取当前全部已流失用户所接入的小区，并将用户所接入的小区作为当前的用户类型，将各维度下的第一业务特征信息中相同小区对应的第一业务特征信息进行聚类，获得不同小区下各维度的第一业务特征信息，以便后续根据用户接入的不同小区建立多个用户流失预测模型。

可选地，用户入网时间不同所产生的流失概率也有所差异，因此，可以将用户入网时间作为当前的用户类型，具体地，所述用户类型包括所述已流失用户的入网时长，步骤102具体包括：

根据所述已流失用户的入网时长，将所述各维度下的第一业务特征信息中相同入网时长对应的第一业务特征信息进行聚类，获得不同入网时长下各维度的第一业务特征信息。

在本实施例中，入网时长不同，用户对宽带运营商产品的体验不同，服务不同，导致用户流失的业务特征维度也不同，因此，为了提高用户流失预测概率的准确性，需对已经按照维度进行分类的用户第一业务特征信息进行聚类。具体地，首先根据预设的维度对预先获取的已流失用户的第一业务特征信息进行分类，并获取当前已流失用户的入网时间，根据已流失用户的入网时长，将各维度下的第一业务特征信息中相同入网时长对应的第一业务特征信息进行聚类，获得不同入网时长下各维度的第一业务特征信息。举例来说，可以根据用户入网时长，将用户分为月度用户，季度用户，半年度用户，1年用户，2年用户，3年用户，3年以上用户。针对每一个入网时长，可以根据该入网时长下各维度的第一业务特征信息进行机器学习，获取各个入网时间对应的用户流失预测模型。

本实施例提供的用户流失预警处理方法，通过将已经按照预设的维度划分后的第一业务特征信息按照用户入网时间或用户所接入的小区进行进一步地聚类，并根据聚类的数据建立用户流失预测模型，从而能够保证同一用户流失预测模型对应的用户存在一定的关联性，进而能够使用户流失预测概率较为准确。

需要说明的是，上述两个实施例可以结合实施，也可以单独实施，具体地，结合实施时可以首先根据用户所接入的小区获得不同小区下各维度的第一业务特征信息，再针对每一小区，按照不同的用户入网时间获得不同入网时长下各维度的第一业务特征信息，再根据每一小区对应的相同入网时长下各维度的第一业务特征信息进行建模，从而能够保证同一用户流失预测模型对应的用户关联性较强，相应地，计算获得的用户流失预测概率更为准确。

进一步地，在上述任一实施例的基础上，步骤101之后，所述方法还包括：

通过预设的第一算法对所述各维度对应的第一业务特征信息进行降维。

在本实施例中，由于第一业务特征数据的数据量较大，因此，计算过程中，服务器压力较大，因此，为了提高运算速度，可以根据预设的第一算法对各维度对应的第一业务特征数据进行降维。具体地，为了保证在降维过程中，一些较为重要的数据不会丢失，在降维过程中可以预先由用户选择较为重要的维度对应的第二业务特征数据进行保留，之后在根据预设的第一业务特征数据进行降维，举例来说，虽然在第一业务特征信息中用户投诉信息占比较小，但是流失概率较大，因此，为了保证占比较小的数据不丢失，可以接受用户的选择，将用户投诉信息予以保留。具体地，预设的第一算法可以采用现有技术中任一可以实现对数据降维的降维算法来实现，本发明在此不作限制。

本实施例提供的用户流失预警处理方法，通过对各维度对应的第一业务特征信息进行降维，从而能够降低Hadoop平台的储存计算量，提高运算速度，提升模型运算效率。

进一步地，在上述任一实施例的基础上，步骤103之后，所述方法还包括：

根据所述待测用户的流失风险系数，从不同的流失风险系数对应的维护措施中选取相应的维护措施进行处理。

在本实施例中，获得待测用户流失概率之后，为了实现对用户的维护，可以针对不同的风险系数采取用户的维护措施，具体地，在宽带领域风险系数0～0.3可归为流失低风险用户，0.4～0.6归为流失中风险用户，0.7～1归为流失高风险用户。对低风险流失用户采用短信微信营销措施，在用户合同到期前1-3个月短信微信提醒用户，提醒宽带产品即将到期，并链接请线上续费入口；对中风险流失用户采用电话营销措施，在用户合同到期前1-3个月电话联系用户，提醒宽带产品即将到期，在电话营销的同时参考流失原因特征增补营销措施；对于高风险流失用户采用电话营销+线下上门营销措施，通过赠送网时赠送产品赠送服务的方式避免用户流失。

本实施例提供的用户流失预警处理方法，对不同流失风险系数采取不同的维护措施，通过差异化精准的营销方式可大大减低运营成本，提高用户续费率，避免用户流失，避免企业损失。

进一步地，在上述任一实施例的基础上，步骤101之前，所述方法还包括：

从宽带受理平台和/或线上业务营销系统和/或网络质量管理平台和/或上网行为管理平台和/或宽带客服系统中获取所述已流失用户的所述第一业务特征信息。

在本实施例中，首先应该从宽带受理平台和/或线上业务营销系统和/或网络质量管理平台和/或上网行为管理平台和/或宽带客服系统中获取已流失用户的第一业务特征信息。具体地，宽带受理平台BOSS：记录社区宽带竞争对手、用户基本信息、宽带套餐ARPU值，宽带用户办理时间阶段，缴费续费过程记录等。线上业务营销系统BOMS：记录用户访问线上商城，浏览产品，购买产品，关注个人空间报报故障投诉，查看积分等记录等。网络质量管理平台NQM：记录某个宽带ID用户上网过程网络质量，包含网络时延、网络抖动，网路吞吐量、网络下载速度等数据特征。上网行为管理平台PA：记录用户上网行为，常见访问网站，上网时段等数据特征。宽带客服系统NCSM：记录宽带使用过程中用户发起的客服记录，包含故障记录，满意度记录，投诉记录，回访记录等。具体地，数据获取的方法有多种，举例来说，可以通过人工从上述各数据库中获取第一业务特征信息，也可以通过机器学期的方式从上述各数据库中获取第一业务特征信息，或者其他任意可以实现数据获取的方法，本发明在此不作限制。

本实施例提供的用户流失预警处理方法，通过从多个不同数据库获取用户对应的业务特征信息，并通过该业务特征信息训练用户流失预测模型，从而能够增加用户流失预测概率的准确性。

图2为本发明实施例二提供的用户流失预警处理方法的流程示意图，如图2所示，在上述任一实施例的基础上，所述方法包括：

201、针对每个所述用户类型，根据预设的第二算法确定所述各维度下的第一业务特征信息对应的流失概率。

202、根据所述用户类型下各维度对应的用户流失概率与预设的第三算法建立待训练模型。

203、根据所述已流失用户的第一业务特征信息与所述已流失用户的第一业务特征信息对应的流失风险系数对所述待训练模型进行训练，获得所述用户类型对应的用户流失预测模型，所述用户类型对应的用户流失预测模型用于表征各用户类型对应的第一业务特征信息与流失风险系数之间的关系。

在本实施例中，针对每一用户类型，可以通过预设的第二算法计算该用户类型下各维度流失概率。具体地，可以通过决策树、随机森林、SVM、AdaBoost、GBDT、LR、BP等算法进行计算，本发明在此不作限制。计算获得各维度对应的流失概率之后，可以根据各维度对应的用户流失概率与预设的第三算法建立待训练模型，其中，第三算法可由公式1表示：

P＝P₁*W(1)+P₂*W(2)+P₃*W(3)+……+P_i*W(i) (1)

其中，P_i为各维度对应的用户流失概率，W(i)为各维度对应的用户流失的权重，其中，各维度对应的权重的和为1，W(1)+W(2)+W(3)+……+W(i)＝1。

建立待训练模型模型之后，可以将已流失用户随机分为训练集与测试集，并根据已流失用户的第一业务特征信息与已流失用户的第一业务特征信息对应的流失风险系数对待训练模型进行训练，挖掘出各维度对应的权重W(i)，获得各用户类型对应的用户流失预测模型。具体地，该用户流失预测模型用于表征各用户类型对应的第一业务特征信息与流失风险系数之间的关系，因此，后续只需将用户的第一业务特征信息加入进用户流失预测模型中，即可得出该第一业务特征信息对应的用户的流失风险。需要说明的是，如上述实际应用中，占比较小的用户投诉往往对应较高的流失概率，因此，在通过机器学习获得各维度对应的权重之后，为了提高用户流失风险系数的准确性，还需由用户自行对权重进行进一步地调节，例如将流失概率较高的维度对应的权重调高。

可选地，该权重还可以由用户自行设置，例如，每个维度对应的权重都为一相同的数值，也可以根据各维度对应的不同概率进行设置，流失概率高的维度对应的权重也较高。此外，还可以通过现有技术中任一中计算权重的方法来获取各维度所对应的权重，本发明在此不作限制。

针对每一用户类型，重复执行上述步骤，直至针对每一个用户类型都建立一个对应的用户流失预测模型。

本实施例提供的用户流失预警处理方法，通过建立各个用户类型对应的用户流失预测模型，从而使后续计算中，不同数据采用不同的预测模型，能够提高用户流失预测概率的准确性。

图3为本发明实施例三提供的用户流失预警处理装置的结构示意图，如图3所示，所述装置还包括：

分类模块31，用于根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息。

聚类模块32，用于根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息。

预测模块33，用于根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的。

因此，为了提高用户流失预测的准确性，在建立用户流失预测模型之前，分类模块31需要根据预先设置的各个维度对获取到的已流失用户的用户特征数据进行分类。具体地，已流失用户包括但不限于当前已经停止使用宽带或者没有续交宽带费用的用户，第一业务特征信息包括用户基本信息以及宽带使用信息；预先设置的维度包括但不限于用户ID、性别、年龄段，小区有效用户，小区接入率、覆盖方式；本期入网时间段，本期合同执行期占比，当期宽带产品，当期月均ARPU、当期宽带时长，累计缴费金额、历史上续费次数、平均续费时长，过去1月访问线上平台次数，过去3月访问线上平台次数，微信公众号关注时长，过去3月微信满意度调查结果；日平均上网时长，日主要上网时段，视频网络使用占比，游戏网络使用占比，过去三月访问租房网次数；网络平均时延，网页首页打开时间，站点DNS解析时长，文件平均下载速度；过去三月故障数量，过去1年故障数量，过去3月故障回访满意度平均值，过去12月故障回访满意度平均值；平均每天上网终端数量，主要上网终端类型等。

实际应用中，由于用户流失与很多因素都有很大的关联，不同用户类型对应的流失概率也有所不同，用户类型可以包括用户的不同入网时间、用户接入的不同小区等，举例来说，即使在统一管理体系下，宽带运营业务分布的城市区域不同，网络质量不同，线下运维团队不同，用户体验存在差异，用户对运营商的认可度也存在差别，也就是说非同一业务场景下的预测用户数据不存在关联性，从而导致计算结果会出现误差。因此，为了提高用户流失预测概率的准确性，需对已经按照维度进行分类的用户第一业务特征信息按照预设的用户类型进行再一次分类。具体地，聚类模块32首先需要根据预设的用户类型，对已经分类的各维度下的第一业务特征信息中的相同用户类型对应的第一业务特征信息进行聚类，从而能够获得不同用户类型下各维度的第一业务特征信息。

在本实施方式中，由于不同小区对应的客户服务、网络服务都有着较大的差异，故不同小区的流失概率也有所不同，相应地用户流失的维度也有所不同，因此，为了提高用户流失预测概率的准确性，应该针对不同的小区建立不同的用户流失预测模型。具体地，针对每一个小区，可以根据该小区对应的各维度对应的第一业务特征信息进行机器学习，获取各个小区对应的用户流失预测模型。获取到各个小区对应的用户流失预测模型之后，预测模块33可以获取当前待测用户对应的第二业务特征信息，并将获取到的第二业务特征信息加入用户流失预测模型，从而能够获得当前待测用户的流失风险系数。具体地，流失风险系数按{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}取值。用户流失风险系数0.8，意味着在满足该业务特征分布式宽带用户80％出现流失，该用户流失概率0.8，属于高风险流失用户。在宽带领域风险系数0～0.3可归为流失低风险用户，0.4～0.6归为流失中风险用户，0.7～1归为流失高风险用户。用户的流失风险可以作为宽带用户画像的组成部分。

本实施例提供的用户流失预警处理装置，通过预先按照预设的维度对获取到的第一业务特征信息进行分类，并将分类之后的第一业务特征信息按照用户所接入的小区进行二次分类，针对不同的小区建立不同的用户流失预测模型，实现对待测用户流失概率的准确运算。本发明通过预先对获取到的第一业务特征信息进行分类，针对每一个维度计算用户的流失概率，从而能够避免在后续大数据处理时数据流失而导致的预测结果不准确的缺陷，提高预测结果的准确性，进而能够减少用户流失，降低企业的损失。

可选地，由于不同用户类型对应的用户流失概率存在差异，因此，可以将入网时间作为当前的用户类型对各维度下的第一业务特征信息进行聚类，具体地，所述用户类型包括所述已流失用户所接入的各小区；聚类模块32具体包括：

第一分类单元，用于根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息；

第一聚类单元，用于根据所述已流失用户所接入的小区，将所述各维度下的第一业务特征信息中相同小区对应的第一业务特征信息进行聚类，获得不同小区下各维度的第一业务特征信息。

在本实施方式中，即使在统一管理体系下，宽带运营业务分布的城市区域不同，网络质量不同，线下运维团队不同，用户体验存在差异，用户对运营商的认可度也存在差别，也就是说非同一业务场景下的预测用户数据不存在关联性，从而导致计算结果会出现误差。因此，为了提高用户流失预测概率的准确性，第一分类单元可以对当前获取的已流失用户的第一业务特征信息进行分类，第一聚类单元获取当前全部已流失用户所接入的小区，并将用户所接入的小区作为当前的用户类型，将各维度下的第一业务特征信息中相同小区对应的第一业务特征信息进行聚类，获得不同小区下各维度的第一业务特征信息，以便后续根据用户接入的不同小区建立多个用户流失预测模型。

可选地，用户入网时间不同所产生的流失概率也有所差异，因此，可以将用户入网时间作为当前的用户类型，具体地，所述用户类型包括所述已流失用户的入网时长，聚类模块32具体包括：

第二分类单元，用于根据预设的各维度，对已流失用户的第一业务特征信息进行分类，获得各维度下的第一业务特征信息；

第二聚类单元，用于根据所述已流失用户的入网时长，将所述各维度下的第一业务特征信息中相同入网时长对应的第一业务特征信息进行聚类，获得不同入网时长下各维度的第一业务特征信息。

在本实施例中，入网时长不同，用户对宽带运营商产品的体验不同，服务不同，导致用户流失的业务特征维度也不同，因此，为了提高用户流失预测概率的准确性，需对已经按照维度进行分类的用户第一业务特征信息进行聚类。具体地，第二分类单元首先根据预设的维度对预先获取的已流失用户的第一业务特征信息进行分类，并获取当前已流失用户的入网时间，第二聚类单元根据已流失用户的入网时长，将各维度下的第一业务特征信息中相同入网时长对应的第一业务特征信息进行聚类，获得不同入网时长下各维度的第一业务特征信息。举例来说，可以根据用户入网时长，将用户分为月度用户，季度用户，半年度用户，1年用户，2年用户，3年用户，3年以上用户。针对每一个入网时长，可以根据该入网时长下各维度的第一业务特征信息进行机器学习，获取各个入网时间对应的用户流失预测模型。

本实施例提供的用户流失预警处理装置，通过将已经按照预设的维度划分后的第一业务特征信息按照用户入网时间或用户所接入的小区进行进一步地聚类，并根据聚类的数据建立用户流失预测模型，从而能够保证同一用户流失预测模型对应的用户存在一定的关联性，进而能够使用户流失预测概率较为准确。

进一步地，在上述任一实施例的基础上，所述装置还包括：

降维模块，用于通过预设的第一算法对所述各维度对应的第一业务特征信息进行降维。

在本实施例中，由于第一业务特征数据的数据量较大，因此，计算过程中，服务器压力较大，因此，为了提高运算速度，降维模块可以根据预设的第一算法对各维度对应的第一业务特征数据进行降维。具体地，为了保证在降维过程中，一些较为重要的数据不会丢失，在降维过程中可以预先由用户选择较为重要的维度对应的第二业务特征数据进行保留，之后在根据预设的第一业务特征数据进行降维，举例来说，虽然在第一业务特征信息中用户投诉信息占比较小，但是流失概率较大，因此，为了保证占比较小的数据不丢失，可以接受用户的选择，将用户投诉信息予以保留。具体地，预设的第一算法可以采用现有技术中任一可以实现对数据降维的降维算法来实现，本发明在此不作限制。

本实施例提供的用户流失预警处理装置，通过对各维度对应的第一业务特征信息进行降维，从而能够降低Hadoop平台的储存计算量，提高运算速度，提升模型运算效率。

进一步地，在上述任一实施例的基础上，所述装置还包括：

维护措施选取模块，用于根据所述待测用户的流失风险系数，从不同的流失风险系数对应的维护措施中选取相应的维护措施进行处理。

在本实施例中，获得待测用户流失概率之后，为了实现对用户的维护，维护措施选取模块可以针对不同的风险系数采取用户的维护措施，具体地，在宽带领域风险系数0～0.3可归为流失低风险用户，0.4～0.6归为流失中风险用户，0.7～1归为流失高风险用户。对低风险流失用户采用短信微信营销措施，在用户合同到期前1-3个月短信微信提醒用户，提醒宽带产品即将到期，并链接请线上续费入口；对中风险流失用户采用电话营销措施，在用户合同到期前1-3个月电话联系用户，提醒宽带产品即将到期，在电话营销的同时参考流失原因特征增补营销措施；对于高风险流失用户采用电话营销+线下上门营销措施，通过赠送网时赠送产品赠送服务的方式避免用户流失。

本实施例提供的用户流失预警处理装置，对不同流失风险系数采取不同的维护措施，通过差异化精准的营销方式可大大减低运营成本，提高用户续费率，避免用户流失，避免企业损失。

进一步地，在上述任一实施例的基础上，所述装置还包括：

信息获取模块，用于从宽带受理平台和/或线上业务营销系统和/或网络质量管理平台和/或上网行为管理平台和/或宽带客服系统中获取所述已流失用户的所述第一业务特征信息。

在本实施例中，信息获取模块首先应该从宽带受理平台和/或线上业务营销系统和/或网络质量管理平台和/或上网行为管理平台和/或宽带客服系统中获取已流失用户的第一业务特征信息。具体地，宽带受理平台BOSS：记录社区宽带竞争对手、用户基本信息、宽带套餐ARPU值，宽带用户办理时间阶段，缴费续费过程记录等。线上业务营销系统BOMS：记录用户访问线上商城，浏览产品，购买产品，关注个人空间报报故障投诉，查看积分等记录等。网络质量管理平台NQM：记录某个宽带ID用户上网过程网络质量，包含网络时延、网络抖动，网路吞吐量、网络下载速度等数据特征。上网行为管理平台PA：记录用户上网行为，常见访问网站，上网时段等数据特征。宽带客服系统NCSM：记录宽带使用过程中用户发起的客服记录，包含故障记录，满意度记录，投诉记录，回访记录等。具体地，数据获取的方法有多种，举例来说，可以通过人工从上述各数据库中获取第一业务特征信息，也可以通过机器学期的方式从上述各数据库中获取第一业务特征信息，或者其他任意可以实现数据获取的方法，本发明在此不作限制。

本实施例提供的用户流失预警处理装置，通过从多个不同数据库获取用户对应的业务特征信息，并通过该业务特征信息训练用户流失预测模型，从而能够增加用户流失预测概率的准确性。

图4为本发明实施例四提供的用户流失预警处理装置的结构示意图，如图4所示，在上述任一实施例的基础上，所述装置包括：

流失概率计算模块41，用于针对每个所述用户类型，根据预设的第二算法确定所述各维度下的第一业务特征信息对应的流失概率。

模型建立模块42，用于根据所述用户类型下各维度对应的用户流失概率与预设的第三算法建立待训练模型。

模型训练模块43，用于根据所述已流失用户的第一业务特征信息与所述已流失用户的第一业务特征信息对应的流失风险系数对所述待训练模型进行训练，获得所述用户类型对应的用户流失预测模型，所述用户类型对应的用户流失预测模型用于表征各用户类型对应的第一业务特征信息与流失风险系数之间的关系。

在本实施例中，针对每一用户类型，流失概率计算模块41可以通过预设的第二算法计算该用户类型下各维度流失概率。具体地，可以通过决策树、随机森林、SVM、AdaBoost、GBDT、LR、BP等算法进行计算，本发明在此不作限制。计算获得各维度对应的流失概率之后，模型建立模块42可以根据各维度对应的用户流失概率与预设的第三算法建立待训练模型，其中，第三算法可由公式1表示：

P＝P₁*W(1)+P₂*W(2)+P₃*W(3)+……+P_i*W(i) (1)

建立待训练模型模型之后，模型训练模块可以将已流失用户随机分为训练集与测试集，并根据已流失用户的第一业务特征信息与已流失用户的第一业务特征信息对应的流失风险系数对待训练模型进行训练，挖掘出各维度对应的权重W(i)，获得各用户类型对应的用户流失预测模型。具体地，该用户流失预测模型用于表征各用户类型对应的第一业务特征信息与流失风险系数之间的关系，因此，后续只需将用户的第一业务特征信息加入进用户流失预测模型中，即可得出该第一业务特征信息对应的用户的流失风险。需要说明的是，如上述实际应用中，占比较小的用户投诉往往对应较高的流失概率，因此，在通过机器学习获得各维度对应的权重之后，为了提高用户流失风险系数的准确性，还需由用户自行对权重进行进一步地调节，例如将流失概率较高的维度对应的权重调高。

本实施例提供的用户流失预警处理装置，通过建立各个用户类型对应的用户流失预测模型，从而使后续计算中，不同数据采用不同的预测模型，能够提高用户流失预测概率的准确性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用户流失预警处理方法，其特征在于，包括：

根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的；

所述根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息之后，还包括：

针对每个所述用户类型，根据预设的第二算法确定所述各维度下的第一业务特征信息对应的流失概率；

根据所述用户类型下各维度对应的用户流失概率与预设的第三算法建立待训练模型；

根据所述已流失用户的第一业务特征信息与所述已流失用户的第一业务特征信息对应的流失风险系数对所述待训练模型进行训练，获得所述用户类型对应的用户流失预测模型，所述用户类型对应的用户流失预测模型用于表征各用户类型对应的第一业务特征信息与流失风险系数之间的关系。

2.根据权利要求1所述的方法，其特征在于，所述用户类型包括所述已流失用户所接入的各小区；所述根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息，包括：

根据所述已流失用户所接入的小区，将所述各维度下的第一业务特征信息中相同小区对应的第一业务特征信息进行聚类，获得不同小区下各维度的第一业务特征信息；

和/或，

所述用户类型包括所述已流失用户的入网时长；所述根据预设的用户类型，将所述各维度下的第一业务特征信息中相同用户类型对应的第一业务特征信息进行聚类，获得不同用户类型下各维度的第一业务特征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设的各维度和各用户类型，对已流失用户的第一业务特征信息进行分类，获得所述各用户类型下各维度的第一业务特征信息之后，还包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数之后，还包括：

5.一种用户流失预警处理装置，其特征在于，包括：

预测模块，用于根据待测用户的用户类型对应的用户流失预测模型，对所述待测用户的第二业务特征信息进行预测，获得所述待测用户的流失风险系数，所述用户流失预测模型为根据不同用户类型下各维度的第一业务特征信息通过进行机器学习建立的；

流失概率计算模块，用于针对每个所述用户类型，根据预设的第二算法确定所述各维度下的第一业务特征信息对应的流失概率；

模型建立模块，用于根据所述用户类型下各维度对应的用户流失概率与预设的第三算法建立待训练模型；

模型训练模块，用于根据所述已流失用户的第一业务特征信息与所述已流失用户的第一业务特征信息对应的流失风险系数对所述待训练模型进行训练，获得所述用户类型对应的用户流失预测模型，所述用户类型对应的用户流失预测模型用于表征各用户类型对应的第一业务特征信息与流失风险系数之间的关系。

6.根据权利要求5所述的装置，其特征在于，所述用户类型包括所述已流失用户所接入的各小区；所述聚类模块包括：

第一聚类单元，用于根据所述已流失用户所接入的小区，将所述各维度下的第一业务特征信息中相同小区对应的第一业务特征信息进行聚类，获得不同小区下各维度的第一业务特征信息；

和/或，

所述用户类型包括所述已流失用户的入网时长；所述聚类模块包括：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述装置还包括：