CN112381154A

CN112381154A - 预测用户概率的方法、装置和计算机设备

Info

Publication number: CN112381154A
Application number: CN202011287802.7A
Authority: CN
Inventors: 孔清扬
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-19
Also published as: WO2022105525A1

Abstract

本申请涉及人工智能领域，揭示了预测用户概率的方法，包括：按照业务属性确认数据分析周期；搜集指定时间段内各用户的行为表现数据；将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到预设的聚类群数量对应的各聚类群；根据各聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；根据待分析用户的行为表现数据，通过预测用户流失概率的模型，得到待分析用户流失概率的预测结果。通过在监督学习的二分类模型前，加入无监督学习模型，可以对具有相似行为特征的用户进行聚类，并将聚类结果用于监督学习的二分类模型的训练过程，提高二分类模型预测用户流失预警的预测精准度。

Description

预测用户概率的方法、装置和计算机设备

技术领域

本申请涉及人工智能领域，特别是涉及到预测用户概率的方法、装置和计算机设备。

背景技术

对于客户群的流失分析，现在通过数据挖掘和机器学习建模的方法来预测可能流失的客户群，并对这部分客户群进行适当的干预，以防过度流失。但在实际场景中，由于客户流失的原因各不相同，不同流失动因的情况下，流失客户的行为表现也各不相同。现有数据挖掘和机器学习建模，多通过监督学习实现，只能输出客户在未来发生流失的概率，无法识别出客户流失的动因，不能对流失客户进行更精准地识别，更无法对客户流失给予相应的预防策略。

发明内容

本申请的主要目的为提供预测用户概率的方法，旨在解决现有预测用户概率不精准的技术问题。

本申请提出一种预测用户概率的方法，包括：

按照业务属性确认数据分析周期；

搜集指定时间段内各用户的行为表现数据，其中，所述指定时间段属于所述数据分析周期内的连续时间段；

将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群；

根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；

根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果。

优选地，所述根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型的步骤，包括：

判断所有用户的行为表现数据对应的数据量是否超过预设数据量；

若是，则创建与各所述聚类群分别对应的二分类模型；

通过指定聚类群中的数据，训练与所述指定聚类群对应的二分类模型，其中，所述指定聚类群属于各所述聚类群中的任一聚类群；

按照所述指定聚类群对应的二分类模型的训练方式，训练得到各所述聚类群分别对应的二分类模型；

将各所述聚类群分别对应的二分类模型，作为预测用户流失概率的模型。

优选地，所述根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果的步骤，包括：

将所述待分析用户的行为表现数据，输入所述无监督学习模型，得到所述待分析用户的行为表现数据对应的指定聚类标签；

根据所述指定聚类标签，确定与所述指定聚类标签匹配的指定二分类模型；

将所述待分析用户的行为表现数据输入至所述指定二分类模型中；

将所述指定二分类模型的输出结果，作为所述待分析用户流失概率的预测结果。

优选地，所述判断所有用户的行为表现数据对应的数据量是否超过预设数据量的步骤之后，包括：

若否，则获取各所述聚类群分别对应的聚类标签；

将所述聚类标签，分别与所述聚类标签对应的聚类群中的数据结合，形成新数据集；

通过所述新数据集训练预设二分类模型，得到预测用户流失概率的模型。

优选地，将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群的步骤，包括：

获取预设的聚类群数量；

根据所述预设的聚类群数量，通过预设聚类方法得到分类簇；

根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理；

若是，则将各所述分类簇作为所述预设的聚类群数量对应的各聚类群。

优选地，所述根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理的步骤，包括：

根据第一计算公式计算指定样本，在各聚类群数量下对应的轮廓系数，其中，所述指定样本为所有用户的行为表现数据中的任一数据样本；

根据第二计算公式计算所述指定样本与所述指定样本之外的样本，在多维空间的欧式距离；

根据所述欧式距离，判断所述指定样本在所述预设的聚类群数量下的轮廓系数，是否为各聚类群数量下对应的轮廓系数中的最优轮廓系数；

若是，则判定所述指定样本对应的分类簇合理，否则不合理。

优选地，所述第一计算公式为

其中，s(i)为所述指定样本的轮廓系数，a(i)为所述指定样本的簇内相似度，b(i)为所述指定样本的簇间不相似度；

所述第二计算公式为：

其中q表示所述指定样本对应的数据点，x表示所述指定样本之外的样本对应的数据点，D表示D维空间，d(q,x)表示所述指定样本对应的数据点与所述指定样本之外的样本对应的数据点在D维空间上的距离。

本申请还提供了一种预测用户概率的装置，包括：

确认模块，用于按照业务属性确认数据分析周期；

搜集模块，用于搜集指定时间段内各用户的行为表现数据，其中，所述指定时间段属于所述数据分析周期内的连续时间段；

分析模块，用于将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群；

建立模块，用于根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；

得到模块，用于根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过在监督学习的二分类模型前，加入无监督学习模型，可以对具有相似行为特征的用户进行聚类，并将聚类结果结合用于监督学习的二分类模型的训练过程，使二分类模型对具有相似行为特征的用户的流失预测更精准，并根据聚类分析得到的聚类群的相似行为特征，推断出客户流失的动因，提高预测用户流失预警的预测精准度。

附图说明

图1本申请一实施例的预测用户概率的方法流程示意图；

图2本申请一实施例的预测用户概率的系统流程示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的预测用户概率的方法，包括：

S1：按照业务属性确认数据分析周期；

S2：搜集指定时间段内各用户的行为表现数据，其中，所述指定时间段属于所述数据分析周期内的连续时间段；

S3：将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群；

S4：根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；

S5：根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果。

本申请实施例中，用户包括但不限于银行业务领域的客户，上述的业务属性包括业务领域、业务领域对应的分析数据种类以及业务领域分别对应的数据分析周期等。本申请的流失客户包括显性流失客户和隐形流失客户，显性流失即销户与休眠；隐性流失即资产较少、活跃度降低等。本申请将持续3-6个月月均资产低于之前某一基期月均资产的一定比例定义为隐性流失，该比例多设置在70％-90％范围。所以分析客户流失情况，需确定合理的分析周期。本申请的分析周期，包括观察期，间隔期和表现期。观察期一般为数据分析建模时的前6个月，基期为观察期内的前3个月或者一个月，在观察期收集客户的基本属性信息、产品持有信息、资产信息、产品交易信息等，以提炼能预测未来行为表现的自变量。间隔期一般为数据分析建模时的后1个月，是预留出来营销的时间，也可不设定。表现期是为防止一些“暂时流失”的客户存在数据干扰。流失预警类模型表现期时长一般稍长，比如为间隔期后的3-6个月，或在没有间隔期时设定为数据分析建模时的后3-6个月，表现期内收集客户的行为表现数据，用于判断客户流失发生的概率，即上述的指定时间段为表现期内的连续时间段。

本申请实施中的行为表现数据，即建模的变量设计中应考虑的维度数据，包括但不限于客户基本属性信息、客户持有产品情况、客户金融资产信息、客户产品交易信息、客户贷款交易信息、客户大额交易信息、客户交易概览信息、客户渠道交易信息等。客户基本属性信息包括：客户的年龄、性别、账龄、职业、所在区域等；客户持有产品情况包括：信用卡标志、基金标志、理财标志等；客户金融资产信息包括：金融资产余额，各分项金融资产余额，金融资产近三月月日均等；客户产品交易信息包括：购买理财次数、金额，赎回理财次数金额，其他各产品交易次数、金额，各产品交易金额单笔最大等；客户贷款交易信息包括：不同种类贷款余额、新增、提前还款以及提前结清信息；客户大额交易信息包括：大额交易次数、金额，存款、取现、消费以及不同类型转账信息；客户交易概览信息包括：总的交易次数、金额，存款、取现、消费、转入、转出信息；客户渠道交易信息包括：各渠道交易次数、金额，各渠道不同交易类型交易次数、金额，如柜台交易次数、金额，柜台存款、取现次数、金额等。

上述行为表现数据通过数据预处理等数据准备过程，加工成建模宽表，即以建模为目的做数据缺失值的填充、数据变换、衍生变量加工等。本申请的数据准备过程包括如下数据处理过程。通过均值、中位数替换(针对连续型变量)、众数替换(针对离散型变量)、回归填充、多重插补等进行缺失值填充，或者直接字符型用特殊字符填充，交易类数值型用0填充，其他缺失值填补中位数。通过去除量纲，使得具有不同量纲的变量具有可比性，比如通过Z-Score变换、极差变换等进行变量标准化。将分布较偏、离群点较多的自变量做正态变换，使之分布更对称，降低离群点对模型的影响，上述正态变换的变换方式包括Log变换、Box-Cox变换等。对取值较多的离散变量(如标识地域的省份编码)会增加后续模型的维度，产生过拟合现象，可经过业务经验汇总(地缘、经济水平等)或技术汇总(基于与目标变量关联度判断的层次聚类)等离散变量水平聚类的方式进行预处理。

本申请实施例的无监督模型为无监督聚类模型。本申请优选通过K-Means对用户的行为表现数据进行聚类分析。由于K-Means算法需要预先设定聚类数量K，且无监督模型没有统一的标签评价指标，需要通过计算行为表现数据所组成的训练数据集中，各样本数据在不同聚类数量K的轮廓系数，并选择最优轮廓系数下对应的分类簇作为该样本数据的聚类群。本申请结合结合专家经验，对聚类群进行解读，比如不同聚类群按照其分别对应的特征，分为产品驱动型，服务驱动型和生活消费驱动型，并在上述聚类群中的样本数据上标注所属的聚类群，以及聚类群的特征标签。

本申请实施例通过将无监督学习模型数据的聚类群对应的数据，作为监督学习模型的输入，监督学习训练形成预测用户流失概率的二分类模型，提高预测的精准性。本申请的二分类模型的创建方法，优先选择Logistic回归模型。首先将经过数据预处理后的行为表现数据对应的数据集拆分为训练集和验证集：在训练集上构建模型，在验证集上评判模型，以防止过拟合现象发生。本申请实施例训练集、验证集的数量比例多设置为50％：50％至70％：30％范围内，优先保障训练集的数据量。本申请依据经过数据预处理后的行为表现数据的数据量，设计了两种建模方式，一种是在大数量的情况下，比如上万甚至几十万的数据量，则分别按照无监督学习输出的聚类群上，分别建立各聚类群分别对应的二分类模型，使该二分类模型更贴合该聚类群的聚类特征，以提高具有该聚类特征的用户的流失概率的预测精准性；另一种是在数据量较小时，比如几千的数据量甚至更少，不足以满足模型分别训练的要求，则将聚类群的特征标签标注于数据集的每个样本数据上，然后再作为二分类模型的训练数据，提高二分类模型预测用户流失概率的预测精准性。上述Logistic回归模型，可分析二分类模型的因变量与各影响因素自变量之间的关系，分析过程的回归公式为：

其中，x_m表示m个独立变量x,p表示相对于独立变量x的条件概率，β_m表示各独立变量分别对应的权重值。

本申请通过在监督学习的二分类模型前，加入无监督学习模型，可以对具有相似行为特征的用户进行聚类，并将聚类结果结合用于监督学习的二分类模型的训练过程，使二分类模型对具有相似行为特征的用户的流失预测更精准，并根据聚类分析得到的聚类群的相似行为特征，推断出客户流失的动因。本申请通过监督学习和无监督学习的组合使用，提高预测用户流失预警的预测精准度。

进一步地，所述根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型的步骤S4，包括：

S41：判断所有用户的行为表现数据对应的数据量是否超过预设数据量；

S42：若是，则创建与各所述聚类群分别对应的二分类模型；

S43：通过指定聚类群中的数据，训练与所述指定聚类群对应的二分类模型，其中，所述指定聚类群属于各所述聚类群中的任一聚类群；

S44：按照所述指定聚类群对应的二分类模型的训练方式，训练得到各所述聚类群分别对应的二分类模型；

S45：将各所述聚类群分别对应的二分类模型，作为预测用户流失概率的模型。

本申请实施例的预设数据量为万级别或万级别以上的数据量，使分类建立二分类模型的数据量满足模型训练需求，以保证模型训练的精准度。根据聚类结果生成的K个聚类群，分别单独建立K个独立的二分类模型，并在各自对应的聚类群数据上进行训练预测。举例地，聚类群包括产品驱动型、服务驱动型和生活消费驱动型的三个聚类群，则分别建立三个不同的二分类模型，上述不同指二分类模型的参量不同，以更贴合当前聚类群对应的用户行为特征。

进一步地，根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果的步骤S5，包括：

S51：将所述待分析用户的行为表现数据，输入所述无监督学习模型，得到所述待分析用户的行为表现数据对应的指定聚类标签；

S52：根据所述指定聚类标签，确定与所述指定聚类标签匹配的指定二分类模型；

S53：将所述待分析用户的行为表现数据输入至所述指定二分类模型中；

S54：将所述指定二分类模型的输出结果，作为所述待分析用户流失概率的预测结果。

本申请实施例中，对待分析用户的行为表现数据进行分析预测时，同样先通过无线监督学习模型的聚类过程，以判断待分析用户的行为表现数据属于哪个聚类群，从而调用与该聚类群相对应的二分类模型，对该待分析用户的行为表现数据进行分析预测，以得到待分析用户的流失概率，进而得到是否会流失的预测。若存在流失的风险，则调用与该聚类群对应的干预策略进行干预。

本申请的无监督学习的意义除了可以增加后续二分类模型的预测准确度之外，还可以将客户进行分群，比如新来的客户，通过无监督学习发现在分类簇A，对应价格敏感性分型，则通过价格敏感性分型对应的二分类模型，预测流失概率，若预测流失概率较高，就可以使用价格敏感性分型对应的专属防流失策略进行干预。

进一步地，所述判断所有用户的行为表现数据对应的数据量是否超过预设数据量的步骤S41之后，包括：

S411：若否，则获取各所述聚类群分别对应的聚类标签；

S412：将所述聚类标签，分别与所述聚类标签对应的聚类群中的数据结合，形成新数据集；

S413：通过所述新数据集训练预设二分类模型，得到预测用户流失概率的模型。

本申请实施例中，针对数据量较少的情况，将聚类结果结合原数据预处理后的数据集变量生成新的数据变量合集，作为新数据集，并训练预设二分类模型，得到预测用户流失概率的模型，通过结合各用户的行为特征标签，提高预测精准性。当用该方案的二分类模型进行预测时，首先通过无监督学习获取待测用户的行为表现数据对应的分类标签，然后将分类标签和该待测用户的行为表现数据一并输入二分类模型进行流失概率预测。

进一步地，将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群的步骤S3，包括：

S31：获取预设的聚类群数量；

S32：根据所述预设的聚类群数量，通过预设聚类方法得到分类簇；

S33：根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理；

S34：若是，则将各所述分类簇作为所述预设的聚类群数量对应的各聚类群。

本申请是合理在建立无监督学习模型时，通过最优轮廓系数，确定聚类群的合理分类。当某一数据样本的轮廓系数接近1时，表明该数据样本的聚类合理，当轮廓系数接近-1或0时，表明该数据一样本聚类不合理。上述轮廓系数与该样本数据与簇内其他数据样本的相似性，以及与簇间其他数据样本的不相似性有关，表示该样本数据与其他样本数据的区分度。轮廓系数会跟随聚类群的数量而发生变化。通过遍历不同聚类群数量下，该数据样本对应的轮廓系数，确定最优轮廓系数，从而确定该样本数据的最佳分类簇。最优化轮廓系数才能保证最优分群的有效性。因此决定最优轮廓系数(SC)的公式为：SC＝MAX{S(K)}，则需要对K值进行遍历，即K＝2,3,.....N-1，其中SC表示最优轮廓系数，S表示所有轮廓系数，K表示聚类群的数量。

进一步地，根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理的步骤S33，包括：

S331：根据第一计算公式计算指定样本，在各聚类群数量下对应的轮廓系数，其中，所述指定样本为所有用户的行为表现数据中的任一数据样本；

S332：根据第二计算公式计算所述指定样本与所述指定样本之外的样本，在多维空间的欧式距离；

S333：根据所述欧式距离，判断所述指定样本在所述预设的聚类群数量下的轮廓系数，是否为各聚类群数量下对应的轮廓系数中的最优轮廓系数；

S334：若是，则判定所述指定样本对应的分类簇合理，否则不合理。

本申请实施例为降低计算量，摒弃了原根据聚类簇数量K，进行遍历计算的过程。本申请通过先根据第一计算公式计算行为表现数据中的任一数据样本的轮廓系数，然后通过欧氏距离直接筛选最优轮廓系数，确定最终的样本数据最佳的聚类群，避免了遍历计算的过程，降低计算量，节省计算时间。

进一步地，所述第一计算公式为

所述第二计算公式为：

上述第二计算公式，也可变形为公式二：

或者公式三：

其中，

w表示公式二中对应项的系数，以简化计算。公式二中的第一项和第三项在整个数据集的计算中只需要被计算一次。对于w也是同样道理，因此，仅等式的第二项是需要在每次运算中重新计算，改进了最优轮廓系数的计算方式，不仅大大降低了时间复杂度，而且可以得到和传统轮廓系数一样的结果。

本申请另一实施例中，可同时根据聚类群创建分别对应得二分类模型Ⅰ，以及将聚类标签融合原训练数据得到的同一个二分类模型Ⅱ，通过比对过程涵盖统计指标、比对与业务因素，选择最优模型，使得最优模型即具有良好的统计特性，又具有清晰的业务含义。上述的两种模型进行对比分析，根据评价指标选择最优的模型作为最终模型。本申请通过ROC(Receiver Operating Characteristic)曲线分析比对。ROC曲线以灵敏度(TruePositive，TP)为纵轴，以1-特异度(True Negative，TN)为横轴绘制的曲线。AUC(AreaUnder Roc Curve)为ROC曲线下的面积，又称c统计量。AUC的值越大，表明模型区分性越好。上述ROC曲线和AUC都是基于验证数据集得到的，选择具有较高的AUC值的模型作为最终模型。

参照图2，本申请一实施例的预测用户概率的装置，包括：

确认模块1，用于按照业务属性确认数据分析周期；

搜集模块2，用于搜集指定时间段内各用户的行为表现数据，其中，所述指定时间段属于所述数据分析周期内的连续时间段；

分析模块3，用于将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群；

建立模块4，用于根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；

得到模块5，用于根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果。

本申请中，装置部分的实施例解释同方法部分的实施例解释，不赘述。

进一步地，建立模块4，包括：

第一判断单元，用于判断所有用户的行为表现数据对应的数据量是否超过预设数据量；

创建单元，用于若超过预设数据量，则创建与各所述聚类群分别对应的二分类模型；

第一训练单元，用于通过指定聚类群中的数据，训练与所述指定聚类群对应的二分类模型，其中，所述指定聚类群属于各所述聚类群中的任一聚类群；

第二训练单元，用于按照所述指定聚类群对应的二分类模型的训练方式，训练得到各所述聚类群分别对应的二分类模型；

第一作为单元，用于将各所述聚类群分别对应的二分类模型，作为预测用户流失概率的模型。

进一步地，得到模块5，包括：

第一输入单元，用于将所述待分析用户的行为表现数据，输入所述无监督学习模型，得到所述待分析用户的行为表现数据对应的指定聚类标签；

确定单元，用于根据所述指定聚类标签，确定与所述指定聚类标签匹配的指定二分类模型；

第二输入单元，用于将所述待分析用户的行为表现数据输入至所述指定二分类模型中；

第二作为单元，用于将所述指定二分类模型的输出结果，作为所述待分析用户流失概率的预测结果。

进一步地，建立模块4，包括：

第一获取单元，用于若未超过预设数据量，则获取各所述聚类群分别对应的聚类标签；

形成单元，用于将所述聚类标签，分别与所述聚类标签对应的聚类群中的数据结合，形成新数据集；

第一得到单元，用于通过所述新数据集训练预设二分类模型，得到预测用户流失概率的模型。

进一步地，分析模块3，包括：

第二获取单元，用于获取预设的聚类群数量；

第二得到单元，用于根据所述预设的聚类群数量，通过预设聚类方法得到分类簇；

第二判断单元，用于根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理；

第三作为单元，用于若合理，则将各所述分类簇作为所述预设的聚类群数量对应的各聚类群。

进一步地，第二判断单元，包括：

第一计算子单元，用于根据第一计算公式计算指定样本，在各聚类群数量下对应的轮廓系数，其中，所述指定样本为所有用户的行为表现数据中的任一数据样本；

第二计算子单元，用于根据第二计算公式计算所述指定样本与所述指定样本之外的样本，在多维空间的欧式距离；

判断子单元，用于根据所述欧式距离，判断所述指定样本在所述预设的聚类群数量下的轮廓系数，是否为各聚类群数量下对应的轮廓系数中的最优轮廓系数；

判定子单元，用于若为各聚类群数量下对应的轮廓系数中的最优轮廓系数，则判定所述指定样本对应的分类簇合理，否则不合理。

进一步地，所述第一计算公式为

所述第二计算公式为：

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预测用户概率的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现预测用户概率的方法。

上述处理器执行上述预测用户概率的方法，包括：按照业务属性确认数据分析周期；搜集指定时间段内各用户的行为表现数据，其中，所述指定时间段属于所述数据分析周期内的连续时间段；将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群；根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果。

上述计算机设备，通过在监督学习的二分类模型前，加入无监督学习模型，可以对具有相似行为特征的用户进行聚类，并将聚类结果结合用于监督学习的二分类模型的训练过程，使二分类模型对具有相似行为特征的用户的流失预测更精准，并根据聚类分析得到的聚类群的相似行为特征，推断出客户流失的动因，提高预测用户流失预警的预测精准度。

在一个实施例中，上述处理器根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型的步骤，包括：判断所有用户的行为表现数据对应的数据量是否超过预设数据量；若是，则创建与各所述聚类群分别对应的二分类模型；通过指定聚类群中的数据，训练与所述指定聚类群对应的二分类模型，其中，所述指定聚类群属于各所述聚类群中的任一聚类群；按照所述指定聚类群对应的二分类模型的训练方式，训练得到各所述聚类群分别对应的二分类模型；将各所述聚类群分别对应的二分类模型，作为预测用户流失概率的模型。

在一个实施例中，上述处理器根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果的步骤，包括：将所述待分析用户的行为表现数据，输入所述无监督学习模型，得到所述待分析用户的行为表现数据对应的指定聚类标签；根据所述指定聚类标签，确定与所述指定聚类标签匹配的指定二分类模型；将所述待分析用户的行为表现数据输入至所述指定二分类模型中；将所述指定二分类模型的输出结果，作为所述待分析用户流失概率的预测结果。

在一个实施例中，上述处理器判断所有用户的行为表现数据对应的数据量是否超过预设数据量的步骤之后，包括：若否，则获取各所述聚类群分别对应的聚类标签；将所述聚类标签，分别与所述聚类标签对应的聚类群中的数据结合，形成新数据集；通过所述新数据集训练预设二分类模型，得到预测用户流失概率的模型。

在一个实施例中，上述处理器将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群的步骤，包括：获取预设的聚类群数量；根据所述预设的聚类群数量，通过预设聚类方法得到分类簇；根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理；若是，则将各所述分类簇作为所述预设的聚类群数量对应的各聚类群。

在一个实施例中，上述处理器根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理的步骤，包括：根据第一计算公式计算指定样本，在各聚类群数量下对应的轮廓系数，其中，所述指定样本为所有用户的行为表现数据中的任一数据样本；根据第二计算公式计算所述指定样本与所述指定样本之外的样本，在多维空间的欧式距离；根据所述欧式距离，判断所述指定样本在所述预设的聚类群数量下的轮廓系数，是否为各聚类群数量下对应的轮廓系数中的最优轮廓系数；若是，则判定所述指定样本对应的分类簇合理，否则不合理。

在一个实施例中，上述处理器的第一计算公式为

其中，s(i)为所述指定样本的轮廓系数，a(i)为所述指定样本的簇内相似度，b(i)为所述指定样本的簇间不相似度；所述第二计算公式为：

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现预测用户概率的方法，包括：按照业务属性确认数据分析周期；搜集指定时间段内各用户的行为表现数据，其中，所述指定时间段属于所述数据分析周期内的连续时间段；将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群；根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型；根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果。

上述计算机可读存储介质，通过在监督学习的二分类模型前，加入无监督学习模型，可以对具有相似行为特征的用户进行聚类，并将聚类结果结合用于监督学习的二分类模型的训练过程，使二分类模型对具有相似行为特征的用户的流失预测更精准，并根据聚类分析得到的聚类群的相似行为特征，推断出客户流失的动因，提高预测用户流失预警的预测精准度。

在一个实施例中，上述处理器的第一计算公式为

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种预测用户概率的方法，其特征在于，包括：

按照业务属性确认数据分析周期；

2.根据权利要求1所述的预测用户概率的方法，其特征在于，所述根据各所述聚类群建立监督学习的分类模型并进行训练，得到预测用户流失概率的模型的步骤，包括：

若是，则创建与各所述聚类群分别对应的二分类模型；

3.根据权利要求2所述的预测用户概率的方法，其特征在于，所述根据待分析用户的行为表现数据，通过所述预测用户流失概率的模型，得到所述待分析用户流失概率的预测结果的步骤，包括：

4.根据权利要求2所述的预测用户概率的方法，其特征在于，所述判断所有用户的行为表现数据对应的数据量是否超过预设数据量的步骤之后，包括：

若否，则获取各所述聚类群分别对应的聚类标签；

5.根据权利要求1所述的预测用户概率的方法，其特征在于，将所有用户的行为表现数据输入无监督学习模型，依据预设的聚类群数量进行聚类分析，得到所述预设的聚类群数量对应的各聚类群的步骤，包括：

获取预设的聚类群数量；

6.根据权利要求5所述的预测用户概率的方法，其特征在于，所述根据各所述分类簇中样本的轮廓系数，判断各所述分类簇中的样本分类是否合理的步骤，包括：

7.根据权利要求6所述的预测用户概率的方法，其特征在于，所述第一计算公式为

所述第二计算公式为：

8.一种预测用户概率的装置，其特征在于，包括：

确认模块，用于按照业务属性确认数据分析周期；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。