CN106157105A

CN106157105A - 获取用户状态信息的方法和装置

Info

Publication number: CN106157105A
Application number: CN201510192471.1A
Authority: CN
Inventors: 陈欢
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2016-11-23

Abstract

本发明公开了一种获取用户状态信息的方法和装置，属于网络通信技术领域。所述方法包括：获取待确定状态用户的原始交易标签，并对所述待确定状态用户的原始交易标签进行衍生处理，得到所述待确定状态用户的衍生交易标签；基于所述待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对所述待确定状态用户进行logistic回归，确定所述待确定状态用户的状态是否为预流失状态；当确定所述待确定状态用户的状态为预流失状态时，基于所述待确定状态用户的原始交易标签和衍生交易标签，利用预设流失阶段模型，确定所述待确定状态用户当前所处的流失阶段。所述装置包括：获取模块、回归模块和确定模块。

Description

获取用户状态信息的方法和装置

技术领域

本发明涉及网络通信技术领域，具体涉及一种获取用户状态信息的方法和装置。

背景技术

随着网络通信技术的发展，各种电子商务平台层出不穷，电子商务平台最关心的问题是如何能够获取更多的用户，并防止用户的流失。为了防止用户的流失，需要获取用户的状态信息，以便根据用户的状态信息对用户进行维护运营，留住用户。

现有获取用户状态信息时，主要是获取用户是已流失状态、还是不流失状态，具体方法包括以下二种：

第一种：通过大量的数据分析来发现影响用户流失的若干个特征，然后组合这些特征来判断用户是已流失状态、还是不流失状态。

第二种：传统小数据行业通过人为或调研问卷的形式给打流失或者不流失的标签，然后再寻找若干数据标签，做各种回归模型，通过回归模型判断用户是已流失状态、还是不流失状态；大数据行业通过规则去找流失和不流失的正负样本，然后再寻找若干标签做各种回归模型，通过回归模型判断用户是已流失状态、还是不流失状态。

现有获取用户状态信息的方法，主要获取的是用户是已流失状态、还是不流失状态，是个二分问题，当获取到用户是已流失状态时，用户已经流失了，必须花费很大的成本才能挽回，甚至根本无法挽回，实用性差。第一种方法的依据是符合某特征组合即判断用户是已流失状态、不符合某特征组合即判断用户是不流失状态，是一种一刀砍的方式，这种方式有很大的误判率，不能一概而论，扩展性差。第二种方法需要构建回归模型，由于只有二种状态(已流失状态和不流失状态)，是一种二分类，很难构造符合要求的样本集，从而也很难保障预测结果的正确性。

发明内容

为了解决现有的技术问题，本发明提供了一种获取用户状态信息的方法和装置，可以根据用户当前所处的流失阶段，采用相应的措施留住用户，具有很大实用性。

为了解决上述问题，本发明公开了一种获取用户状态信息的方法，所述方法包括：

获取待确定状态用户的原始交易标签，并对所述待确定状态用户的原始交易标签进行衍生处理，得到所述待确定状态用户的衍生交易标签；

基于所述待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对所述待确定状态用户进行logistic回归，确定所述待确定状态用户的状态为预流失状态还是不流失状态；

当确定所述待确定状态用户的状态为预流失状态时，基于所述待确定状态用户的原始交易标签和衍生交易标签，利用预设流失阶段模型，确定所述待确定状态用户当前所处的流失阶段。

进一步地，获取待确定状态用户的原始交易标签之前，还包括：

获取样本用户，并从所述样本用户中选取正例样本用户和负例样本用户；其中，所述正例样本用户为不流失样本用户、所述负例样本用户为预流失样本用户；

分别对所述正例样本用户的原始交易标签和所述负例样本用户的原始交易标签进行衍生处理，得到所述正例样本用户的衍生交易标签和所述负例样本用户的衍生交易标签；

基于所述正例样本用户的衍生交易标签和所述负例样本用户的衍生交易标签，对所述预设logistic回归模型的待定参数进行训练，得到所述预设logistic回归模型的待定参数的训练值；

基于所述负例样本用户的原始交易标签和衍生交易标签，对各个所述预设流失阶段模型的待定参数进行训练，得到各个所述预设流失阶段模型的待定参数的训练值。

进一步地，从所述样本用户中选取正例样本用户和负例样本用户，包括：

计算所述样本用户的成交笔数的滚动交易趋势，从所述滚动交易趋势为递增的所述样本用户中选取预设数量的所述样本用户作为所述正例样本用户；

统计所述样本用户在预设期间内的成交笔数，从预设期间内没有成交笔数的所述样本用户中随机选取预设数量的所述样本用户作为所述负例样本用户。

进一步地，所述预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

其中，x₁…x_p表示所述正例样本用户的衍生交易标签或所述负例样本用户的衍生交易标签，β₀、β₁…β_p表示所述预设logistic回归模型的待定参数。

进一步地，所述衍生处理包括：数据平滑、二次变换、同比和/或环比。

进一步地，所述预设流失阶段模型包括：潜在流失阶段模型、开始流失阶段模型、混合流失阶段模型、迅速流失阶段模型、点流失阶段模型和彻底流失阶段模型；

相应地，所述流失阶段包括：潜在流失阶段、开始流失阶段、混合流失阶段、迅速流失阶段、点流失阶段和彻底流失阶段。

为了解决上述问题，本发明公开了一种获取用户状态信息的装置，所述装置包括：

获取模块，用于获取待确定状态用户的原始交易标签，并对所述待确定状态用户的原始交易标签进行衍生处理，得到所述待确定状态用户的衍生交易标签；

回归模块，用于基于所述待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对所述待确定状态用户进行logistic回归，确定所述待确定状态用户的状态为预流失状态还是不流失状态；

确定模块，用于当确定所述待确定状态用户的状态为预流失状态时，基于所述待确定状态用户的原始交易标签和衍生交易标签，利用预设流失阶段模型，确定所述待确定状态用户当前所处的流失阶段。

进一步地，所述装置还包括：

选取模块，用于在获取待确定状态用户的原始交易标签之前，获取样本用户，并从所述样本用户中选取正例样本用户和负例样本用户；其中，所述正例样本用户为不流失样本用户、所述负例样本用户为预流失样本用户；

处理模块，用于分别对所述正例样本用户的原始交易标签和所述负例样本用户的原始交易标签进行衍生处理，得到所述正例样本用户的衍生交易标签和所述负例样本用户的衍生交易标签；

第一训练模块，用于基于所述正例样本用户的衍生交易标签和所述负例样本用户的衍生交易标签，对所述预设logistic回归模型的待定参数进行训练，得到所述预设logistic回归模型的待定参数的训练值；

第二训练模块，用于基于所述负例样本用户的原始交易标签和衍生交易标签，对各个所述预设流失阶段模型的待定参数进行训练，得到各个所述预设流失阶段模型的待定参数的训练值。

进一步地，所述选取模块包括：

正例选取单元，用于计算所述样本用户的成交笔数的滚动交易趋势，从所述滚动交易趋势为递增的所述样本用户中选取预设数量的所述样本用户作为所述正例样本用户；

负例选取单元，用于统计所述样本用户在预设期间内的成交笔数，从预设期间内没有成交笔数的所述样本用户中随机选取预设数量的所述样本用户作为所述负例样本用户。

进一步地，所述预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

与现有技术相比，本发明可以获得包括以下技术效果：

1)通过确定待确定状态用户的状态为预流失状态还是不流失状态，当确定待确定状态用户的状态为预流失状态时，进一步确定待确定状态用户当前所处的流失阶段，可以根据用户当前所处的流失阶段，采用相应的措施留住用户，具有很大实用性。

2)当确定待确定状态用户的状态为预流失状态，进一步确定待确定状态用户当前所处的流失阶段，减小了误判率，扩展性强。

3)当确定待确定状态用户的状态为预流失状态，进一步确定待确定状态用户当前所处的流失阶段是多分类，容易构造符合要求的样本集，可以保障预测结果的正确性。

当然，实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的第一种获取用户状态信息的方法流程图；

图2是本发明实施例的潜在流失阶段示意图；

图3是本发明实施例的开始流失阶段示意图；

图4是本发明实施例的混合流失阶段示意图；

图5是本发明实施例的迅速流失阶段示意图；

图6是本发明实施例的点流失阶段示意图；

图7是本发明实施例的彻底流失阶段示意图；

图8是本发明实施例的第二种获取用户状态信息的方法流程图；

图9是本发明实施例的第一种获取用户状态信息的装置结构示意图；

图10是本发明实施例的第二种获取用户状态信息的装置结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

实施例描述

下面以一实施例对本发明方法的实现作进一步说明。如图1所示，为本发明实施例的一种获取用户状态信息的方法流程图，该方法包括：

S101：获取待确定状态用户的原始交易标签，并对待确定状态用户的原始交易标签进行衍生处理，得到待确定状态用户的衍生交易标签。

具体地，从预设的电子商务平台的数据库中获取预设时间段内的待确定状态用户的原始交易标签，预设时间段可以根据实际应用状况进行设置，对此不做限定，例如：获取当前15个月内的待确定状态用户的原始交易标签。

其中，原始交易标签包括：成交金额、成交笔数、成交天数、成交类目数、滚动成交趋势、旺旺在线时长、浏览天数、gmv(交易总额)-alipay(支付宝)转化率、PV(page view，页面浏览量)等可以表现用户忠诚度的特征参数；投诉笔数、退货笔数、维权笔数、评论内容、好中差评数、商品质量分、卖家最低三笔平均DSR(店铺评分)、物流评分、浏览购买转化率等可以表现用户满意度的特征参数；好友流失程度均值、买家星级、城市级别等可以表现成本转移度的特征参数；以及访问深度、自然流量比重等其他特征参数。

具体他，衍生处理包括：数据平滑、二次变换、同比和/或环比。

1)数据平滑：待确定状态用户在电子商务平台买东西，比如3月份买了一个化妆品，如果这个化妆品能使用3个月，那么更准确的说这个化妆品的钱是应该平均到三个月的，也就是每个月1/3。经过分析后，可以对交易数据进行平滑(具体平均到几个月和业务有关)。

2)二次变换：对于不同原始交易标签，会做不同的处理，比如开根号、指数等等变化，具体和业务相关。

3)同比：指在相邻时段中的某一相同时间点进行比较，如13年和14年是相邻时段，13年3月和14年3月是这两个相邻时段的同一个时间点，都是3月，这两个时段进行数据对比，就是同比。并且在进行同比的时候，可以通过同比上升及下降0％、25％、50％、75％等的次数来进行同比，上升和下降代表变好和变坏的方向，占比体现程度，次数能去除量纲以及帮助量化程度。

4)环比：相邻时间段的对比，如14年4月和14年3月是相邻时间段，这两个时间段的数据都比，就是环比。并且在进行环比的时候，可以通过环比上升及下降0％、25％、50％、75％等的次数来进行环比，上升和下降代表变好和变坏的方向，占比体现程度，次数能去除量纲以及帮助量化程度。

具体地，对任一原始交易标签进行衍生处理，可以得到多个衍生交易标签，例如：对成交笔数进行衍生处理可以得到做3个月平滑的成交笔数、成交笔数3个月平均同比过去半年连续3月下降25％的次数等。

S102：基于待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对待确定状态用户进行logistic回归，确定待确定状态用户的状态为预流失状态还是不流失状态。

具体地，预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

其中，x₁…x_p表示待确定状态用户的衍生交易标签，β₀、β₁…β_p表示预设logistic回归模型的参数(可以预先通过训练确定其取值)。

具体地，基于待确定状态用户的衍生交易标签，通过预设逻辑logistic回归模型计算得到P，将P与预设的流失阈值进行比较，如果计算得到的P大于预设的阈值则该用户的状态为预流失状态，即该用户可能会流失，如果计算得到的P小于等于预设的阈值则该用户的状态为不流失状态，即该用户不会流失。预设的流失阈值可以根据实际业务进行设置，如设置为0.95、0.8等。

S103：当确定待确定状态用户的状态为预流失状态时，基于待确定状态用户的原始交易标签和衍生交易标签，利用预设流失阶段模型，确定待确定状态用户当前所处的流失阶段。

具体地，预设流失阶段模型包括：潜在流失阶段模型、开始流失阶段模型、混合流失阶段模型、迅速流失阶段模型、点流失阶段模型和彻底流失阶段模型；

相应地，流失阶段包括：潜在流失阶段、开始流失阶段、混合流失阶段、迅速流失阶段、点流失阶段和彻底流失阶段。

具体地，参见图2-7，各个流失阶段的含义如下：

潜在流失阶段Lost1(L1)：用户增速越来越慢，存在流失的可能性。开始流失阶段Lost2(L2)：用户整体成递减的趋势，有很强的流失特性；用户购物能力的下降或者用户对电子商务平台的不满或者其他因素已经开始导致用户在电子商务平台的成交成阶段性下降的趋势。混合流失阶段Lost3(L3)：用户在周期内经历了多个流失阶段。如用户15个月购物周期内，经历Lost1、Lost2、等多个过程。迅速流失阶段Lost4(L4)：用户已进入迅速流失阶段或者流失达到稳定阶段用户突然没有任何信息，已经进入流失阶段。点流失阶段Lost5(L5)：用户在周期内的购买月份数小于等于预设值，例如：用户在15个月内，行为数据小于等于3，那么称为“点流失”，一方面是因为数据太少，不构成做数据挖掘的条件；二是因为这部分用户确实业务上是需要关注的用户，而且很可能是流失的，从业务上分析，确实用户在彻底流失(不来购买)之前，会存在点流失的可能。彻底流失阶段Lost6(L6)：在经历迅速流失后，如果电子商务平台还未做出任何改变，或者用户本身的能力未改善，那么将“彻底流失”。

具体地，基于待确定状态用户的原始交易标签和衍生交易标签，利用预设流失阶段模型，确定待确定状态用户当前所处的流失阶段时，可以从待确定状态用户的原始交易标签和衍生交易标签中挑选一个单独交易标签进行确定，也可以将待确定状态用户的原始交易标签和衍生交易标签中的任意二个以上标签进行组合，通过组合标签进行确定。

在本发明的一优选实施例中，参见图8，获取待确定状态用户的原始交易标签之前，还包括：

S104：获取样本用户，并从样本用户中选取正例样本用户和负例样本用户。

其中，正例样本用户为不流失样本用户、负例样本用户为预流失样本用户。

具体地，从样本用户中选取正例样本用户和负例样本用户，包括：

计算样本用户的成交笔数的滚动交易趋势，从滚动交易趋势为递增的样本用户中选取预设数量的样本用户作为所述正例样本用户；

统计样本用户在预设期间内的成交笔数，从预设期间内没有成交笔数的样本用户中随机选取预设数量的样本用户作为负例样本用户。

其中，计算用户数据对应的用户的成交笔数的滚动交易趋势时，可以预设时间段为时长进行滚动计算，例如：获取的是当前15个月内的用户数据，则可以10个月为一个时长，进行滚动计算，如当前15个月内的用户数据为2014年1月1日-2015年4月1日，则依次计算2014年1月1日-2014年11月1日、2014年2月1日-2014年12月1日…2014年6月1日-2015年4月1日的成交笔数。并且可以通过计算一阶导数的方式实现查找到滚动交易趋势为递增的样本用户，如获取的是当前15个月内的用户数据，10个月为一个时长，则可以分别计算每10个月的成交笔数的一阶导数，通过一阶导数的正负，判断出是否是递增的。

其中，预设数量可以根据实际应用状况进行设置，对此不做限定，如可以设置为200万，并且负例样本用户和负例样本用户的数量可以相同也可以不相同，对此不做限定。

需要说明的是，在选取样本用户的时候，通过成交笔数进行选取，原因如下：

通过调研报告和数据分析显示，用户对流失的感知，更多的体现在成交笔数，而非成交金额或者浏览等其他数据。只用成交笔数，不用其他数据，尽可能避免过拟合现象，对于一个回归模型，如果用特征A去做训练集又用A去做模型训练的话，这是极度可能出现过拟合现象的，所以我们寻找样本的时候用成交笔数的交易趋势，而后续模型训练的时候对各种原始标签做了衍生，保证两者变量的差异性。

S105：分别对正例样本用户的原始交易标签和负例样本用户的原始交易标签进行衍生处理，得到正例样本用户的衍生交易标签和负例样本用户的衍生交易标签。

具体与S101类似，此处不再赘述。

S106：基于正例样本用户的衍生交易标签和负例样本用户的衍生交易标签，对预设logistic回归模型的待定参数进行训练，得到预设logistic回归模型的待定参数的训练值。

具体地，预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

其中，x₁…x_p表示正例样本用户的衍生交易标签或负例样本用户的衍生交易标签，β₀、β₁…β_p表示预设logistic回归模型的待定参数，通过训练后得到训练值。

S107：基于负例样本用户的原始交易标签和衍生交易标签，对预设流失阶段模型的待定参数进行训练，得到预设流失阶段模型的待定参数的训练值。

具体地，预设流失阶段模型可以是根据预设流失阶段的定义设置的各个原始交易标签和/或衍生交易标签的参数区间，如设置混合流失阶段模型为：成交金额小于0.1(即没有成交，0.1是成交金额的参数范围，可以根据实际应用状况选择其取值)，且最近15个月有成交的月份等于3个(3是成交的参数范围，可以根据实际应用状况选择其取值)等。

本实施例所述的获取用户状态信息的方法，通过确定待确定状态用户的状态为预流失状态还是不流失状态，当确定待确定状态用户的状态为预流失状态时，进一步确定待确定状态用户当前所处的流失阶段，可以根据用户当前所处的流失阶段，采用相应的措施留住用户，具有很大实用性。当确定待确定状态用户的状态为预流失状态，进一步确定待确定状态用户当前所处的流失阶段，减小了误判率，扩展性强。当确定待确定状态用户的状态为预流失状态，进一步确定待确定状态用户当前所处的流失阶段是多分类，容易构造符合要求的样本集，可以保障预测结果的正确性。

如图9所示，是本发明实施例的一种获取用户状态信息的装置结构图，该装置包括：

获取模块201，用于获取待确定状态用户的原始交易标签，并对待确定状态用户的原始交易标签进行衍生处理，得到待确定状态用户的衍生交易标签；

回归模块202，用于基于待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对待确定状态用户进行logistic回归，确定待确定状态用户的状态为预流失状态还是不流失状态；

确定模块203，用于当确定待确定状态用户的状态为预流失状态时，基于待确定状态用户的原始交易标签和衍生交易标签，利用预设流失阶段模型，确定待确定状态用户当前所处的流失阶段。

进一步地，参见图10，该装置还包括：

选取模块204，用于在获取待确定状态用户的原始交易标签之前，获取样本用户，并从样本用户中选取正例样本用户和负例样本用户；其中，正例样本用户为不流失样本用户、负例样本用户为预流失样本用户；

处理模块205，用于分别对正例样本用户的原始交易标签和负例样本用户的原始交易标签进行衍生处理，得到正例样本用户的衍生交易标签和负例样本用户的衍生交易标签；

第一训练模块206，用于基于正例样本用户的衍生交易标签和负例样本用户的衍生交易标签，对预设logistic回归模型的待定参数进行训练，得到预设logistic回归模型的待定参数的训练值；

第二训练模块207，用于基于负例样本用户的原始交易标签和衍生交易标签，对各个预设流失阶段模型的待定参数进行训练，得到各个预设流失阶段模型的待定参数的训练值。

进一步地，选取模块204包括：

正例选取单元，用于计算样本用户的成交笔数的滚动交易趋势，从滚动交易趋势为递增的样本用户中选取预设数量的样本用户作为正例样本用户；

负例选取单元，用于统计样本用户在预设期间内的成交笔数，从预设期间内没有成交笔数的样本用户中随机选取预设数量的样本用户作为负例样本用户。

进一步地，预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

其中，x₁…x_p表示正例样本用户的衍生交易标签或负例样本用户的衍生交易标签，β₀、β₁…β_p表示预设logistic回归模型的待定参数。

进一步地，衍生处理包括：数据平滑、二次变换、同比和/或环比。

进一步地，预设流失阶段模型包括：潜在流失阶段模型、开始流失阶段模型、混合流失阶段模型、迅速流失阶段模型、点流失阶段模型和彻底流失阶段模型；

本实施例所述的获取用户状态信息的装置，通过确定待确定状态用户的状态为预流失状态还是不流失状态，当确定待确定状态用户的状态为预流失状态时，进一步确定待确定状态用户当前所处的流失阶段，可以根据用户当前所处的流失阶段，采用相应的措施留住用户，具有很大实用性。当确定待确定状态用户的状态为预流失状态，进一步确定待确定状态用户当前所处的流失阶段，减小了误判率，扩展性强。当确定待确定状态用户的状态为预流失状态，进一步确定待确定状态用户当前所处的流失阶段是多分类，容易构造符合要求的样本集，可以保障预测结果的正确性。

所述装置与前述的方法流程描述对应，不足之处参考上述方法流程的叙述，不再一一赘述。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种获取用户状态信息的方法，其特征在于，所述方法包括：

基于所述待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对所述待确定状态用户进行logistic回归，确定所述待确定状态用户的状态是否为预流失状态；

2.如权利要求1所述的方法，其特征在于，获取待确定状态用户的原始交易标签之前，还包括：

3.如权利要求2所述的方法，其特征在于，从所述样本用户中选取正例样本用户和负例样本用户，包括：

4.如权利要求2所述的方法，其特征在于，所述预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

5.如权利要求1所述的方法，其特征在于，所述衍生处理包括：数据平滑、二次变换、同比和/或环比。

6.如权利要求1-5任一权利要求所述的方法，其特征在于，所述预设流失阶段模型包括：潜在流失阶段模型、开始流失阶段模型、混合流失阶段模型、迅速流失阶段模型、点流失阶段模型和彻底流失阶段模型；

7.一种获取用户状态信息的装置，其特征在于，所述装置包括：

回归模块，用于基于所述待确定状态用户的衍生交易标签，利用预设逻辑logistic回归模型，对所述待确定状态用户进行logistic回归，确定所述待确定状态用户的状态是否为预流失状态；

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

9.如权利要求8所述的装置，其特征在于，所述选取模块包括：

10.如权利要求8所述的装置，其特征在于，所述预设logistic回归模型如下：

P = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + . . . + β_{p} x_{p})}}

11.如权利要求7所述的装置，其特征在于，所述衍生处理包括：数据平滑、二次变换、同比和/或环比。

12.如权利要求7-11任一权利要求所述的装置，其特征在于，所述预设流失阶段模型包括：潜在流失阶段模型、开始流失阶段模型、混合流失阶段模型、迅速流失阶段模型、点流失阶段模型和彻底流失阶段模型；