CN107203822A

CN107203822A - 基于Logistic回归的证券客户流失预测的方法及系统

Info

Publication number: CN107203822A
Application number: CN201610149720.3A
Authority: CN
Inventors: 李华明; 蔡学范; 李蔚敏; 王雪峰
Original assignee: GBICC-GLOBAL BUSINESS INTELLIGENCE CONSULTING Co Ltd
Current assignee: GBICC-GLOBAL BUSINESS INTELLIGENCE CONSULTING Co Ltd
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2017-09-26

Abstract

本发明提供一种基于Logistic回归的证券客户流失预测的方法及系统，主要通过确定客户流失指标和数据范围；根据客户流失指标和数据范围筛选客户数据；根据筛选出的所述客户数据计算初始变量；对所述初始变量进行预处理；根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。采用logistic回归模型，对选取的客户数据进行客观分析，以准确客观的对客户的流失进行预测。

Description

基于Logistic回归的证券客户流失预测的方法及系统

技术领域

本发明涉及证券领域，特别是涉及一种基于Logistic回归的证券客户流失预测的方法及系统。

背景技术

近几年来多数大的券商都已经实现了大集中或区域集中交易，以数据大集中方式在一定程度上可以为证券公司降低成本、加强风险管理，但如何以客户服务为中心提高利润率，如何更好地进行市场营销，如何进行产品创新，如何进行全面风险管理等问题，是无法通过数据大集中直接解决的。而这些问题又是目前证券公司在转折时期获得生存、赢取竞争优势必须面临的主要问题。而其中客户流失是证券行业普遍面临的业务问题，尤其在当前证券市场已步入成熟期的时候，竞争异常激烈。

传统的客户流失预测方法有经验预测方法和基于统计分析法。经验预测方法一般由决策者根据自己经验对客户进行流失预测划分，具有很强的主观性，结果不客观，缺少说服力，同时无法满足对大量客户进行实时判断的需求。基于统计方法的流失预测划分是一种量化研究，根据对客户属性特征统计结果进行客户流失预测，其结果往往与分类标准具有极强的关联性，如果分类标准不合理，预测结果也不合理。随着我国证券信息化建设的不断深入，券商已经积累了大量的个人历史交易数据和客户资料，面对海量的客户信息，传统的客户流失预测方法显得力不从心。

近年来，数据挖掘技术得到了迅速的发展，其融合了数据库、人工智能、和统计学等多个领域技术，能够从大量的、不完全的、有噪声的、模糊的原始数据中，挖掘出有用、可信、新颖的信息和知识的过程。数据挖掘领域中预测模型常见神经网络和决策树。采用决策树模型的券商客户基本交易数据基本都采用了连续变量分箱来处理连续变量的非线性问题，获取的结果不够准确；神经网络模型的结果为黑匣子，不利于模型的解释和应用。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于Logistic回归的证券客户流失预测的方法及系统，用于解决现有技术中不能准确客观的预测证券客户流失的问题。

为实现上述目的及其他相关目的，本发明提供一种基于Logistic回归的证券客户流失预测方法，包括以下步骤：确定客户流失指标和数据范围；根据客户流失指标和数据范围筛选客户数据；根据筛选出的所述客户数据计算初始变量；对所述初始变量进行预处理；根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。

于本发明的一具体实施例中，所述客户流失指标至少包括以下中的一种：客户在一预设时间段内的亏损率、客户的交易量和交易额、客户资金的净流入、客户日均资产的萎缩情况、客户的日均持仓市值情况、客户的佣金率、以及客户获得的服务次数。

于本发明的一具体实施例中，所述数据范围包括时间范围和客户范围；所述时间范围包括预测时间之前的第一时间段以及预测时间之后的第二时间段，其中，所述预测方法用以筛选所述第一时间段内的客户数据，且，所述预测方法用以预测所述第二时间段内的客户流失率；所述客户范围至少排除以下中的一种或多种：资产小于一第一资产阈值的客户、机构客户、资产大于一第二资产阈值的客户、开户时间小于一时间阈值的客户、无交易行为的客户、在所述第一时间段内已经流失的客户。

于本发明的一具体实施例中，所述对所述初始变量进行预处理的操作包括：缺失值填充以及极值处理。

于本发明的一具体实施例中，在计算出所述初始变量后，根据以下中的一种或多种指标对所述初始变量进行衍生：资产总量、佣金、仓位、交易活跃度、资金流入量、资金流出量、盈亏比例、以及产品信息。

为实现上述目的及其他相关目的，本发明还提供一种基于Logistic回归的证券客户流失预测系统，包括：确定模块，确定客户流失指标和数据范围；数据筛选模块，用以根据客户流失指标和数据范围筛选客户数据；初始变量计算模块，用以根据筛选出的所述客户数据计算初始变量；预处理模块，用以对所述初始变量进行预处理；预测模块，根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。

于本发明的一具体实施例中，所述预处理模块对所述初始变量进行预处理的操作包括：缺失值填充以及极值处理。

于本发明的一具体实施例中，所述初始变量计算模块在计算出所述初始变量后，根据以下中的一种或多种指标对所述初始变量进行衍生：资产总量、佣金、仓位、交易活跃度、资金流入量、资金流出量、盈亏比例、以及产品信息，且令所述预处理模块对所述衍生后的初始变量进行预处理。

如上所述，本发明的基于Logistic回归的证券客户流失预测的方法及系统，主要通过确定客户流失指标和数据范围；根据客户流失指标和数据范围筛选客户数据；根据筛选出的所述客户数据计算初始变量；对所述初始变量进行预处理；根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。采用logistic回归模型，对选取的客户数据进行客观分析，以准确客观的对客户的流失进行预测。

附图说明

图1显示为本发明的基于Logistic回归的证券客户流失预测的方法在一具体实施例中的流程示意图。

图2显示为本发明的基于Logistic回归的证券客户流失预测的系统在一具体实施例中所应用的时间划分表。

图3显示为本发明一具体实施例中变量衍生示意图。

图4显示为本发明一具体实施例中变量相关性的四种情况。

图5显示为本发明的基于Logistic回归的证券客户流失预测的系统在一具体实施例中的模块示意图。

元件标号说明

1 基于Logistic回归的证券客户流失预测的系统

11 确定模块

12 数据筛选模块

13 初始变量计算模块

14 预处理模块

15 预测模块

S11～S15 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，显示为本发明的基于Logistic回归的证券客户流失预测的方法在一具体实施例中的流程示意图。包括以下步骤：

S11：确定客户流失指标和数据范围；

S12：根据客户流失指标和数据范围筛选客户数据；

S13：根据筛选出的所述客户数据计算初始变量；

S14：对所述初始变量进行预处理；

S15：根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。

以下再以一具体实施例来说明本发明的基于Logistic回归的证券客户流失预测的方法的具体应用：

1、定义客户流失响应目标：

对于建立客户流失模型，首先要将业务上的目标转化为数据挖掘可以处理的目标，这里我们要先定义一下什么样的客户是流失客户。一般而言，当一个客户在某券商进行了消资金帐户、转托管和撤销指定等行为时，我们即认为其为流失客户。但是在实际应用中，我们更关心的是客户的资产是否严重缩水，即客户是否有大量的资产流失行为。

因此，客户流失模型的目标响应变量定义为：目标月客户日均资产萎缩至目标月前一年月日均资产15％以下。

此外，本次建模通过使用预测时点前6个月的数据，来预测时点后2个月内的流失概率。参阅图2显示为执行本发明所应用的时间划分表。其中，观察期：模型自变量选取的期间。用该段时间内的客户行为来预测将来客户流失的可能性大小。观察期为观察点前6个月。表现期：模型因变量选取的期间，由于我们的目标是估计客户未来2个月是否流失，因此表现期定为2个月。

2、确定流失预测客户的数据范围和预测指标：

数据范围

通过时间和客户两个维度，确定本次挖掘所需要的数据范围。

2.1时间范围

根据以往的经验，我们选择靠近当前时间的8个月的数据作为本项目的数据范围。(个别变量需要14个月的数据)，在进行数据汇总前，首先需要定义客户流失模型考察的时间区间。项目中选用的时间区间如图2。

观察期为模型自变量选取的期间。用该段时间内的客户行为来预测将来客户流失的可能性大小。本实施例中观察期为观察点前6个月，且月的数值，在其他具体实施例中，也可为根据具体情况而设置的其他数值。

表现期为模型因变量选取的期间，由于我们的目标是估计客户未来2个月是否流失，因此表现期定为2个月。且月的数值，在其他具体实施例中，也可为根据具体情况而设置的其他数值。

且定义观察期的最后一个月为统计月，即本实施例中的11月，且目标月为表现期所在的月，为12月和1月。

2.2客户范围

根据以往的经验，流失模型需排除一些非有效客户：

排除机构客户或资产极大客户：对于机构客户或资产极大客户，券商一般会派专人进行管理，并且此类客户的交易行为特征与一般的客户差异非常大，将此类客户与一般客户进行建模效果不会太理想。

排除资产极小客户：此类客户价值小，流失后对券商损失不大，不需要花费挽留精力和成本在此类客户上。

排除新开户客户：此类客户在券商开户的时间短，很难有明显的行为表现。

排除统计月已流失客户：此类客户流失非常突然，或已经流失，券商对其无法开展相应的挽留措施。

排除无交易行为客户：此类客户近期无任何行为表现，无法判断其流失的可能性。

因此，在客户流失预测模型中，训练样本排除以下客户群体：

1)机构客户

2)资产极大或极小客户：统计月日均资产小于1000元和大于1000万元的客户

3)新开户的客户：开户时间距统计月小于6个月的客户

4)统计月已流失客户：统计月日均资产小于过去1年日均资产峰值的15％

5)无交易行为客户：观察期6个月内无买卖行为的客户

例如数据选取结果如表1所示：

筛选步骤	客户数
		六个月状态正常、经纪业务客户	2765764
开户在6月1号之前	2738653
		6个月交易量大于0	1096934
排除(日均资产<1000、>1000w、11月份流失的)	997072
		排除(机构客户)即选择个人客户	996895

表1

最终本实施例中，排除(机构客户)即选择个人客户的客户数，即996895人。

2.3初始变量的确定及计算(因变量)_客户流失

初始变量的确定及计算分为四个步骤，首先由挖掘人员进行变量衍生，确定初始变量后，建立客户流失宽表，将宽表内的基础变量交由ETL人员计算后，在其返回的结果基础上，挖掘人员将全部初始变量算出。

其中变量衍生是在基础变量的基础上进行时间的累积、环比、同比、绝对值等方式产生一系列具有业务含义的衍生变量，作为模型的原始变量。例如，参阅图3，本项目的变量衍生主要从资产、佣金、仓位、交易活跃度、流入流出、盈亏、基本信息、产品信息等方面进行。变量衍生时，对每个衍生变量都充分分析了业务含义及其与客户流失可能的关系。衍生变量大多反映出该客户的动态变化信息。例如，于本实施例中，共衍生出354个变量。

3、数据预处理

数据预处理指对上一步骤中计算出来的354个初始变量进行数据调整，调整内容包括对缺失值的填充和对极值的处理。

缺失值填充：

由于宽表字段不会出现缺失值(或缺失值均用0值替代)，因此，变量衍生时的缺失值一般来说是由分母为0导致的。分母为0可能会根据情况不同而作不同的处理，例如市值/资产＝仓位。这里资产一般不会为0(因为建模的客户的日均资产至少为1000元)，如果出现这样的数据，应该作删除处理。

对于缺失值，我们主要作表2所示操作：

表2

极值处理：

对于客户流失预测模型的解释变量，经常会出现一些异常值，例如资产增长率超过100，佣金率达到100％等等。这些异常值可能是系统错误引起的，也可能是实际发生的。例如如果客户进行的一笔卖出交易为5元，其佣金也为5元，则其佣金率即为100％。为了减少异常值对于模型效果的影响，本项目要对初始变量的异常值进行处理。

变量异常值处理通常使用的方法是四分位数异常值处理，其原理：在Q3(四分之三分位数)+1.5IQR(四分位距)和Q1(四分之一分位数)－1.5IQR(四分位距)处画两条与中位线一样的线段，这两条线段为异常值截断点，称其为内限；在Q3+3IQR和Q1－3IQR处画两条线段，称其为外限。处于内限以外位置的点表示的数据都是异常值，其中在内限与外限之间的异常值为温和的异常值(mild outliers)，在外限以外的为极端的异常值(extremeoutliers)。

异常值进行处理时，对于变量，如果其值大于某个较大的阈值(内限或外限)，则该变量的值用这个较大的阈值替代，如果该变量的值小于某个较小的阈值(内限或外限)，则该变量的值用这个较小的阈值替代。

在实际的应用中，除了上述用统计学的方法来处理异常值外，还需要根据变量的业务含义，及其业务的可能范围来得到变量的取值范围。例如一般情况下，客户的仓位值(市值/资产)的值介于0到1之间。

4、数据抽样

例如，在2011年12月和2012年1月实际流失的客户数位44629，约占模型总体人数的4.48％。对流失模型来说，这个比例比较小，因此，为了增加目标样本的浓度，从而提高目标样本的行为表现，我们对剩下的非流失客户随机抽取44629，将流失目标样本的比例提升至总体的50％，即抽样后的数据集总数约为89258，流失客户与非流失客户的比例为1:1。

5、模型变量筛选

在以上步骤均完成以后，将开始进行建模，对模型变量进行筛选，并最终确定变量及其回归系数。

模型变量筛选是指，从业务衍生出的354个变量中，通过相关性绝对值大小筛选、单变量AR值筛选、logistic逐步回归以及回归系数与相关性方向筛选、相关性方向与业务方向筛选以及删除回归系数与相关性方向筛选共四个步骤，最终得到本次模型中使用的12个变量。具体为：

第一次筛选：相关性筛选变量

目的：删除相关性较小的变量。

相关性分析可以用来验证两个变量间的线性关系，从相关r可以知道两个变量是否呈线性关系、线性关系的强弱、以及是正相关还是负相关。图4是相关性的4种表示方式。

在本次项目中，模型使用的是logistic回归，必须要求模型变量和响应变量是线性相关，所以，我们删掉(3)非线性相关、(4)0相关(指无相关性)。

于本实施例中，选取相关性最高50％-75％的原始变量，因此，我们选择相关性最高的前200个变量利用sas程序proc corr过程，计算出每个衍生变量与响应变量的相关性，并保留相关性绝对值大的前200个变量。对于删除的年龄变量虽然也呈现出一定的相关性，但是相关性太小，也被删除。

第二次筛选：单变量AR值筛选变量

目的：删除AR值较小的变量。

做单变量AR值比较是为了找出单变量对模型的提升率比较高的变量，从数据挖掘的角度，提升率比较高的变量对模型比较有效。

在本次项目的单变量AR值筛选变量过程中，主要首先利用sas中的logistic回归过程，对200个单变量分别做logistic回归(做logistic回归的客户为抽样客户)，得出单变量回归和每个客户的单变量的流失概率(模型客户的流失概率)。

将流失概率排序后，得到前n％的客户的累计流失占比m％，n＝1…100。这样我们就可以得到n％与m％的一条曲线(例如：流失概率前1％客户中的实际流失客户占总流失客户的18％，前2％客户中的实际流失客户占总流失客户的30％)，且以n％是横轴，m％是纵轴建立坐标。

通过计算得出每个变量的AR值(accuracy ratio准确性比率)，从中选择AR值比较高的变量，于本实施例中，我们选择删除掉AR值小于0.1的变量。

本次在选出的200个变量中，每个变量的AR值均大于0.1，即200个变量的准确性比率都不低，因此，该步，并没有删除变量。

第三次筛选

目的：由logistic逐步回归删选一部分变量,然后利用logistic回归确定出回归系数，从而进行相关性方向和回归系数方向变量筛选.

步骤1:logistic逐步回归变量筛选

该模型中的logistic回归的选项串为stepwise sle＝0.05，slstay＝0.05fastdetail。

Stepwise：模型选用的是逐步排除回归法，其分析原理是顺向(Forward)与反方向(Backward)的两种方法的综合。换句话说，逐步排除法按照选择法的逻辑不断挑选“重要”的变量，将其纳入回归模型里。但同时，它也依据反向淘汰法的原则对模型中既存的变量一一做检定，看看他们当中是否有些自变量是多余的。

Forward：logistic回归程序逐次增加模型中参数的个数，直至模型以外的变量均不能达到sle＝0.05的显著度。

Backward：与forward的方法刚好相反，logistic回归程序逐次将“不重要”的变量剔除，直至模型内的变量均达到slstay＝0.05的显著度。

Fast：此选项的作用是要求logistic回归程序根据lawless与singhal(1978)所发展出来的计算程序，决定每一步骤中被剔除的变量，其所对应的斜率参数的确达不到统计显著地程度。

Detail：要求将模型界定的过程详细的打印出来，包括模型里与模型外的变量检定以及四个相关(Somer’s D、Gamma、Tau-a、C)之数值。

步骤2:相关性方向和回归系数方向变量筛选

相关性方向：前面介绍过，该模型的响应变量0表示非流失，1表示流失。所以当变量与响应变量的相关为正时，变量越大，流失概率越高，反之，当变量与响应变量的相关为负时，变量越大，流失概率越小。

回归系数方向：根据公式，回归系数β为正时，变量X越大，越大，分母越大，p_流失越小；反之，β为负时，变量X越大，分母越小，p_流失越大。因此，回归系数的正负与流失概率的大小呈负向关系。

模型必须保证回归系数方向和相关性方向相反，因此删除回归系数与相关性乘积为正的变量。

经过以上两个步骤，于本实施例中，得到43个变量。

步骤3：对剩下的43个变量再做logistic回归，得到回归系数。

变量以及回归系数如表3所示：

表3

第四次筛选

目的：确定最终回归变量。

第四次筛选，是相关性方向和业务方向变量筛选、相关性方向和回归系数方向变量筛选、共线性变量筛选。

步骤1：相关性方向和业务方向：相关性方向是从数据的角度上表现出的变量和响应变量之间的关系。从业务理解的角度，变量和响应变量也是有联系的。例如，T6月的仓位越大，该客户越不容易流失，所以从业务上说，该变量和响应变量是负向关系。我们必须保证业务方向与相关性方向一致。

步骤2：相关性方向和回归系数方向仍需保持相反。

步骤3：共线性变量。经过上面2步的筛选，还剩下31个变量。例如：ZCLJLCL_T6_BL、ZCLJLCL_ZZC_Q_BL_3都是从资产累计流出量的角度来描述的，这两个变量不单与响应变量之间有很大的相关性，这两个变量之间也具有很大的相关性。我们将这样的变量称为共线性变量，这类变量我们只需取其中之一，否则会导致相关性方向和回归系数方向相同的问题。

经过这三步，我们最终得出模型的12个变量。详见表4：

表4

5、确定变量及回归系数并计算客户流失概率

以上得出12个最终变量后，将再次进行logistic回归，从而确认这些变量的回归系数和常系数。结果如下：

常系数为表5所示：

名称	值	中文标签
			Intercept(常系数)	-3.665807983	常系数

表5

最终变量及回归系数为表6所示：

表6

且将12个最终变量的回归系数和常系数代入公式：以逐一计算每个用户的流失概率。

并选取客户流失概率大于预设的概率阈值的客户，形成一流失客户列表。

请参阅图5，显示为本发明的基于Logistic回归的证券客户流失预测系统在一具体实施例中的模块示意图，所述系统1包括：确定模块11、数据筛选模块12、初始变量计算模块13、预处理模块14、以及预测模块15。

所述确定模块11用以确定客户流失指标和数据范围。

所述数据筛选模块12用以根据客户流失指标和数据范围筛选客户数据。

所述初始变量计算模块13用以根据筛选出的所述客户数据计算初始变量。

所述预处理模块14用以对所述初始变量进行预处理。

所述预测模块15根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。

于本发明的一具体实施例中，所述预处理模块14对所述初始变量进行预处理的操作包括：缺失值填充以及极值处理。

于本发明的一具体实施例中，所述初始变量计算模块13在计算出所述初始变量后，根据以下中的一种或多种指标对所述初始变量进行衍生：资产总量、佣金、仓位、交易活跃度、资金流入量、资金流出量、盈亏比例、以及产品信息，且令所述预处理模块14对所述衍生后的初始变量进行预处理。

本发明的所述基于Logistic回归的证券客户流失预测系统1与所述基于Logistic回归的证券客户流失预测方法的技术方案一一对应，且关于所述基于Logistic回归的证券客户流失预测方法的描述均可应用于本实施例中，再次不加赘述。

综上所述，本发明的基于Logistic回归的证券客户流失预测的方法及系统，主要通过确定客户流失指标和数据范围；根据客户流失指标和数据范围筛选客户数据；根据筛选出的所述客户数据计算初始变量；对所述初始变量进行预处理；根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。采用logistic回归模型，对选取的客户数据进行客观分析，以准确客观的对客户的流失进行预测。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于Logistic回归的证券客户流失预测方法，其特征在于，包括以下步骤：

确定客户流失指标和数据范围；

根据客户流失指标和数据范围筛选客户数据；

根据筛选出的所述客户数据计算初始变量；

对所述初始变量进行预处理；

根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。

2.根据权利要求1所述的基于Logistic回归的证券客户流失预测方法，其特征在于：

所述客户流失指标至少包括以下中的一种：客户在一预设时间段内的亏损率、客户的交易量和交易额、客户资金的净流入、客户日均资产的萎缩情况、客户的日均持仓市值情况、客户的佣金率、以及客户获得的服务次数。

3.根据权利要求1所述的基于Logistic回归的证券客户流失预测方法，其特征在于：所述数据范围包括时间范围和客户范围；

所述时间范围包括预测时间之前的第一时间段以及预测时间之后的第二时间段，其中，所述预测方法用以筛选所述第一时间段内的客户数据，且，所述预测方法用以预测所述第二时间段内的客户流失率；

所述客户范围至少排除以下中的一种或多种：资产小于一第一资产阈值的客户、机构客户、资产大于一第二资产阈值的客户、开户时间小于一时间阈值的客户、无交易行为的客户、在所述第一时间段内已经流失的客户。

4.根据权利要求1所述的基于Logistic回归的证券客户流失预测方法，其特征在于：

所述对所述初始变量进行预处理的操作包括：缺失值填充以及极值处理。

5.根据权利要求1所述的基于Logistic回归的证券客户流失预测方法，其特征在于：在计算出所述初始变量后，根据以下中的一种或多种指标对所述初始变量进行衍生：资产总量、佣金、仓位、交易活跃度、资金流入量、资金流出量、盈亏比例、以及产品信息。

6.一种基于Logistic回归的证券客户流失预测系统，其特征在于，包括：

确定模块，确定客户流失指标和数据范围；

数据筛选模块，用以根据客户流失指标和数据范围筛选客户数据；

初始变量计算模块，用以根据筛选出的所述客户数据计算初始变量；

预处理模块，用以对所述初始变量进行预处理；

预测模块，根据所述预处理后的初始变量，通过logistic回归模型对客户流失进行预测计算，以获得流失概率大于预设流失概率阈值的客户列表。

7.根据权利要求6所述的基于Logistic回归的证券客户流失预测系统，其特征在于：

8.根据权利要求6所述的基于Logistic回归的证券客户流失预测系统，其特征在于：所述数据范围包括时间范围和客户范围；

9.根据权利要求6所述的基于Logistic回归的证券客户流失预测系统，其特征在于：

所述预处理模块对所述初始变量进行预处理的操作包括：缺失值填充以及极值处理。

10.根据权利要求6所述的基于Logistic回归的证券客户流失预测系统，其特征在于：所述初始变量计算模块在计算出所述初始变量后，根据以下中的一种或多种指标对所述初始变量进行衍生：资产总量、佣金、仓位、交易活跃度、资金流入量、资金流出量、盈亏比例、以及产品信息，且令所述预处理模块对所述衍生后的初始变量进行预处理。