CN111105266B

CN111105266B - 基于改进决策树的客户分群方法及装置

Info

Publication number: CN111105266B
Application number: CN201911092878.1A
Authority: CN
Inventors: 陈惊雷; 王雪; 黄昶君; 庄若愚; 宫元瑞; 胡璇; 徐少迪; 马堃; 陈东伟; 林晨; 太明珠; 罗晔; 孙昊
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2023-10-27
Anticipated expiration: 2039-11-11
Also published as: CN111105266A

Abstract

本发明公开了一种基于改进决策树的客户分群方法及装置，该方法包括：确定影响客户收入的分类变量与预测变量；根据分类变量确定切割点，切割点用于对客户样本集进行迭代分割；基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于客群划分信息增益阈值。本发明的分群方法实现了使同一客群中客户收入变化规律趋于一致的效果。

Description

基于改进决策树的客户分群方法及装置

技术领域

本发明涉及银行领域，具体而言，涉及一种基于改进决策树的客户分群方法及装置。

背景技术

银行业中，对客户打上标签、进行分群处理一种非常普遍的操作方式。一方面，可以基于客户行为特征对客户进行分群，确定与目标用户相匹配的银行业务并推荐给所述目标用户。另一方面，也可以结合银行内外部数据，根据群体特征划分群体，构建信用风险评估模型。还可以基于预设客户特征信息对历史高价值客户群体进行聚类分群，以帮助针对性、方向性经营，提高经营效率和效果。还有一种数据管理办法，对客户流失概率进行预测，再通过聚类算法对客户进行分群，对不同客户群体采取不同的挽留策略。现有的客户分群方法存在不够精细化、分群效果不好等缺点。此外，现有客群分群方法往往只考虑了客户当前拥有资产状态与收入水平，没有考虑客户的未来价值，忽略了客户的人力资本等无形资产。例如，刚刚毕业的大学生，名牌院校的毕业生往往未来发展、工资增长潜力比普通院校的毕业生要高，传统的银行分群方法无法对此进行区分。

发明内容

本发明为了解决上述至少一个技术问题，提出了一种基于改进决策树的客户分群方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种基于改进决策树的客户分群方法，该方法包括：

根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量；

确定分类决策树模型的基本参数，其中，所述基本参数包括：客群最低样本数量以及客群划分信息增益阈值；

根据客户样本集中分类变量的值确定切割点，其中，切割点用于对客户样本集进行迭代分割将客户样本集分割成多个客群；

基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足所述客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于所述客群划分信息增益阈值。

可选的，切割点分割后的信息增益具体通过以下步骤计算得出：

采用根据所述预测变量建立的回归预测模型预测切割点分割前的客群或客户样本集中每个客户的收入，根据预测的客户收入与客户的实际收入计算切割点分割前的客群或客户样本集的总体回归误差；

分别针对切割点分割出的两个客群采用根据所述预测变量建立的回归预测模型预测客群中每个客户的收入，根据预测的客户收入与客户的实际收入分别计算分割出的两个客群的总体回归误差；

将切割点分割前的客群或客户样本集的总体回归误差减去切割点分割出的两个客群的总体回归误差得到该切割点分割后的信息增益。

可选的，根据预测的客户收入与客户的实际收入计算总体回归误差，包括：

根据预测的客户收入与客户的实际收入计算每个客户的预测误差；

根据客群或客户样本集中每个客户的预测误差计算总体回归误差。

可选的，所述回归预测模型的公式为：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

其中，INCOME_c,i为客群c中客户i的收入指标，PREDICTORS_c,i为客群c中客户i的预测变量，ε_c,i为客群c中客户i的统计误差项。

可选的，所述根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量，包括：

根据客户样本集中客户的基础数据确定影响客户收入的所有变量；

对客户样本集中客户的收入用所述影响客户收入的所有变量进行回归建模，确定不同变量对客户收入的预测能力，并根据所述预测能力从所有变量中筛选出分类变量与预测变量。

可选的，在将客户样本集分割为满足所述分割要求的多个客群之后，还包括：

分别针对每个客群建立回归模型，计算客群中各客户的收入成长性；

根据客群中各客户的收入成长性确定该客群的客户收入成长性参数；

根据客群中各客户的收入成长性计算该客群的客户收入波动性参数；

根据客群中各客户的收入成长性确定该客群的收入尾部风险参数；

根据客群的客户收入成长性参数、客群的客户收入波动性参数以及客群的收入尾部风险参数计算客群的风险调整后的收入成长性。

可选的，所述分别针对每个客群建立回归模型计算客群中各客户的收入成长性，其中，采用以下公式建立回归模型并计算客户的收入成长性：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

其中，η_c,i为客群c中客户i的收入成长性，INCOME_c,i为客群c中客户i的收入指标，PREDICTORS_c,i为客群c中客户i的预测变量，EXPERIENCE_c,i为客群c中客户i的工作年限，ε_c,i为客群c中客户i的统计误差项。

为了实现上述目的，根据本发明的另一方面，提供了一种基于改进决策树的客户分群装置，该装置包括：

分类变量及预测变量确定单元，用于根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量；

决策树模型基本参数确定单元，用于确定分类决策树模型的基本参数，其中，所述基本参数包括：客群最低样本数量以及客群划分信息增益阈值；

切割点确定单元，用于根据客户样本集中分类变量的值确定切割点，其中，切割点用于对客户样本集进行迭代分割将客户样本集分割成多个客群；

分群单元，用于基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足所述客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于所述客群划分信息增益阈值。

可选的，所述分群单元包括：

分群前的总体回归误差计算模块，用于采用根据所述预测变量建立的回归预测模型预测切割点分割前的客群或客户样本集中每个客户的收入，根据预测的客户收入与客户的实际收入计算切割点分割前的客群或客户样本集的总体回归误差；

分割出客群的总体回归误差计算模块，用于分别针对切割点分割出的两个客群采用根据所述预测变量建立的回归预测模型预测客群中每个客户的收入，根据预测的客户收入与客户的实际收入分别计算分割出的两个客群的总体回归误差；

切割点信息增益计算模块，用于将切割点分割前的客群或客户样本集的总体回归误差减去切割点分割出的两个客群的总体回归误差得到该切割点分割后的信息增益。

可选的，所述回归预测模型的公式为：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

可选的，所述分类变量及预测变量确定单元包括：

变量确定模块，用于根据客户样本集中客户的基础数据确定影响客户收入的所有变量；

变量筛选模块，用于对客户样本集中客户的收入用所述影响客户收入的所有变量进行回归建模，确定不同变量对客户收入的预测能力，并根据所述预测能力从所有变量中筛选出分类变量与预测变量。

可选的，该基于改进决策树的客户分群装置还包括：

收入成长性确定单元，用于分别针对每个客群建立回归模型，计算客群中各客户的收入成长性；

客群客户收入成长性参数确定单元，用于根据客群中各客户的收入成长性确定该客群的客户收入成长性参数；

客群客户收入波动性参数计算单元，用于根据客群中各客户的收入成长性计算该客群的客户收入波动性参数；

客户收入尾部风险参数计算单元，用于根据客群中各客户的收入成长性确定该客群的收入尾部风险参数；

风险调整后的收入成长性计算单元，用于根据客群的客户收入成长性参数、客群的客户收入波动性参数以及客群的收入尾部风险参数计算客群的风险调整后的收入成长性。

可选的，所述收入成长性确定单元采用以下公式建立回归模型并计算客户的收入成长性：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于改进决策树的客户分群方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述基于改进决策树的客户分群方法中的步骤。

本发明的有益效果为：本发明实施例通过使用决策树的框架，在无人工监督的情况下，对样本进行自动化划分，使得同一客户群中对客户的收入变化规律趋于一致。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例基于改进决策树的客户分群方法的流程图；

图2是本发明实施例计算切割点分割后的信息增益的流程图；

图3是本发明实施例筛选分类变量的流程图；

图4是本发明实施例计算客群收入指标的流程图；

图5是本发明实施例基于改进决策树的客户分群装置的第一结构框图；

图6是本发明实施例分群单元的组成结构框图；

图7是本发明实施例分类变量及预测变量确定单元的组成结构框图；

图8是本发明实施例基于改进决策树的客户分群装置的第二结构框图；

图9是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例基于改进决策树的客户分群方法的流程图，如图1所示，本实施例的基于改进决策树的客户分群方法包括步骤S101至步骤S104。

步骤S101，根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量。

在本发明可选实施例中，本步骤可以抽取数据较全的客户作为客户样本集，提取客户当前时点最新的基础数据与过去一年的交易流水数据。这里的交易流水数据包括所有交易类型，例如转账、消费、ATM取现等。进而对抽取出来的数据进行清洗，去除异常值。提出的基础数据可以包括客户过去一年平均月工资收入、客户总工作年限、性别、婚姻状况、是否企业高管、学历、行业、职业、职称、专业技术资格、居住状况、职务类型、年龄、现居住地等基础数据，以及客户的行为指标，如过去一年信用卡全额还款次数、信用卡逾期次数比率等行为指标。

进一步，的基于客户的基础数据构建每个客户的多维度特征，除了客户基本信息以外，结合劳动经济学、行为经济学与金融学，特别构建客户人力资本、行为认知、风险偏好等相关特征，将客户无形资产纳入分群依据，主要选取包括收入指标、劳动力指标、行为指标和宏观、中观经济状况指标等不同维度数据；本发明基于人力资本理论构建了客户的劳动力指标，以衡量个人拥有的无形资产价值，包括个人所拥有的有用的经验、知识、能力和健康等反应的人力资本价值，这些因素对个人收入有显著的作用，还能揭示个人价值随时间变化的规律；基于行为认知理论、金融素养理论和风险偏好理论构建了客户的部分行为指标，可以帮助更深入理解人力资本的内在机理，有助于个人未来的收入、消费和未来价值的预测；同时引入宏观和中观数据，以更好衡量客户未来收入受外部环境变化的影响。

在本发明实施例中，为保证分类模型的稳定性，选择较为稳定的变量如行业、学历、所在地域、是否高管等作为客群分类变量；将经常变动的客户工作年限、年龄和行为指标数据等作为客群收入预测变量。

步骤S102，确定分类决策树模型的基本参数，其中，所述基本参数包括：客群最低样本数量以及客群划分信息增益阈值。

步骤S103，根据客户样本集中分类变量的值确定切割点，其中，切割点用于对客户样本集进行迭代分割将客户样本集分割成多个客群。

在本发明的实施例中，切割点用于将客户样本集分割为两个客群以及将分割出的客群再分割为两个客群。

在本发明可选实施例中，可以将客户样本集中分类变量的每个值作为一个切割点。在本发其他可选实施例中，也可以先对客户样本集中分类变量的值进行统计，统计出每个分类变量中出现次数较多的值，进而将出现较多的值作为切割点。

在本发明实施例中，切割点用于将一个样本集合分割成两个小集合，即一分为二，例如对分类变量所在地域中的一个切割点北京，可以将客户样本集分割成两个客群，一个为所在地域在北京的客群，另一个为所在地域不在北京的客群。在本发明中切割点也可以对连续性变量进行切割，例如对于连续性变量消费与收入的比值，可以将消费与收入的比值的某个值作为切割点，将客群分割成消费与收入的比值小于该值和大于该值的两个客群。

在本发明实施例中，切割点用于在预设的分割要求下对客户样本集进行不断的切割，在满足预设的分割要求下将客户样本集分割为多个客群。

在本发明实施例中，在决策树模型反复的迭代过程中，给定当前的决策树T和所有可能分支集合Υ，对所有可能的分支切割点，可以新建两个分支{X_j≤r_j}和{X_j>r_j}，得到新的所有可能分支集合γ′＝{γ∪{X_j≤r_j}∪{X_j>r_j}}。对每个切割点进行计算，若根据该切割点分群后客群的样本数量少于规定客群最低样本数量，则放弃该分割点，例如样本可根据是否北京地区进行切割，若在北京地区或者不在北京地区的人数小于最低样本数量，则样本不能根据是否北京地区进行切割。

步骤S104，基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足所述客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于所述客群划分信息增益阈值。

在本发明实施例中，根据切割点进行分群的步骤包括：对当前样本集(包括客户样本集以及切割点分割出的客群)遍历所有分类变量的所有切割点，每个切割点皆可将当前样本集分割为两部分，若分群后客群的样本数量少于规定客群最低样本数量，则放弃该分割点；此外，对每个分割点进行如下计算：分群后每个客群内将客户工资相对预测变量进行线性回归，计算得到回归误差之和；将分群前对所有客户进行线性回归误差之和减去分群后两个客群的线性回归误差之和作为通过该分割点分群得到的信息增益，确定所有分割点中信息增益最大的切割点，并判断该点的信息增益是否大于预设的客群划分信息增益阈值，若大于则按照此分割点将当前样本集分割成两个客群。进而分别将分割出的两个客群作为当前样本集，同样进行以上根据切割点进行的分割操作，只要满足上述分割要求就依次分割下去，直至将客户样本集分割为满足所述分割要求的多个客群，得到分群结果。

举例说明，客户样本集为A，遍历所有分类变量的所有切割点对A进行切割，判断每个切割点分割出的两个客群B1和B2中的样本数量是否少于规定客群最低样本数量，若少于则放弃该切割点；若不少于，则进一步计算该分割点分群得到的信息增益，确定出信息增益最大的切割点，并判断信息增益最大的切割点的信息增益是否大于预设的客群划分信息增益阈值，若大于则按照此信息增益最大的切割点将当前样本集分割成两个客群B1和B2。进而分别将针对客群B1和B2同样进行以上根据切割点进行的分割操作，直至将客户样本集分割为满足上述分割要求的多个客群。

从以上描述可以看出，本发明实施例使用决策树的框架，在无监督的情况下，对样本进行自动化划分，使得同一客户群中对客户的收入变化规律趋于一致。

图2是本发明实施例计算切割点分割后的信息增益的流程图，如图2所示，在本发明可选实施例中，上述步骤S104中的切割点分割后的信息增益具体通过步骤S201至步骤S203计算得出。

步骤S201，采用根据所述预测变量建立的回归预测模型预测切割点分割前的客群或客户样本集中每个客户的收入，根据预测的客户收入与客户的实际收入计算切割点分割前的客群或客户样本集的总体回归误差。

步骤S202，分别针对切割点分割出的两个客群采用根据所述预测变量建立的回归预测模型预测客群中每个客户的收入，根据预测的客户收入与客户的实际收入分别计算分割出的两个客群的总体回归误差。

步骤S203，将切割点分割前的客群或客户样本集的总体回归误差减去切割点分割出的两个客群的总体回归误差得到该切割点分割后的信息增益。

在本发明实施例中，针对客户样本集或客群(以下用客群统称)建立回归预测模型f_c，用于预测客群中各客户的收入，其中该收入可以为月收入或年收入等。

在本发明的可选实施例中，回归预测模型的公式为：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

在本发明另一可选实施例中，回归预测模型f_c可以在经济学家Jacob Mincer于1974年提出的人力资本收入模型(Mincer,1974)为基础进行拓展建立。设劳动力受教育年限为S，结束学业后的总工作年限为X，人力资本收入模型指出，在给定的时间段内，个人收入的对数logy可以分解为关于学历教育的一次项和关于工作年限的二次项之和，即logy＝a+bS+cX+dX²+e，其中，e是统计误差项。由于教育学历是分类变量，这意味着它已经成为预测个人收入的关键变量，在人力资本收入模型的基础上，本申请可选实施例的回归预测模型的回归方程为：

其中，log(MONTHLY_INCOME_c,i)为客群c中客户i的收入的对数，EXPERIENCE_c,i为客群c中客户i的工作年限，BIRTHPLACE_c,i为客群c中客户i的出生地，X_behavior_c,i为客群c中客户i的行为指标参数，β₁、β₂、β₃和β₄为系数，ε_c,i为客群c中客户i的统计误差项。

根据以上回归方程分别针对每个客群建立客群对应的回归预测模型，即根据客群中各客户的上述数据进行回归确定系数β₁、β₂、β₃和β₄。进而根据建立好的客群对应的回归预测模型，可以对该客群内的客户的收入进行预测。

在本发明实施例中，行为指标参数X_behavior可以包括客户过去一年信用卡全额还款次数、信用卡逾期次数比率等行为参数。行为指标参数X_behavior作为收入预测的重要变量影响客户的分类结果，从而改变不同客户群的成长性系数。

在本发明的实施例中，客群或客户样本集的总体回归误差具体通过以下步骤计算得出：根据预测的客户收入与客户的实际收入计算每个客户的预测误差；根据客群或客户样本集中每个客户的预测误差计算总体回归误差。

在本发明的一可选实施例中，客群的总体回归误差可以为客群中每个客户的预测误差的平方和。在本实施例中，客群c的总体回归误差可以通过以下公式计算：

P_c＝∑_i(log(MONTHLY_INCOME_c,i)-fc(Z_c,i))²

其中，log(MONTHLY_INCOME_c,i)为客群c中客户i的实际收入的对数，f_c(Z_c,i)为回归预测模型预测的客群c中客户i的收入的对数，(log(MONTHLY_INCOME_c,i)-f_c(Z_c,i))²为客群c中客户i的预测误差。

在本发明的其他可选实施例中，客群的总体回归误差可以为客群中每个客户的预测误差的绝对值求和。

通过以上公式可以计算出切割点分割前的客群的总体回归误差P_c，以及切割点分割后形成的两个客群的总体回归误差P_c1和P_c2，进而该分割点分群得到的信息增益为：

P_c-(P_c1+P_c2)

由以上描述可以看出，本发明实施例在进行分群时，引入劳动经济学的人力资本理论、行为经济学的行为认知理论、以及金融学的风险偏好理论，以数据为驱动，预测该客户在未来一段时间的收入增长潜力，更加科学、客观地判断客户未来成长性的高低和未来发展的稳定程度。该系统可以帮助金融机构更加精准化开展客户营销，对不同成长性、稳定性的客户人群推荐不同的金融产品；精确化进行风险管理，综合考虑客户的成长性、稳定程度以及当前收入情况相应调节贷款授信额度；精细化客户管理，在保持一定风险水平的同时，争取更多的客户，产生更多的利润。

图3是本发明实施例筛选分类变量的流程图，如图3所示，在本发明的可选实施例中，上述步骤S101的分类变量由步骤S301和步骤S302筛选得出。

步骤S301，根据客户样本集中客户的基础数据确定影响客户收入的所有变量。

步骤S302，对客户样本集中客户的收入用所述影响客户收入的所有变量进行回归建模，确定不同变量对客户收入的预测能力，并根据所述预测能力从所有变量中筛选出分类变量与预测变量。

在本发明可选实施例中，为了提高模型的可解释性和预测精度、降低计算量，需要对预测指标进行筛选，寻找对自变量(即客户收入)具有解释性的自变量子集。对全体样本客户的收入用变量进行回归建模，考察不同分类变量对客户收入的预测能力，选取缺失较少、预测能力较强的特征作为决策树模型入模的分类变量与预测变量，回归模型可采用线性回归、xgboost等不同模型，综合考察不同特征的预测能力；通过回归模型对客户的预测变量进行筛选，自动化选出对客户的收入预测能力最强的多个变量作为分类变量与预测变量。在本发明的可选实施例中，可以选择Lasso模型进行线性回归，本发明的实施例选取了重要性排名靠前的10个变量，包括工作年限、出生地域、以及其他行为变量。

在本发明的其他可选实施例中，对分类变量的选择方式有很多，除了线性回归、XGBoost、Lasso，还可以利用其他回归模型以及机器学习算法对客户收入进行回归分析，确定不同变量的重要性，选择较为重要的变量，例如逐步回归、岭回归、SVM、随机森林、AdaBoost、决策树以及DNN等深度学习神经网络等方法进行重要性预测与筛选。

图4是本发明实施例计算客群收入指标的流程图，在本发明实施例中，在将客户样本集分割为满足所述分割要求的多个客群之后，可以分别针对每个客群计算每个客群的收入指标，具体流程包括步骤S401至步骤S404。

步骤S401，分别针对每个客群建立回归模型，预测客群中各客户的收入成长性。

在本发明可选实施例中，客户分群后，每个群组中客户收入的变化规律具有较高的同质性，根据客户收入与工作年限的相关关系可以计算每个群组客户收入的成长性与稳定性。

在本发明的可选实施例中，可以采用以下公式建立回归模型并计算客户的收入成长性：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

在本发明的另一可选实施例中，回归模型也可以基于以下公式来建立：

其中，η_c,i为客群c中客户i的收入成长性，EXPERIENCE_c,i为客群c中客户i的工作年限，BIRTHPLACE_c,i为客群c中客户i的出生地，X_behavior_c,i为客群c中客户i的行为指标参数，和/>为系数。

步骤S402，根据客群中各客户的收入成长性确定该客群的客户收入成长性参数。

对于第c客群的客户，他们的收入成长性为η_c＝(η_c,1,η_c,2,…,η_c,n)，在本发明可选实施例中可以将第c客群中各客户的收入成长性的中位数作为该客群的客户收入成长性参数。在本发明的其他可选实施例中，也可以将第c客群中各客户的收入成长性的平均数或众数作为该客群的客户收入成长性参数。

步骤S403，根据客群中各客户的收入成长性计算该客群的客户收入波动性参数。

在本发明可选实施例中，将该客群的收入波动性定义为成长性的方差，客群c的客户收入波动性参数为：

步骤S404，根据客群中各客户的收入成长性确定该客群的收入尾部风险参数。

对于任意一个客群c，实际的收入成长性并不遵循正态分布，而是有偏斜的，仅仅依靠均值和方差将无法充分刻画这部分的尾部风险，在本发明实施例中，对于第c客群的客户，他们的收入尾部风险ρ_c定义为成长性5％分位数和50％分位数之差：

ρ_c＝Percentile^0.05(η_c)-Percentile^0.50(η_c)

在本发明的其他可选实施例中，也可以采用不同的回归模型，如xgboost、Lasso、岭回归、SVM、随机森林、AdaBoost、决策树以及DNN等深度学习神经网络等方法预测客群中各客户的收入成长性。

步骤S405，根据客群的客户收入成长性参数、客群的客户收入波动性参数以及客群的收入尾部风险参数计算客群的风险调整后的收入成长性。

在本发明实施例中，本步骤根据客群的客户收入成长性参数、客群的客户收入波动性参数、客群的收入尾部风险参数以及预设的金融机构的风险厌恶系数计算客群对应的风险调整后的收入成长性g_c。

在本发明实施例中，考虑银行或是金融机构本身对收入波动的风险厌恶系数λ₁以及对尾部风险的厌恶系数λ₂，根据确定性等价原理，经过风险调整后的客群c对应的风险调整后的收入成长性g_c可以为：

其中，η_c为客群c对应的客户收入成长性参数，为客群c对应的客户收入波动性参数，ρ_c为客群c对应的收入尾部风险参数。

在本发明一可选实施例中，本发明的分群模型的一个应用为：，

1、输入新客户的分类变量所用基本信息，如地域、行业、学历、工作年限等；

2、基于已构建客户分群模型，找到新客户所对应的客户群体；

3、输出该客户所在客群的成长性、波动性、尾部风险等结果。

通过以上实施例可以看出，本发明至少实现了以下有益效果：

1、现有银行业务只关注于客户当前的资金、收入等状况，没有考虑客户的未来价值，忽略了客户的人力资本等无形资产。本发明跨学科交叉融合了劳动经济学的人力资本理论、行为经济学的行为认知理论、以及金融学的风险偏好理论，较好刻画了客户的无形资产，描述了不同客户的工资成长潜力和稳定性结果，将不同成长性的客户自动化分群，更加科学、客观地判断客户的未来成长性和未来发展的稳定程度。该系统可以帮助金融机构更加精准化开展客户营销，对不同成长性、稳定性的客户人群推荐不同的金融产品；精确化进行风险管理，综合考虑客户的成长性、稳定程度以及当前收入情况相应调节贷款授信额度；精细化客户管理，在保持一定风险水平的同时，争取更多的客户，产生更多的利润；

2、跨学科交叉融合了劳动经济学的人力资本理论、行为经济学的行为认知理论、以及金融学的风险偏好理论，构建了收入指标、劳动力指标和行为指标等不同指标体系，客观、全面地刻画了客户的无形资产，预测了客户未来成长性；

3、在利用决策树模型对客户进行分群时，采用与分类变量完全无关的预测变量建立每个组内的收入预测回归模型，并将回归模型预测效果作为决定决策树分叉的判断标准；其次，对于客户收入未来成长性和稳定性的预测由于缺少单一客户长时间连续的历史数据，较难计算，目前在金融银行业尚为空白，本发明通过客户分群，将收入波动规律较为同质化的客户自动化分在一组，通过同组其他客户的未来收入预测其未来成长性，从而解决了该问题，具备较强的创新性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种基于改进决策树的客户分群装置，可以用于实现上述实施例所描述的基于改进决策树的客户分群方法，如下面的实施例所述。由于基于改进决策树的客户分群装置解决问题的原理与基于改进决策树的客户分群方法相似，因此基于改进决策树的客户分群装置的实施例可以参见基于改进决策树的客户分群方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是本发明实施例基于改进决策树的客户分群装置的第一结构框图，如图5所示，本发明实施例基于改进决策树的客户分群装置包括：分类变量及预测变量确定单元1、决策树模型基本参数确定单元2、切割点确定单元3和分群单元4。

分类变量及预测变量确定单元1，用于根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量。

决策树模型基本参数确定单元2，用于确定分类决策树模型的基本参数，其中，所述基本参数包括：客群最低样本数量以及客群划分信息增益阈值。

切割点确定单元3，用于根据客户样本集中分类变量的值确定切割点，其中，切割点用于对客户样本集进行迭代分割将客户样本集分割成多个客群。

分群单元4，用于基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足所述客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于所述客群划分信息增益阈值。

图6是本发明实施例分群单元的组成结构框图，如图6所示，在本发明可选实施例中，分群单元4包括：分群前的总体回归误差计算模块401、分割出客群的总体回归误差计算模块402和切割点信息增益计算模块403。

分群前的总体回归误差计算模块401，用于采用根据所述预测变量建立的回归预测模型预测切割点分割前的客群或客户样本集中每个客户的收入，根据预测的客户收入与客户的实际收入计算切割点分割前的客群或客户样本集的总体回归误差。

分割出客群的总体回归误差计算模块402，用于分别针对切割点分割出的两个客群采用根据所述预测变量建立的回归预测模型预测客群中每个客户的收入，根据预测的客户收入与客户的实际收入分别计算分割出的两个客群的总体回归误差。

切割点信息增益计算模块403，用于将切割点分割前的客群或客户样本集的总体回归误差减去切割点分割出的两个客群的总体回归误差得到该切割点分割后的信息增益。

在本发明实施例中，分群前的总体回归误差计算模块401和分割出客群的总体回归误差计算模块402采用的回归预测模型的公式可以为：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

图7是本发明实施例分类变量及预测变量确定单元的组成结构框图，如图7所示，在本发明的可选实施例中，分类变量及预测变量确定单元1包括：变量确定模块101和变量筛选模块102。

变量确定模块101，用于根据客户样本集中客户的基础数据确定影响客户收入的所有变量。

变量筛选模块102，用于对客户样本集中客户的收入用所述影响客户收入的所有变量进行回归建模，确定不同变量对客户收入的预测能力，并根据所述预测能力从所有变量中筛选出分类变量与预测变量。

图8是本发明实施例基于改进决策树的客户分群装置的第二结构框图，如图8所示，本发明实施例的基于改进决策树的客户分群装置还包括：收入成长性确定单元5、客群客户收入成长性参数确定单元6、客群客户收入波动性参数计算单元7和客户收入尾部风险参数计算单元8。

收入成长性确定单元5，用于分别针对每个客群建立回归模型，预测客群中各客户的收入成长性。

客群客户收入成长性参数确定单元6，用于根据客群中各客户的收入成长性确定该客群的客户收入成长性参数。

客群客户收入波动性参数计算单元7，用于根据客群中各客户的收入成长性计算该客群的客户收入波动性参数。

客户收入尾部风险参数计算单元8，用于根据客群中各客户的收入成长性确定该客群的收入尾部风险参数。

在本发明实施例中，本发明实施例的基于改进决策树的客户分群装置还包括：风险调整后的收入成长性计算单元。风险调整后的收入成长性计算单元，用于根据客群中各客户的收入成长性、客群的客户收入波动性参数以及客群的收入尾部风险参数计算客群的风险调整后的收入成长性。

在本发明的可选实施例中，收入成长性确定单元5可以采用以下公式建立回归模型并计算客户的收入成长性：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图9所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述基于改进决策树的客户分群方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进决策树的客户分群方法，其特征在于，包括：

根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量；所述分类变量包括：行业、学历、所在地域以及是否高管；所述预测变量包括：客户工作年限、年龄以及行为指标数据；

基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足所述客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于所述客群划分信息增益阈值，其中，将分群前所有客户的实际收入与预测收入的线性回归误差之和减去分群后两个客群的线性回归误差之和作为通过该分割点分群得到的信息增益；

切割点分割后的信息增益具体通过以下步骤计算得出：

将切割点分割前的客群或客户样本集的总体回归误差减去切割点分割出的两个客群的总体回归误差得到该切割点分割后的信息增益；

所述回归预测模型的公式为：

其中，log(MONTHLY_INCOME_c,i)为客群c中客户i的收入的对数，EXPERIENCE_c,i为客群c中客户i的工作年限，BIRTHPLACE_c,i为客群c中客户i的出生地，X_behavior_c,i为客群c中客户i的行为指标参数，β₁、β₂、β₃和β₄为系数，ε_c,i为客群c中客户i的统计误差项，所述行为指标参数包括：客户过去一年信用卡全额还款次数以及信用卡逾期次数比率。

2.根据权利要求1所述的基于改进决策树的客户分群方法，其特征在于，根据预测的客户收入与客户的实际收入计算总体回归误差，包括：

3.根据权利要求1所述的基于改进决策树的客户分群方法，其特征在于，所述根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量，包括：

4.根据权利要求1所述的基于改进决策树的客户分群方法，其特征在于，在将客户样本集分割为满足所述分割要求的多个客群之后，还包括：

分别针对每个客群建立回归模型，计算客群中各客户的收入成长性，其中，采用以下公式计算客户的收入成长性：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

其中，η_c,i为客群c中客户i的收入成长性，INCOME_c,i为客群c中客户i的收入指标，PREDICTORS_c,i为客群c中客户i的预测变量，EXPERIENCE_c,i为客群c中客户i的工作年限，ε_c,i为客群c中客户i的统计误差项；

根据客群中各客户的收入成长性确定该客群的客户收入成长性参数，其中，将客群中各客户的收入成长性的中位数作为该客群的客户收入成长性参数；

根据客群中各客户的收入成长性计算该客群的客户收入波动性参数，其中，客群的客户收入波动性参数为该客群中各客户的收入成长性的方差；

根据客群中各客户的收入成长性确定该客群的收入尾部风险参数，其中，客群的收入尾部风险参数为该客群中各客户的收入成长性的5％分位数和各客户的收入成长性的50％分位数之差；

5.一种基于改进决策树的客户分群装置，其特征在于，包括：

分类变量及预测变量确定单元，用于根据客户样本集中客户的基础数据确定影响客户收入的分类变量与预测变量；所述分类变量包括：行业、学历、所在地域以及是否高管；所述预测变量包括：客户工作年限、年龄以及行为指标数据；

分群单元，用于基于预设的分割要求以及所述切割点对客户样本集进行迭代分割，直至将客户样本集分割为满足所述分割要求的多个客群，其中，所述分割要求为，在对客户样本集及客群进行分割时，切割点分割出的两个客群的样本数量均满足所述客群最低样本数量，且该切割点分割后的信息增益为所有分割点中的最大值并且大于所述客群划分信息增益阈值，其中，将分群前所有客户的实际收入与预测收入的线性回归误差之和减去分群后两个客群的线性回归误差之和作为通过该分割点分群得到的信息增益；

所述分群单元包括：

切割点信息增益计算模块，用于将切割点分割前的客群或客户样本集的总体回归误差减去切割点分割出的两个客群的总体回归误差得到该切割点分割后的信息增益；

所述回归预测模型的公式为：

6.根据权利要求5所述的基于改进决策树的客户分群装置，其特征在于，所述分类变量及预测变量确定单元包括：

7.根据权利要求5所述的基于改进决策树的客户分群装置，其特征在于，还包括：

收入成长性确定单元，用于分别针对每个客群建立回归模型，计算客群中各客户的收入成长性，其中，采用以下公式计算客户的收入成长性：

INCOME_c,i＝f(PREDICTORS_c,i)+ε_c,i

客群客户收入成长性参数确定单元，用于根据客群中各客户的收入成长性确定该客群的客户收入成长性参数，其中，将客群中各客户的收入成长性的中位数作为该客群的客户收入成长性参数；

客群客户收入波动性参数计算单元，用于根据客群中各客户的收入成长性计算该客群的客户收入波动性参数，其中，客群的客户收入波动性参数为该客群中各客户的收入成长性的方差；

客户收入尾部风险参数计算单元，用于根据客群中各客户的收入成长性确定该客群的收入尾部风险参数，其中，客群的收入尾部风险参数为该客群中各客户的收入成长性的5％分位数和各客户的收入成长性的50％分位数之差；

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项方法中的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至4任意一项方法中的步骤。