CN111160929A

CN111160929A - 一种客户类型的确定方法及装置

Info

Publication number: CN111160929A
Application number: CN201911363412.0A
Authority: CN
Inventors: 赖�良
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-15
Anticipated expiration: 2039-12-26
Also published as: WO2021129368A1; CN111160929B

Abstract

本发明涉及金融科技(Fintech)领域，公开了一种客户类型的确定方法及装置，获取客户的属性信息；将客户的属性信息输入预设模型，得到客户所属的客户类型；其中，通过以下方式调整预设模型：针对第n次训练得到的模型，通过验证数据确定模型是否过拟合；在确定模型过拟合后，获取模型在所述第n次训练过程中使用的各样本特征的评估值；根据各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定模型是否过拟合的步骤，直至模型不存在过拟合。该方案通过将客户信息输入预设模型，经模型处理，即可快速确定出客户所属的客户类型，以实现对客户的精准定位，便于对其进行精准营销。

Description

一种客户类型的确定方法及装置

技术领域

本发明涉及金融科技(Fintech)领域，尤其涉及一种客户类型的确定方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术(例如：分布式架构、云计算或大数据)应用在金融领域，传统金融业正在逐步向金融科技转变，大数据技术也不例外。但由于金融、支付行业的安全性、实时性要求，也对大数据技术提出了更高的要求。

有关于如何从海量的客户中，确定出某些客户属于某一/些特定的客户类型的问题，如属于中小微企业主这一客户类型，目前许多互联网公司或数据采集厂商，通过从移动用户的终端(手机)上采集到的操作行为(如下载APP、APP上的操作、操作频率、时间、定位等)加工成用户标签，比如相关用户人口属性、社会属性、经常前往的地理位置/片区、APP偏好(银行APP、理财APP)、兴趣偏好(游戏、直播、音乐、阅读等)、活跃时长等。数据部门对标签进行基于经验的权重值计算，组合出可能符合中小微企业主的行为标签/属性标签。

以上技术存在的缺点表现如下：

(1)存在较大程度的主观判断，未必贴近事实，精确率及召回率普遍不高；

(2)高度依赖采集数据的数据质量，如数据完整性、时效性、真实性；

(3)容易受固有标签限制，标签数量的轻微变化，可能对预测效果造成较大影响。

综上，现有技术的方案存在无法准确确定出客户所属的客户类型的问题。

发明内容

本发明提供一种客户类型的确定方法及装置，用以解决无法准确确定客户所属的客户类型的问题。

第一方面，本发明实施例提供一种客户类型的确定方法，该方法包括：获取客户的属性信息；将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过以下方式得到的：针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

基于该方案，通过将获取到的客户信息输入至预设模型，经过预设模型的处理，即可快速地确定出客户所属的客户类型，以实现对客户的精准定位，便于后期对其进行精准营销；进一步地，通过对预设模型的调整，也即当用验证数据验证第n次训练的模型并确定该模型出现了过拟合的情形，则进一步获取该模型在第n次训练过程中使用的各样本特征的评估值；以及根据各样本特征的评估值来进一步确定第n+1次训练时使用的各样本特征并得到第n+1次训练的模型，通过以上的方式，实现了对所训练模型的逐步调优，使得最终的模型对于客户数据的分析、判断更加准确。

作为一种可能实现的方法，所述各样本特征中包括噪声特征；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征，包括：将评估值低于所述噪声特征的评估值的样本特征删除。

基于该方案，在客户类型的确定过程中，样本的特征对于所训练模型的重要性可通过评估值的形式进行表示：样本的特征越重要，则对应的评估值越高。由于噪声特征本身为一类无意义特征，当样本的某些特征的评估值低于噪声特征的评估值时，则说明这些低于噪声特征的样本特征对模型的训练也不具备充足意义，从而出于对有效简化模型以及提高客户类型的确定速度的目的，可以将评估值低于所述噪声特征的评估值的样本特征删除。

作为一种可能实现的方法，所述评估值至少是根据样本特征在训练过程中的使用次数或样本特征被拆分时的信息增益来确定的；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征，包括：对所述各样本特征的评估值进行排序；若第一样本特征的评估值是第二样本特征的评估值的k倍，则删除所述第一样本特征；所述第一样本特征和所述第二样本特征为排序中相邻的样本特征，k≥3。

基于该方案，在客户类型的确定过程中，样本的特征对于所训练模型的重要性可通过评估值的形式进行表示：样本的特征越重要，则对应的评估值越高。通过将各样本特征的评估值进行排序(如可以是降序排序)，当发现第一样本特征的评估值是第二样本特征的评估值的k倍时，可能是模型在训练过程单方面认为所述第一样本特征过于重要，而导致模型出现了作弊行为，可以将所述第一样本特征进行删除，所述第一样本特征和所述第二样本特征为排序中相邻的样本特征，k≥3。

作为一种可能实现的方法，所述验证数据包括多个验证样本；通过验证数据确定所述模型是否过拟合，包括：将所述多个验证样本分别输入所述模型，得到多个验证结果；根据所述多个验证结果与所述多个验证样本的真实值，确定所述模型的精确率和召回率；在所述精确率大于第一阈值且所述召回率大于第二阈值时，确定所述模型过拟合。

基于该方案，通过将验证数据输入所述模型，也即将多个验证样本分别输入所述模型，得到各自对应的验证结果；进一步通过将验证结果与对应的验证样本的真实值作比较，确定出所述模型的精确率和召回率；在所述精确率大于第一阈值且所述召回率大于第二阈值时，则确定所述模型过拟合。通过对所述模型进行验证，用验证得到的数据来精确地判别所述模型是否出现过拟合。

作为一种可能实现的方法，通过验证数据确定所述模型是否过拟合之前，还包括：将样本数据划分为M份样本集，其中各份包括的正样本相同，且各份包括的负样本均不相同；针对每份样本集，按照所述第n次训练的各样本特征，从所述样本集中确定所述第n次训练使用的各样本，并通过训练得到所述样本集对应的子模型；根据M个子模型得到第n次训练的模型。

基于该方案，通过将样本数据划分为多份样本集，其中每份样本集包括的正样本相同，包括的负样本均不相同，也即采用无放回的方式确定出每份样本集的负样本；通过对每份样本集的训练得到所述样本集对应的子模型，以及根据多个子模型得到第n次训练的模型。通过用多个子模型来得到第n次训练的模型，在充分考虑各样本的样本特征的基础上，使得所得到的第n次训练的模型更具一般性，其适用的场景更加丰富。

作为一种可能实现的方式，所述样本数据为第一历史时段采集的；所述验证数据为第二历史时段采集的；所述第二历史时段晚于所述第一历史时段。

基于该方案，通过将第一历史时段采集的数据作为样本数据，将第二历史时段采集的数据作为验证数据，所述第二历史时段晚于所述第一历史时段，也即将更为久远一些的全量历史数据作为客户类型的确定所用到的样本数据，将距当前日期更近一些的历史数据作为验证所得到模型的验证数据，使得所训练模型更加准确，也更加适用于对当前数据进行分析。

作为一种可能实现的方法，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，包括：在确定所述模型过拟合后，对所述模型的参数进行调整；根据所述第n+1次训练时使用的各样本特征，对调整后的模型重新进行第n+1次训练。

基于该方案，在确定第n次训练的模型过拟合后，并对该模型的参数进行调整，基于参数调整后的模型，根据所述第n+1次训练时使用的各样本特征，对调整后的模型重新进行第n+1次训练，使得最终的模型对于数据的分析、判断更加准确。

第二方面，本发明实施例提供一种客户类型的确定装置，该装置包括：获取单元，用于获取用户的属性信息；确定单元，用于将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过训练单元得到的：所述训练单元，用于针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；所述训练单元，用于在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

作为一种可能实现的方式，所述各样本特征中包括噪声特征；所述训练单元，具体用于将评估值低于所述噪声特征的评估值的样本特征删除。

作为一种可能实现的方式，所述评估值至少是根据样本特征在训练过程中的使用次数或样本特征被拆分时的信息增益来确定的；所述训练单元，具体用于对所述各样本特征的评估值进行排序；若第一样本特征的评估值是第二样本特征的评估值的k倍，则删除所述第一样本特征；所述第一样本特征和所述第二样本特征为排序中相邻的样本特征，k≥3。

作为一种可能实现的方式，所述验证数据包括多个验证样本；所述训练单元，具体用于将所述多个验证样本分别输入所述模型，得到多个验证结果；根据所述多个验证结果与所述多个验证样本的真实值，确定所述模型的精确率和召回率；在所述精确率大于第一阈值且所述召回率大于第二阈值时，确定所述模型过拟合。

作为一种可能实现的方式，通过验证数据确定所述模型是否过拟合之前，所述训练单元，还用于将样本数据划分为M份样本集，其中各份包括的正样本相同，且各份包括的负样本均不相同；针对每份样本集，按照所述第n次训练的各样本特征，从所述样本集中确定所述第n次训练使用的各样本，并通过训练得到所述样本集对应的子模型；根据M个子模型得到第n次训练的模型。

作为一种可能实现的方式，所述训练单元，具体用于在确定所述模型过拟合后，对所述模型的参数进行调整；根据所述第n+1次训练时使用的各样本特征，对调整后的模型重新进行第n+1次训练。

第三方面，本发明实施例提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如第一方面任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一所述的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种客户类型的确定方法；

图2为本发明实施例提供的一种混淆矩阵示意图；

图3为本发明实施例提供的一种客户类型的确定装置。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的一种客户类型的确定方法，该方法包括：

步骤101，获取客户的属性信息。

步骤102，将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过以下方式得到的：针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

就背景技术中所提出的问题，即要如何从海量的信息中准确定位出中小微企业主客户的客户信息，从而可以对所定位出的中小微企业主客户进行广告投放、以实现精准营销的目的，本发明实施例提供的解决方案如下：

在上述步骤101中，获取客户的属性信息。

设一家大型银行在建行之初，就已经颇为关注对客户数据的采集工作，并为此专门开发了一款应用软件，主要用于：凡是与该行发生过交易的客户均在该款应用软件上注册自己的个人信息，比如客户的身份证号等信息。

考虑到每一个客户在该行所办理业务存在差异的现实情况：比如客户小红仅办理过A业务，则说明客户小红在应用软件中的A业务层面中留有的个人信息较多，在其他业务层面中留有的个人信息相对较少；客户小蓝先后共办理过B业务、C业务和D业务，则说明客户小蓝在应用软件中的B业务层面、C业务层面和D业务层面中留有的个人信息较多，在其他业务层面中留有的个人信息相对较少；对于其他客户的业务办理情况可能更复杂，具体情况需具体分析。因此，对于客户的属性信息的获取，可以通过一个统一的识别标签来实现，比如客户的身份证号。一种简单的实现方式是：在客户最初注册该款应用软件时就有对身份证号的注册，由于软件自身的特殊设计，可以实现将客户的身份证号与该行的所有业务进行关联的目标。从而，数据采集人员可以从该款软件中获取所有与该行发生交易的客户的属性信息。如获取的客户的属性信息包括客户的各种类型的标签信息，比如可以是人口标签、设备标签、地理标签、渠道标签、行为标签、账户标签、产品标签等；具体地，标签信息可以表现如下：

人口标签：年龄、性别、婚姻、职业、是否有房、是否有车、是否有小孩等；

设备标签：设备类型、设备品牌、设备型号、品牌上市日期、运营商名称等；

地理标签：登记省份、登记城市、手机号归属省份、手机号归属城市、活跃城市等；

渠道标签：来源业务渠道；

行为标签：登录相关字段、活跃相关字段、交易相关字段、访问其他平台相关字段等；

账户标签：开户相关字段、动账相关字段、其他账户字段等；

产品标签：历史购买相关产品标签、各类产品变动相关标签等。

进一步地，在获取到客户的属性信息之后，需要对客户的属性信息作进一步统计、分析与整理，从而使得后期用于模型预测的客户的属性信息均为正确且有效的数据。

对客户的属性信息进行统计的指标可以包括以下内容：

要点：类型，唯一值，缺失值，倾斜情况，分布情况等；

分位数统计量：最小值，Q1，中位数，Q3，最大值，范围，四分位数范围；

描述性统计数据：均值，模式，标准差，总和，中位数绝对偏差，变异系数，峰度，偏度。

在对客户的属性信息进行统计后，可以进一步对客户的属性信息进行分析与整理，主要包括以下方面：

1、对于数据质量/价值较低的字段进行标记，在后期模型效果不理想的情况下，可考虑将它们排除后再进行测试，以减少此类字段对模型的干扰；其中，数据质量/价值较低可以理解为数据表现出高度稀疏、方差较低、严重倾斜等诸如此类的状态；

2、对于最大值、最小值、变异系数等指标异常的特征，也需要有所记录，并在后续的特征工程阶段对异常值进行处理(比如删除年龄、日期等异常数据；对于金额异常情况，参考产品持有数量等属性，将金额调回合理区间等)；

3、对于一些数据质量低而业务含义较重要的标签(如人口基本属性：年龄、性别、地区，设备属性：品牌、型号、估值等)，继续返回应用软件中的其他业务层面，以希望重新获取正确的数据。

在获取客户的属性信息后，并对所采集的客户的属性信息进行统计、分析与整理后，进一步，还可以对客户的个别属性信息作进一步加工；需要说明的是，此处的客户的属性信息也可以称为特征，个别属性信息也即个别特征。以下举两个实例说明如何对个别特征作进一步加工，也即特征工程。

1、对类型标签进行ONE-HOT编码处理

比如前述客户的属性信息中包括了一个“渠道标签”，其渠道值可以令为1/2/3/4……等；对于数据采集人员来说，数字1、数字2、数字3、数字4……等只是真实渠道的一种简洁表示，但对于后期的预测模型来说，它们只有数值的大小之分，也即4>3>2>1，因此，出于让模型可以准确识别出1/2/3/4……等数字所代表的真实信息的目的，以及出于确保数据集的可扩展性的目的，则可以通过ONE-HOT编码，将其拉宽成若干个字段，如渠道1、渠道2、渠道3、渠道4……等，每个字段下的值只有0和1；以上通过对“渠道标签”进行ONE-HOT编码处理，有助于确保将来数据集要切换模型(如逻辑回归等)时的兼容性。

2、对日期字段的处理

对于日期字段(如2019-12-25，时间戳可能更长)，并不便于模型理解或比较，因此可以将其转化为更便于模型理解的数值——距今天数，从而确保日期字段对于建模能发挥出价值。其中一种可能的实现方式如下：

首先在模型中导入datetime包；接着利用datetime包中的datetime方法将时间戳转换为至今天数。其中，datetime方法具体为：计算出时间戳的时间距离当前日期的具体天数，从而转换成至今天数。

通过以上步骤，不仅获取到客户的属性信息，进一步还对客户的属性信息作了加工、整理工作，此时客户的属性信息可以输入预设模型，以确定客户所属的客户类型。

在上述步骤102中，将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过以下方式得到的：针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

需要说明的是，在上述步骤102中，所述客户的属性信息为前述步骤101中经过加工、整理后所的到的客户属性信息。

如将采集到的客户小红的属性信息输入到预设模型，可以假设该预设模型为一种决策树模型，常见的决策树模型有lightgbm模型、GBDT(Gradient Boosting DecisionTree，提升决策树)、xgboost模型，如本发明实施中可以选取lightgbm模型作为预设模型，则通过lightgbm模型对客户小红的属性信息的计算、模拟，得到客户小红属于中小微企业主客户的概率为67％；则进一步根据预设的属于中小微企业主客户的概率阈值为80％，则lightgbm模型确定客户小红并不属于中小微企业主客户；同理，将采集到的客户小蓝的属性信息输入lightgbm模型，则通过lightgbm模型对客户小蓝的属性信息的计算、模拟，得到客户小蓝属于中小微企业主客户的概率为92％；则进一步根据预设的属于中小微企业主客户的概率阈值为80％，则lightgbm模型确定客户小蓝属于中小微企业主客户。

需要说明的是，实施例中所使用的lightgbm模型是一种确定的、并不存在过拟合现象的预设模型，也即通过使用不存在过拟合现象的预设模型，可以确定出客户所属的客户类型。

其中，在使用模型对输入对象进行模拟、计算时，时常会出现过拟合的现象；基于此，本发明实施例中提供了一种来生成预设模型的方式，表现如下：

通过将采集到的海量客户信息投入初始模型进行训练，设在第n次训练结束后，比如n可以取1、2、3等诸如此类的数值，如进一步假设此处n取值为2，则可以对这第2次训练结束后的模型进行验证，通过验证数据来确定这第2次训练结束后的模型是否过拟合。

设通过使用验证数据对前述第2次训练结束后的模型进行验证后，确定了这第2次训练结束后的模型为一个过拟合的模型，则获取在训练这第2次模型过程中所使用的各样本特征的评估值。作为示例，表1为本发明实施例提供的一种客户类型的确定过程中的各样本特征与其对应的评估值对应关系表。

表1

Split Value	Feature
		10630	A
10336	B
		5876	C
4633	D
		4434	E
3922	F
		3655	M
2545	N
		2206	Noise
1944	O
		1866	X
1659	Y
		1406	Z

参考表1，左侧表示评估值，右侧表示样本特征。比如对于样本特征A，其评估值是10630；同理，对于样本特征B、C、D……等，其对应的评估值分别是10336、5876、4633……等。

其中，样本特征可以为客户的各方面属性，如年纪、性别、婚姻状态、职业等等；示例性地，其中一种可能为：样本特征A可以为客户的年纪，样本特征B可以为客户的性别，样本特征C可以为客户的婚姻状态，样本特征D可以为客户的职业。

表1中用的评估值是Split得分，当然评估值的选取还可以是其他性质的得分，如Gain得分。本发明实施中以Split得分来作为评估值并加以描述。

通过对表1中各样本特征的评估值的判断，以确定在接下来第3次的训练模型时需要使用哪些样本特征来对模型进行调优，以及在客户类型的确定过程中可以摒弃哪些特征；通过使用验证数据对第2次的训练模型进行验证后，若得到的第3次的训练模型不存在过拟合，则确定第3次的训练模型为预设模型；若得到的第3次的训练模型依然存在过拟合，则返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合，即通过使用验证数据对第3次训连的模型进行验证后，若得到的第4次的训练模型不存在过拟合，则确定第4次的训练模型为预设模型；若得到的第4次的训练模型依然存在过拟合，在继续使用验证数据对得到的第4次的训练模型进行训练，直至模型不存在过拟合。

在客户类型的确定过程中，样本的特征对于所训练模型的重要性可通过评估值的形式进行表示：样本的特征越重要，则对应的评估值越高。由于噪声特征本身为一类无意义特征，当样本的某些特征的评估值低于噪声特征的评估值时，则说明这些低于噪声特征的样本特征对模型的训练也不具备充足意义，从而出于对有效简化模型以及提高客户类型的确定速度的目的，可以将评估值低于所述噪声特征的评估值的样本特征删除。

参考表1，所列举的样本特征共13项，其中，A、B、C、D、E、F、M、N、O、X、Y、Z这12项特征为客户真实具有的特征；“Noise”这1项特征是在客户类型的确定过程中所使用的无意义特征。在客户类型的确定过程中通过使用“Noise”这1项特征，计算其Split得分为2206分，而样本特征O、样本特征X、样本特征Y和样本特征Z这4项特征的Split得分分别为1944分、1866分、1659分和1406分，也即这4项特征的Split得分均低于“Noise”这1项特征的Split得分，从而认为样本特征O、样本特征X、样本特征Y和样本特征Z这4项特征对于接下来的客户类型的确定不具备充足的训练意义，进而出于对有效简化模型以及提高客户类型的确定速度的目的，可以将Split得分低于“Noise”的Split得分的样本特征删除，也即，在接下来的第3次客户类型的确定过程中，不对客户的样本特征O、样本特征X、样本特征Y和样本特征Z进行训练。

如前述所述的例子，Split得分是根据样本特征在训练过程中的使用次数所定义的一种评估值，Gain得分是根据样本特征被拆分时的信息增益所定义的一种评估值。

本发明实施例中仅以Split得分这种评估值的方式来说明，Gain得分这种评估值的方式可以参考Split得分的情形，在此不赘述。

参考表1，通过将A、B、C、D、E、F、M、N、O、X、Y、Z这12项特征以及1项“Noise”特征按照Split得分进行降序排序，表格自上而下，Split得分依次降低。

可以想象的是，当样本特征B的Split得分是其下一项的样本特征C的Split得分的3倍以及3倍以上时，则在第3次的客户类型的确定过程中删除样本特征B。其中，样本特征B即为第一样本特征，样本特征C即为第二样本特征。

当然，本发明实施例的表1中样本特征B与样本特征C这两者的Split得分关系不满足删除样本特征B的要求；同时，其他的样本特征与其下一项的样本特征的Split得分关系也不满足删除样本特征的要求；自然，在第3次的客户类型的确定过程中不要求删除样本特征B和其他样本特征。

设用于验证第2个训练后的模型时所使用的验证数据包括10000条新的客户信息；将这10000条新的客户信息输入至第2个训练后的模型，可以得到这10000条新的客户信息经由第2个训练后的模型处理后的验证结果。

这10000条新的客户信息经由第2个训练后的模型处理，可能出现以下情形：

情形1、对真实的中小微企业主客户进行模型处理后，其结果为真；也即，将真实的中小微企业主客户预测为中小微企业主客户；

情形2、对真实的中小微企业主客户进行模型处理后，其结果为假；也即，将真实的中小微企业主客户预测为非中小微企业主客户；

情形3、对非真实的中小微企业主客户进行模型处理后，其结果为真；也即，将非真实的中小微企业主客户预测为非中小微企业主客户；

情形4、对非真实的中小微企业主客户进行模型处理后，其结果为假；也即，将非真实的中小微企业主客户预测为中小微企业主客户。

比如，设这10000条新的客户信息中有200个客户为真实的中小微企业主客户，余下的9800个客户为非真实的中小微企业主客户；通过将这10000条新的客户信息的验证结果与其真实值进行比较，得到如下的结果：

对应于情形1，其客户数量为150；也即第2次训练后的模型通过对这200个真实的中小微企业主客户的各特征的学习与数据处理，预测出其中的150个真实的中小微企业主客户为中小微企业主客户；

对应于情形2，其客户数量为50；也即第2次训练后的模型通过对这200个真实的中小微企业主客户的各特征的学习与数据处理，预测出其中的50个真实的中小微企业主客户为非中小微企业主客户；

对应于情形3，其客户数量为9700；也即第2次训练后的模型通过对这9800个非真实的中小微企业主客户的各特征的学习与数据处理，预测出其中的9700个非真实的中小微企业主客户为非中小微企业主客户；

对应于情形4，其客户数量为100；也即第2次训练后的模型通过对这9800个非真实的中小微企业主客户的各特征的学习与数据处理，预测出其中的100个非真实的中小微企业主客户为中小微企业主客户。

根据上述数据，可以得到有关于第2次训练后的模型的混淆矩阵。如图2所示，为本发明实施例提供的一种混淆矩阵示意图。参考图2：

TP(Ture Positive)表示将正类预测为正类数，如样本真实为1，模型预测也为1；当模型用于预测中小微企业主时，则对应于上述情形1，也即TP的值为150；

FN(False Negative)表示将正类预测为负类数，如样本真实为1，模型预测为0；当模型用于预测中小微企业主时，则对应于上述情形2，也即FN的值为50；

FP(False Positive)表示将负类预测为正类数，如样本真实为0，模型预测为1；当模型用于预测中小微企业主时，则对应于上述情形3，也即FP的值为100；

TN(Ture Negative)表示将负类预测为负类数，如样本真实为0，模型预测也为0；当模型用于预测中小微企业主时，则对应于上述情形4，也即TN的值为9700。

以上，数字“1”用于表示真实的中小微企业主客户，数字“0”用于表示非真实的中小微企业主客户。

根据混淆矩阵，可以确定模型的精确率(Precision)和召回率(Recall)。其中，精确率(Precision)可以通过以下方式计算：

召回率(Recall)可以通过以下方式计算：

对于上述实施例，可以计算出这10000条新的客户信息的精确率(Precision)和召回率(Recall)，其Precision的值为60％，其Recall的值为75％。

若设定50％为判定模型过拟合时精确率的阈值，70％为判定模型过拟合时召回率的阈值，则对于上述Precision的值为60％，Recall的值为75％，则可以确定第2次训练后的模型属于过拟合的模型；其中，50％为第一阈值，70％为第二阈值。

若设定80％为判定模型过拟合时精确率的阈值，80％为判定模型过拟合时召回率的阈值，则对于上述Precision的值为60％，Recall的值为75％，则可以确定第2次训练后的模型不属于过拟合的模型；其中，80％为第一阈值，80％为第二阈值，第一阈值与第二阈值相等。

设采集到的样本数据为2050万条，其中50万是中小微企业主客户，令为正样本集；2000万不是中小微企业主客户，也即为普通客户，令为负样本。

设将所采集到的样本数据划分为4份样本集，其中每一份样本集中包括的正样本均为50万的中小微企业主客户；其中每一份样本集中包括的负样本均不相同，也即采用无放回的方式从负样本集中采集4份，比如可以采用均分的方式从负样本集中采集4份，每一份样本集中的负样本均为500万的普通客户；得到的4份样本集中均为50万的中小微企业主客户和500万的普通客户。

设这4份样本集分别为a样本集、b样本集、c样本集和d样本集；采用已设置的模型_10对a样本集进行训练，采用已设置的模型_20对b样本集进行训练，采用已设置的模型_30对c样本集进行训练，以及采用已设置的模型_40对d样本集进行训练；其中，模型_10、模型_20、模型_30和模型_40的初始参数均一致，也即这四者本质上为同一模型，在此是为了叙述的方便，特令为模型_10、模型_20、模型_30和模型_40以示区分。

然后，将b样本集、c样本集和d样本集中的任一样本集采用已经由a样本集训练得到的模型_11继续训练,如将b样本集投入模型_11继续训练；然后，将c样本集和d样本集中的任一样本集采用已经由b样本集训练得到的模型_12继续训练，如将c样本集投入模型_12继续训练；最后，将余下的d样本集采用已经由c样本集训练得到的模型_13继续训练。

同样的，将a样本集、c样本集和d样本集中的任一样本集采用已经由b样本集训练得到的模型_21继续训练,如将a样本集投入模型_21继续训练；然后，将c样本集和d样本集中的任一样本集采用已经由a样本集训练得到的模型_22继续训练，如将c样本集投入模型_22继续训练；最后，将余下的d样本集采用已经由c样本集训练得到的模型_23继续训练。

同样的，将a样本集、b样本集和d样本集中的任一样本集采用已经由c样本集训练得到的模型_31继续训练,如将a样本集投入模型_31继续训练；然后，将b样本集和d样本集中的任一样本集采用已经由a样本集训练得到的模型_32继续训练，如将b样本集投入模型_32继续训练；最后，将余下的d样本集采用已经由b样本集训练得到的模型_33继续训练。

同样的，将a样本集、b样本集和c样本集中的任一样本集采用已经由d样本集训练得到的模型_41继续训练,如将a样本集投入模型_41继续训练；然后，将b样本集和c样本集中的任一样本集采用已经由a样本集训练得到的模型_42继续训练，如将b样本集投入模型_42继续训练；最后，将余下的c样本集采用已经由b样本集训练得到的模型_43继续训练。

经过每一步的客户类型的确定后，关于每一个客户都会计算出一个对应的概率值，然后综合所有的模型结果取均值。如对于一位非中小微企业主客户，如Grace女士，她被划分至b样本集中，通过模型_20、对应于模型_10的其他模型(模型_11、模型_12和模型_13)中的任一种模型、对应于模型_30的其他模型(模型_31、模型_32和模型_33)中的任一种模型和对应于模型_40的其他模型(模型_41、模型_42和模型_43)中的任一种模型的分别计算，得到的被预测为中小微企业主客户的概率值分别为30％、35％、40％和25％，则对这4个概率值取均值，则有32.5％，也即，通过模型的训练，认为Grace女士有32.5％的可能性是中小微企业主客户。

作为一种可能实现的方法，所述样本数据为第一历史时段采集的；所述验证数据为第二历史时段采集的；所述第二历史时段晚于所述第一历史时段。

比如，前述训练第1次的模型和训练第2次的模型所用到的数据称为样本数据；设第2次训练后的模型为过拟合的模型，则针对第2次训练后的模型调优、而做的第3次训练的模型所用到的数据称为验证数据。

比如，当前月份是2019年12月21号，则可以将2019年10月31号以及之前日期的客户数据作为样本数据，将2019年11月1号至2019年11月30号这一整个月份的客户数据作为验证数据。其中，2019年10月31号以及之前日期则为第一历史时段，2019年11月1号至2019年11月30号这一整个月份则为第二历史时段。

本发明实施例中使用lightgbm这种决策树模型进行对中小微企业主的预测；当确定第2次训练后的模型属于过拟合的模型，可以通过调整lightgbm这种决策树模型自身的参数，以实现在第3次的客户类型的确定过程中的得到较优的模型。

其中，可以通过调整最大深度(max_depth)：在确认模型过拟合时，则将max_depth调小一些；

可以通过调整叶节点个数(num_leaves):由于lightgbm这种决策树模型是基于leaves_wise的生长规则，因而其叶节点个数的须小于2^max_depth(即2的max_depth次方)；

可以通过调整叶节点的最少样本数(mean_data_in_leaf)：增大叶节点的最少样本数。

基于同样的构思，本发明实施例还提供一种客户类型的确定装置，如图3所示，该装置包括：

获取单元301，用于获取客户的属性信息。

确定单元302，用于将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过训练单元303得到的：

所述训练单元303，用于针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；

所述训练单元303，用于在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

进一步地，对于所述装置，所述各样本特征中包括噪声特征；所述训练单元303，具体用于将评估值低于所述噪声特征的评估值的样本特征删除。

进一步地，对于所述装置，所述评估值至少是根据样本特征在训练过程中的使用次数或样本特征被拆分时的信息增益来确定的；所述训练单元303，具体用于对所述各样本特征的评估值进行排序；若第一样本特征的评估值是第二样本特征的评估值的k倍，则删除所述第一样本特征；所述第一样本特征和所述第二样本特征为排序中相邻的样本特征，k≥3。

进一步地，对于所述装置，所述验证数据包括多个验证样本；所述训练单元303，具体用于将所述多个验证样本分别输入所述模型，得到多个验证结果；根据所述多个验证结果与所述多个验证样本的真实值，确定所述模型的精确率和召回率；在所述精确率大于第一阈值且所述召回率大于第二阈值时，确定所述模型过拟合。

进一步地，对于所述装置，通过验证数据确定所述模型是否过拟合之前，所述训练单元303，还用于将样本数据划分为M份样本集，其中各份包括的正样本相同，且各份包括的负样本均不相同；针对每份样本集，按照所述第n次训练的各样本特征，从所述样本集中确定所述第n次训练使用的各样本，并通过训练得到所述样本集对应的子模型；根据M个子模型得到第n次训练的模型。

进一步地，对于所述装置，所述样本数据为第一历史时段采集的；所述验证数据为第二历史时段采集的；所述第二历史时段晚于所述第一历史时段。

进一步地，对于所述装置，所述训练单元303，具体用于在确定所述模型过拟合后，对所述模型的参数进行调整；根据所述第n+1次训练时使用的各样本特征，对调整后的模型重新进行第n+1次训练。

本发明实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器，可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储客户类型的确定方法的程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行客户类型的确定方法。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行客户类型的确定方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种客户类型的确定方法，其特征在于，包括：

获取客户的属性信息；

将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过以下方式得到的：

针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；

在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

2.如权利要求1所述的方法，其特征在于，所述各样本特征中包括噪声特征；

根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征，包括：

将评估值低于所述噪声特征的评估值的样本特征删除。

3.如权利要求1所述的方法，其特征在于，所述评估值至少是根据样本特征在训练过程中的使用次数或样本特征被拆分时的信息增益来确定的；

对所述各样本特征的评估值进行排序；

若第一样本特征的评估值是第二样本特征的评估值的k倍，则删除所述第一样本特征；所述第一样本特征和所述第二样本特征为排序中相邻的样本特征，k≥3。

4.如权利要求1所述的方法，其特征在于，所述验证数据包括多个验证样本；

通过验证数据确定所述模型是否过拟合，包括：

将所述多个验证样本分别输入所述模型，得到多个验证结果；

根据所述多个验证结果与所述多个验证样本的真实值，确定所述模型的精确率和召回率；

在所述精确率大于第一阈值且所述召回率大于第二阈值时，确定所述模型过拟合。

5.如权利要求1所述的方法，其特征在于，

通过验证数据确定所述模型是否过拟合之前，还包括：

将样本数据划分为M份样本集，其中各份包括的正样本相同，且各份包括的负样本均不相同；

针对每份样本集，按照所述第n次训练的各样本特征，从所述样本集中确定所述第n次训练使用的各样本，并通过训练得到所述样本集对应的子模型；

根据M个子模型得到第n次训练的模型。

6.如权利要求5所述的方法，其特征在于，所述样本数据为第一历史时段采集的；所述验证数据为第二历史时段采集的；所述第二历史时段晚于所述第一历史时段。

7.如权利要求1-6任一项所述的方法，其特征在于，

确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，包括：

在确定所述模型过拟合后，对所述模型的参数进行调整；

根据所述第n+1次训练时使用的各样本特征，对调整后的模型重新进行第n+1次训练。

8.一种客户类型的确定装置，其特征在于，包括：

获取单元，用于获取客户的属性信息；

确定单元，用于将所述客户的属性信息输入预设模型，得到所述客户所属的客户类型；其中，所述预设模型是通过训练单元得到的：

所述训练单元，用于针对第n次训练得到的模型，通过验证数据确定所述模型是否过拟合；

所述训练单元，用于在确定所述模型过拟合后，获取所述模型在所述第n次训练过程中使用的各样本特征的评估值；根据所述各样本特征的评估值，确定第n+1次训练时使用的各样本特征从而得到第n+1次训练的模型，返回通过验证数据确定所述模型是否过拟合的步骤，直至所述模型不存在过拟合。

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-7任一项所述的方法。