CN112990311A

CN112990311A - 一种准入客户的识别方法和装置

Info

Publication number: CN112990311A
Application number: CN202110277400.7A
Authority: CN
Inventors: 胡明双; 谭伊姝; 袁韵; 郑玉函; 黄湧城; 李腾
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-18

Abstract

本发明公开了一种准入客户的识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果；根据第一客户的企业主数据，通过企业主准入模型确定第一客户的第二业务表现预测结果；对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，综合业务表现预测结果指示第一客户的综合业务表现是否异常；在第一客户的综合业务表现无异常的情况下，将第一客户识别为准入客户。该实施方式能够适用于初始无额度的企业的授信和准入，增加企业和企业主的数据维度并且分别建模，提高识别的准确率。

Description

一种准入客户的识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种准入客户的识别方法和装置。

背景技术

银行对有融资需求的客户(例如小微企业)进行准入和授信，目前的方案为通过录入小微企业和企业主身份相关的信息，将数据系统和互联网连接，在计算需求时获取数据系统和互联网中的大数据信息，基于面向所有的小微企业的模型进行分析，从而识别出符合条件的小微企业准入和授信。

现有方案是面向所有的小微企业建立的统一模型，没有考虑到小微企业申请群体中初始无额度客户，往往可能导致初始无额度客户中得优质客户无法被识别为准入客户；且现有模型的数据比较单一，只考虑了企业的政务数据、征信数据、企业主的基本信息，且小微企业和企业主是同一个模型，未能充分将小微企业的实际经营数据和企业主的资金和信用表现等数据进行深度挖掘处理。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

无法适用于初始无额度的企业的授信和准入；企业和企业主的数据维度较为单一，且为同一个模型，对准入客户的识别准确率低。

发明内容

有鉴于此，本发明实施例提供一种准入客户的识别方法和装置，能够适用于初始无额度的企业的授信和准入，增加企业和企业主的数据维度并且分别建模，提高识别的准确率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种准入客户的识别方法。

一种准入客户的识别方法，包括：根据第一客户的企业数据，通过企业准入模型确定所述第一客户的第一业务表现预测结果；根据所述第一客户的企业主数据，通过企业主准入模型确定所述第一客户的第二业务表现预测结果；对所述第一业务表现预测结果和所述第二业务表现预测结果进行逻辑回归处理，得到所述第一客户的综合业务表现预测结果，所述综合业务表现预测结果指示所述第一客户的综合业务表现是否异常；在所述第一客户的综合业务表现无异常的情况下，将所述第一客户识别为准入客户。

可选地，根据第二客户的企业数据和企业主数据，分别利用决策树算法进行建模及训练，以生成所述企业准入模型和所述企业主准入模型。

可选地，所述分别利用决策树算法进行建模及训练，以生成所述企业准入模型和所述企业主准入模型，包括：以所述第二客户的企业数据作为所述企业准入模型的训练数据集，以所述第二客户的企业主数据作为所述企业主准入模型的训练数据集，分别基于使用GOSS算法和EFB算法的梯度提升树，训练得到所述企业准入模型和所述企业主准入模型。

可选地，所述生成所述企业准入模型和所述企业主准入模型之前，包括：基于所述第二客户的企业数据和企业主数据得到原始变量；按照业务逻辑对得到的原始变量进行变量衍生，得到衍生的变量，其中，由企业数据对应的原始变量衍生得到企业特征变量，由企业主数据对应的原始变量衍生得到企业主特征变量；利用预设的筛选指标对所述企业特征变量和所述企业主特征变量进行筛选，分别得到企业建模变量和企业主建模变量，其中，所述企业建模变量用于生成所述企业准入模型，所述企业主建模变量用于生成所述企业主准入模型。

可选地，所述筛选指标包括覆盖率指标、群体稳定度指标、信息值指标、相关系数指标中的一种或多种，其中，所述覆盖率指标用于分析所述企业特征变量和所述企业主特征变量的缺失率；所述群体稳定度指标用于分析所述企业特征变量和所述企业主特征变量的稳定度；所述信息值指标用于分析所述企业特征变量和所述企业主特征变量对目标事件的单一预测能力；所述相关系数指标用于分析不同所述企业特征变量或不同所述企业主特征变量之间的相关性。

可选地，所述第一客户的第一业务表现预测结果为所述第一客户的业务表现无异常的第一概率，所述第一客户的第二业务表现预测结果为所述第一客户的业务表现无异常的第二概率；所述对所述第一业务表现预测结果和所述第二业务表现预测结果进行逻辑回归处理，得到所述第一客户的综合业务表现预测结果，包括：以所述第一概率和所述第二概率作为逻辑回归模型的输入，所述逻辑回归模型的参数向量包括常数项、所述第一概率对应的第一回归系数、所述第二概率对应的第二回归系数，所述常数项、所述第一回归系数、所述第二回归系数通过预先训练确定，由所述逻辑回归模型输出指示所述第一客户的综合业务表现是否异常的所述综合业务表现预测结果。

可选地，所述第一客户为初始无贷款额度的企业，所述第二客户为初始有贷款额度且有还款数据的企业，所述综合业务表现预测结果包括无逾期还款的概率，在所述第一客户的无逾期还款的概率满足预设条件的情况下，所述第一客户的综合业务表现无异常。

可选地，所述企业数据包括企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据、企业流水数据中的一种或多种。

可选地，所述企业主数据包括企业主基本信息、已存企业主评分数据、企业主等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、资产管理规模数据中的一种或多种。

根据本发明实施例的另一方面，提供了一种准入客户的识别装置。

一种准入客户的识别装置，包括：第一业务表现预测结果确定模块，用于根据第一客户的企业数据，通过企业准入模型确定所述第一客户的第一业务表现预测结果；第二业务表现预测结果确定模块，用于根据所述第一客户的企业主数据，通过企业主准入模型确定所述第一客户的第二业务表现预测结果；综合业务表现预测结果生成模块，用于对所述第一业务表现预测结果和所述第二业务表现预测结果进行逻辑回归处理，得到所述第一客户的综合业务表现预测结果，所述综合业务表现预测结果指示所述第一客户的综合业务表现是否异常；准入客户识别模块，用于在所述第一客户的综合业务表现无异常的情况下，将所述第一客户识别为准入客户。

可选地，还包括准入模型生成模块，用于：根据第二客户的企业数据和企业主数据，分别利用决策树算法进行建模及训练，以生成所述企业准入模型和所述企业主准入模型。

可选地，所述准入模型生成模块还用于：以所述第二客户的企业数据作为所述企业准入模型的训练数据集，以所述第二客户的企业主数据作为所述企业主准入模型的训练数据集，分别基于使用GOSS(单边梯度采样)算法和EFB(互斥特征绑定)算法的梯度提升树，训练得到所述企业准入模型和所述企业主准入模型。

可选地，还包括建模变量确定模块，用于：基于所述第二客户的企业数据和企业主数据得到原始变量；按照业务逻辑对得到的原始变量进行变量衍生，得到衍生的变量，其中，由企业数据对应的原始变量衍生得到企业特征变量，由企业主数据对应的原始变量衍生得到企业主特征变量；利用预设的筛选指标对所述企业特征变量和所述企业主特征变量进行筛选，分别得到企业建模变量和企业主建模变量，其中，所述企业建模变量用于生成所述企业准入模型，所述企业主建模变量用于生成所述企业主准入模型。

可选地，所述第一客户的第一业务表现预测结果为所述第一客户的业务表现无异常的第一概率，所述第一客户的第二业务表现预测结果为所述第一客户的业务表现无异常的第二概率；所述综合业务表现预测结果生成模块还用于：以所述第一概率和所述第二概率作为逻辑回归模型的输入，所述逻辑回归模型的参数向量包括常数项、所述第一概率对应的第一回归系数、所述第二概率对应的第二回归系数，所述常数项、所述第一回归系数、所述第二回归系数通过预先训练确定，由所述逻辑回归模型输出指示所述第一客户的综合业务表现是否异常的所述综合业务表现预测结果。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所提供的准入客户的识别方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的准入客户的识别方法。

上述发明中的一个实施例具有如下优点或有益效果：根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果；根据第一客户的企业主数据，通过企业主准入模型确定第一客户的第二业务表现预测结果；对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，综合业务表现预测结果指示第一客户的综合业务表现是否异常；在第一客户的综合业务表现无异常的情况下，将第一客户识别为准入客户。能够适用于初始无额度的企业的授信和准入，增加企业和企业主的数据维度并且分别建模，提高识别的准确率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例的准入客户的识别方法的主要流程示意图；

图2是根据本发明一个实施例的准入客户的整体流程示意图；

图3是根据本发明一个实施例的准入客户的流程示意图；

图4是根据本发明一个实施例的生成准入模型的流程示意图；

图5是根据本发明一个实施例的准入客户的识别装置的主要模块示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明一个实施例的准入客户的识别方法的主要流程示意图。

如图1所示，本发明一个实施例的准入客户的识别方法主要包括如下的步骤S101至步骤S104。

步骤S101：根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果。

第一客户为当前待识别的客户，例如，第一客户具体可以为初始无贷款额度的企业。

步骤S102：根据第一客户的企业主数据，通过企业主准入模型确定第一客户的第二业务表现预测结果。

第一客户的第一业务表现预测结果具体为第一客户的业务表现无异常的第一概率。以业务表现为还款表现为例，第一客户的第一业务表现预测结果可以是通过企业准入模型预测得到的第一客户无逾期还款的概率。

第一客户的第二业务表现预测结果具体为第一客户的业务表现无异常的第二概率。以业务表现为还款表现为例，第一客户的第二业务表现预测结果可以是通过企业主准入模型预测得到的第一客户无逾期还款的概率。可以根据第二客户的企业数据和企业主数据，分别利用决策树算法进行建模及训练，以生成企业准入模型和企业主准入模型。

第二客户具体可以为初始有贷款额度且有还款数据的企业。

分别利用决策树算法进行建模及训练，以生成企业准入模型和企业主准入模型，可以包括：以第二客户的企业数据作为企业准入模型的训练数据集，以第二客户的企业主数据作为企业主准入模型的训练数据集，分别基于使用GOSS算法和EFB算法的梯度提升树，训练得到企业准入模型和企业主准入模型。

生成企业准入模型和企业主准入模型之前，可以包括：基于第二客户的企业数据和企业主数据得到原始变量；按照业务逻辑对得到的原始变量进行变量衍生，得到衍生的变量，其中，由企业数据对应的原始变量衍生得到企业特征变量，由企业主数据对应的原始变量衍生得到企业主特征变量；利用预设的筛选指标对企业特征变量和企业主特征变量进行筛选，分别得到企业建模变量和企业主建模变量，其中，企业建模变量用于生成企业准入模型，企业主建模变量用于生成企业主准入模型。

筛选指标可以包括覆盖率指标、群体稳定度指标、信息值指标、相关系数指标中的一种或多种，其中，覆盖率指标用于分析企业特征变量和企业主特征变量的缺失率；群体稳定度指标用于分析企业特征变量和企业主特征变量的稳定度；信息值指标用于分析企业特征变量和企业主特征变量对目标事件的单一预测能力；相关系数指标用于分析不同企业特征变量或不同企业主特征变量之间的相关性。

步骤S103：对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，综合业务表现预测结果指示第一客户的综合业务表现是否异常。

对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，可以包括：以第一客户的业务表现无异常的第一概率和第二概率作为逻辑回归模型的输入，逻辑回归模型的参数向量包括常数项、上述第一概率对应的第一回归系数、上述第二概率对应的第二回归系数，常数项、第一回归系数、第二回归系数通过预先训练确定，由逻辑回归模型输出指示第一客户的综合业务表现是否异常的综合业务表现预测结果。

综合业务表现预测结果可以包括无逾期还款的概率，在第一客户的无逾期还款的概率满足预设条件的情况下，第一客户的综合业务表现无异常。例如，在第一客户的无逾期还款的概率大于或等于预设的某个阈值时，则第一客户的综合业务表现无异常。

步骤S104：在第一客户的综合业务表现无异常的情况下，将第一客户识别为准入客户。

准入客户即可获得后续业务处理权限的客户，以贷款准入为例，准入客户即可获得贷款权限的客户。

无逾期还款的概率无逾期还款的概率

企业数据可以包括企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据、企业流水数据中的一种或多种。

企业主数据可以包括企业主基本信息、已存企业主评分数据、企业主等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、资产管理规模数据中的一种或多种。

上述企业数据和企业主数据可以预先采集并存储在数据库中，和/或从客户(第一客户或第二客户)的用户端、指定服务器实时获取。

下面以贷款场景下，基于机器学习的客户准入模型为例，详细介绍本发明实施例的准入客户的识别方法，本实施例中客户以小微企业为例，准入客户的识别方法例如由银行的服务器执行。

本发明实施例的基于机器学习的客户准入模型用于无初始额度的小微企业进行准入和授信，主要的技术方案为：通过收集小微企业和企业主的各维度数据，如行内数据(即银行端所存储的小微企业和企业主的相关数据)、接入第三方信用数据(第三方服务器等提供的信用数据)、各场景数据等，分别筛选小微企业和企业主的特征，生成建模变量(企业建模变量、企业主建模变量)；分别利用LightGBM算法分别对小微企业和企业主的建模变量进行模型的训练，得到企业准入模型和企业主准入模型；基于无初始额度的企业数据和企业主数据，通过准入模型，分别得到企业预测结果(即第一客户的第一业务表现预测结果)和企业主预测结果(即第一客户的第二业务表现预测结果)；将企业预测结果和企业主预测结果通过Logistic(即逻辑回归)算法得到综合预测结果(即第一客户的综合业务表现预测结果)，以识别无初始额度的企业是否符合准入条件。其中，企业数据可以包括企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据、企业流水数据中的一种或多种；企业主数据可以包括企业主基本信息、已存企业主评分数据、企业主等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、AUM数据(Asset Under Management，资产管理规模数据)中的一种或多种；LightGBM是一个梯度Boosting(提升)框架，使用基于决策树的学习算法，通过GBDT(Gradient Boosti ngDecision Tree，梯度提升树)算法对多棵决策树进行快速迭代，最终获得更精确的预测结果，具有训练速度快、预测能力强、集成学习获得更优性能等优点，Boosting方法是一种用来提高弱分类算法准确度的方法；Logistic算法一种广义线性模型，其使用的链接函数为sigmoid函数(S型生长曲线)，sigmoid函数可以将模型的输出设置在[0，1]之间，可以将逻辑回归模型的输出结果作为样本属于一类标签的概率值，从而用于分类问题，具有解释性强、思路简单、泛化能力强的优点。

图2是根据本发明一个实施例的准入客户的整体流程示意图。

对申请贷款的初始无额度的小微企业进行准入判断的流程如图2所示，小微企业用户端可以通过银行端提供的小微企业渠道入口(例如供小微企业用户端访问的特定接口)，向银行端服务器提交信贷准入请求，银行端服务器响应信贷准入请求进行授信处理，以对该小微企业是否为准入客户进行初步识别，具体地，判断该小微企业是否有贷款额度，若有，则将该小微企业识别为准入客户，进行后续的申请审批等业务处理，若无贷款额度，则将该小微企业初步识别为拒绝准入客户。在该小微企业被初步识别为拒绝准入客户的情况下，，银行端服务器可以对该小微企业进行二次准入的判断，即在无初始额度客户的准入模块，对该客户进行筛选识别，具体地，以该小微企业作为第一客户，执行上文介绍的步骤S101至步骤S104，符合无额度客户准入模型标准的(即该小微企业的综合业务表现无异常)，给予该客户再授信，即将该小微企业识别为准入客户。从而，通过本发明实施例的流程能够增加客群(客户群体)覆盖、在控制风险的前提下提高准入客户识别的准确率，提升客户满意度及客户粘性；无初始额度的客户的准入识别流程为信贷请求处理流程的一部分，对于有初始额度的客户的信贷请求处理执行现有的信贷请求处理流程，无初始额度客户的准入模块以不增加额外的操作步骤及等待时间为前提，避免影响客户体验。

图3是根据本发明一个实施例的准入客户的流程示意图。

如图3所示，选取贷款申请通过、有贷款申请记录和还款表现的客户(即第二客户)，分别使用企业、企业主数据建立企业和企业主的准入模型(即图3中的企业模型和企业主模型)，并通过准入模型对待准入的客户(即第一客户)进行分析，得到企业数据预测结果(即第一业务表现预测结果)和企业主数据预测结果(即第二业务表现预测结果)，并将企业数据和企业主数据的预测结果进行逻辑回归处理，得到综合业务表现预测结果(即图3中的最终预测结果)，以识别出准入客户。

在生成企业准入模型中，获取客户的企业数据，如企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据及企业流水数据等；利用机器学习工具得到企业数据的原始变量，并对企业数据进行变量衍生得到衍生变量，通过单变量分析、数据覆盖率、群体稳定度等指标，从衍生变量中筛选出建模变量；通过LightGBM算法进行建模，生成企业准入模型。

在生成企业主准入模型中，获取客户的企业主数据，如企业主基本信息、行内客户评分数据(即银行端存储的对客户的评分数据)、客户等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、AUM数据等；利用机器学习工具得到企业主数据的原始变量，并对企业主数据进行变量衍生得到衍生变量，通过单变量分析、数据覆盖率、群体稳定度等指标，从衍生变量中筛选出建模变量；通过LightGBM算法进行建模，生成企业主准入模型。

在识别待准入的客户中，将待准入的客户的企业数据和企业主数据作为输入，分别通过企业准入模型和企业主准入模型对客户的未来还款表现进行预测，得到企业数据预测结果和企业主数据预测结果；使用逻辑回归进行整合，分别对待准入客户的企业数据预测结果和企业主数据预测结果分配权重，得到综合业务表现预测结果，以预测客户的还款表现，作为信贷风险准入条件的判断，用于对初步识别为准入拒绝客户的二次准入判断。

图4是根据本发明一个实施例的生成准入模型的流程示意图。

如图4所示，生成准入模型(企业准入模型、企业主准入模型)可以包括数据获取、变量衍生、特征筛选、模型构建、样本测试和模型评价。

数据获取即获取建立准入模型所需要的数据，在数据获取中，选取初始有贷款额度且有还款数据的客户，以获取2018年09月01日至2018年11月30日期间的数据为例，数据获取的具体方式可以为：2018年09月01日至2018年11月30日期间申请贷款并开户的客户有15万，贷款期限为一年，还款表现期为贷款期限到期后的30天，若逾期30天及以上则视为逾期客户；在该15万客户中，逾期客户有0.23万，将该0.23万的逾期客户全部作为建模样本客户，并按照未逾期客户与逾期客户的比例为9:1进行抽样，抽取2.07万未逾期客户，将该0.23万逾期客户和2.07万未逾期客户共同作为建模样本客户，建模样本客户共2.3万；收集建模样本客户的企业数据和企业主数据，并按照设定的比例将逾期客户和未逾期客户分别随机分为训练集和测试集，以生成准入模型。在数据获取中，获取无初始额度的待准入客户的企业数据和企业主数据，以作为准入模型的输入，预测还款表现。

在变量衍生中，将建模样本客户的企业数据和企业主数据作为原始数据(即原始变量)，通过Python(计算机程序设计语言)和SQL(Structured Query Language，结构化查询语言)等语言，根据业务逻辑分别得到企业衍生变量和企业主衍生变量；进一步地，通过透传、统计描述、分类聚合等方法衍生特征，并且检查特征能否与原始数据对应，删除异常变量，得到企业特征变量和企业主特征变量。

在特征筛选中，根据筛选指标对特征变量进行筛选，选出可用于最终建模的变量，筛选指标可以包括覆盖率指标、群体稳定度指标、信息值指标、相关系数指标。其中，覆盖率指标用于分析企业特征变量和企业主特征变量的缺失率，使用覆盖率分析观察变量的缺失程度，剔除缺失率高(如按缺失率>0.05来衡量)的变量，其中，覆盖率表示变量在所有建模样本客户的数据中的覆盖程度；群体稳定度指标(Population Stability Index，PSI)用于分析企业特征变量和企业主特征变量的稳定度，可以使用群体稳定度指标按月分析观察变量的稳定程度，剔除稳定度低(如按PSI>0.1来衡量)的变量，其中，稳定度表示变量在不同客户或者不同时间段等条件下的稳定程度；信息值(Information Value,IV)指标用于分析企业特征变量和企业主特征变量对目标事件(如待准入的企业符合准入条件)的单一预测能力，使用信息值分析特征变量对目标事件的单一预测能力高低，剔除预测能力低(如按IV<0.05来衡量)的变量；相关系数指标用于分析不同企业特征变量或不同企业主特征变量之间的相关性，使用相关系数分析变量之间的相关性，对于相关性高(如相关性>0.9)的两个变量，保留指标值较高的变量，以减少建模变量的数量。

本发明实施例的LightGBM算法是基于Boosting思想的先进的集成学习模型框架，通过GBDT算法对多颗决策树进行快速迭代，获得精准的预测结果，相比传统算法，LightGBM算法具有训练效率快、内存占用小、并行化学习、可处理大规模数据、支持类别特征的特点。Light GBM算法的优势主要体现在GOSS(Gradient-based One-Side Sampling，单边梯度采样)算法和EFB(Exclusive Feature Bundling，互斥特征绑定)算法中，其中，GOSS算法通过样本采样，使用大梯度样本计算信息增益来加快计算速度，EFB算法则通过特征采样使模型训练速度进一步提升，提高学习效率。

GOSS算法在输入训练数据、迭代次数d、大梯度数据采样率a、小梯度数据采样率b后，根据样本的梯度绝对值对各个样本进行梯度的降序排序；样本按照梯度大小，将前a*100％分为大梯度样本，剩余则为小梯度样本，其中，大梯度样本被认为是包含大量可学习信息的样本，小梯度样本被认为已经训练的比较好，误差小；大梯度样本和抽样得到的b*(1-a)*100％个小梯度样本进行合并，并赋予小梯度样本权重系数(1-a)/b；通过上述采样获得的样本进行学习，得到一个弱学习器；不断重复上述步骤，直到达到预设的迭代次数d或者收敛为止。

EFB算法则是对特征进行抽样，将互斥的特征绑定在一起以达到减少特征维度的目的；将连续特征离散化成k个整数，并构造宽度为k的直方图；多个互斥特征结合，构成一个特征束，完整的特征束将会代替上述多个特征；遍历数据时根据离散化的值在直方图中累计统计量；根据该离散值遍历寻找最优分割点。通过直方图算法，主要优点如下：将数据离散化后，每个分箱只需计算一次，相比传统算法每个数据计算一次，计算量大大减少；由于只保存离散化的数据，取值会大量减少，内存消耗明显降低；相比传统机器学习算法，LightGBM算法选择使用leaf-wise的决策树生长形式，每次分列都只选取可以获得最大增益的节点，可以使模型更准确，大大节约了运算资源，提高运算速度和精度；直方图做差加速，一个叶子的直方图由其父节点直方图和兄节点直方图做差获得，无须遍历该叶子上的所有数据，提升运算速度。

在一个实施例中，通过逻辑回归，对待准入客户的企业数据预测结果和企业主数据预测结果进行回归计算，分配企业数据预测结果和企业主数据预测结果不同的权重，以用于待准入客户的还款表现预测。逻辑回归(logistics regression)是一种广义的线性回归分析模型，将企业、企业主模型得到的结果概率(即企业数据预测结果和企业主数据预测结果)x₁、x₂作为逻辑回归的x变量，将客户的还款表现作为y变量，通过函数S将ax+b对应到一个隐状态p，即p＝S(ax+b)，并根据p与1-p的大小决定因变量的值。其中，S就是Sigmoid函数，即：

将t换成ax+b，可以得到逻辑回归模型的参数形式，有：

通过函数S的作用，可以将输出的值限制在[0，1]区间，p(x)则可以用来表示概率p(y＝1|x)，即当一个x发生时，y被分到1的一组的概率。

使用有还款表现的客户作为训练模型参数的训练样本，逻辑回归模型中有两个待定参数a(x的系数)和b(常数项)，企业、企业主模型得到的结果概率为x₁、x₂，因此逻辑回归模型为ax₁+cx₂+b，设a₀表示常数项b，作为x₀(x₀＝1)的参数，a₁、a₂分别表示x₁和x₂的参数，得到a₀x₀+a₁x₁+a₂x₂，用矩阵表示为：

即：

通过训练样本求解回归系数[a₀ a₁ a₂]的值，以确定一个合适的参数向量[a₀ a₁a₂]，使得对于一个新来的[x₀ x₁ x₂]^T，可以准确地给出一个y值(0或者1)，其中a₁为第一回归系数，a₂为第二回归系数，a₀为常数项。训练分类器的过程，即根据已知的数据(训练样本)确定一个使得代价函数的值最小的a(参数向量，回归系数)的过程。逻辑回归模型为有监督的学习方法，在训练阶段，利用训练样本和模型，估计参数a的值，使得仅通过一些数据(观察值/测量值)估计h(a)的值，h(a)的值越接近y，说明模型预测的准确性越高。

在一个实施例中，利用python的sklearn估计回归系数a的值，如下所示：

class sklearn.linear_model.LogisticRegression(penalty＝'l2',

dual＝False,tol＝0.0001,C＝1.0,fit_intercept＝True,

intercept_scaling＝1,class_weight＝None,

random_state＝None,solver＝'liblinear',max_iter＝100,

multi_class＝'ovr',verbose＝0,warm_start＝False,n_jobs＝1)

在对第一客户进行准入识别时，以第一客户的业务表现无异常的第一概率、第二概率分别作为逻辑回归的输入变量x₁、x₂，且上述训练得到第一回归系数a₁、第二回归系数a₂、常数项a₀，那么，由本发明实施例的逻辑回归模型，可以得到输出y，即最终预测结果(第一客户的综合业务表现预测结果)，该最终预测结果。

在一个实施例中，使用逻辑回归最终获得的模型，结合无额度客户的各类特征，对其进行可能得还款表现预测，将预测结果结合有额度客户的实际还款情况，在无额度客户中识别出潜在的优质客户，对其进行二次准入判断，通过授信与准入。

本发明实施例结合了小微企业和企业主的信息进行风险评估，扩大了数据来源，把企业主风险纳入考量中；在准入模型中融合了无额度和有额度的客户，使得模型可以准确适用于无额度客户，解决了既往模型由于缺少无额度客户表现，从而无法对无额度客户进行判断的问题；在准入模型中对企业和企业主模型分别建模，并运用逻辑回归对两个模型进行计算，基于第一概率、第二概率进行逻辑回归处理，第一概率、第二概率分别对应各自的回归系数，从而使得本发明实施例的两个准入模型(企业准入模型、企业主准入模型)被分配不同权重，可以识别模型中企业和企业主变量影响系数，加强模型的预测和解释能力。

图5是根据本发明一个实施例的准入客户的识别装置的主要模块示意图。

如图5所示，本发明一个实施例的准入客户的识别装置500主要包括：第一业务表现预测结果确定模块501、第二业务表现预测结果确定模块502、综合业务表现预测结果生成模块503、准入客户识别模块504。

第一业务表现预测结果确定模块501，用于根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果。

第二业务表现预测结果确定模块502，用于根据第一客户的企业主数据，通过企业主准入模型确定第一客户的第二业务表现预测结果。

综合业务表现预测结果生成模块503，用于对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，综合业务表现预测结果指示第一客户的综合业务表现是否异常。

准入客户识别模块504，用于在第一客户的综合业务表现无异常的情况下，将第一客户识别为准入客户。

在一个实施例中，还包括准入模型生成模块，用于：根据第二客户的企业数据和企业主数据，分别利用决策树算法进行建模及训练，以生成企业准入模型和企业主准入模型。

在一个实施例中，准入模型生成模块还用于：以第二客户的企业数据作为企业准入模型的训练数据集，以第二客户的企业主数据作为企业主准入模型的训练数据集，分别基于使用GOSS算法和EFB算法的梯度提升树，训练得到企业准入模型和企业主准入模型。

在一个实施例中，还包括建模变量确定模块，用于：基于第二客户的企业数据和企业主数据得到原始变量；按照业务逻辑对得到的原始变量进行变量衍生，得到衍生的变量，其中，由企业数据对应的原始变量衍生得到企业特征变量，由企业主数据对应的原始变量衍生得到企业主特征变量；利用预设的筛选指标对企业特征变量和企业主特征变量进行筛选，分别得到企业建模变量和企业主建模变量，其中，企业建模变量用于生成企业准入模型，企业主建模变量用于生成企业主准入模型。

在一个实施例中，筛选指标包括覆盖率指标、群体稳定度指标、信息值指标、相关系数指标中的一种或多种，其中，覆盖率指标用于分析企业特征变量和企业主特征变量的缺失率；群体稳定度指标用于分析企业特征变量和企业主特征变量的稳定度；信息值指标用于分析企业特征变量和企业主特征变量对目标事件的单一预测能力；相关系数指标用于分析不同企业特征变量或不同企业主特征变量之间的相关性。

在一个实施例中，第一客户的第一业务表现预测结果为第一客户的业务表现无异常的第一概率，第一客户的第二业务表现预测结果为第一客户的业务表现无异常的第二概率；综合业务表现预测结果生成模块还用于：以第一概率和第二概率作为逻辑回归模型的输入，逻辑回归模型的参数向量包括常数项、第一概率对应的第一回归系数、第二概率对应的第二回归系数，常数项、第一回归系数、第二回归系数通过预先训练确定，由逻辑回归模型输出指示第一客户的综合业务表现是否异常的综合业务表现预测结果。

在一个实施例中，第一客户为初始无贷款额度的企业，第二客户为初始有贷款额度且有还款数据的企业，综合业务表现预测结果包括无逾期还款的概率，在第一客户的无逾期还款的概率满足预设条件的情况下，第一客户的综合业务表现无异常。

在一个实施例中，企业数据包括企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据、企业流水数据中的一种或多种。

在一个实施例中，企业主数据包括企业主基本信息、已存企业主评分数据、企业主等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、资产管理规模数据中的一种或多种。

另外，在本发明实施例中准入客户的识别装置的具体实施内容，在上面准入客户的识别方法中已经详细说明了，故在此重复内容不再说明。

图6示出了可以应用本发明实施例的准入客户的识别方法或准入客户的识别装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的准入客户的识别方法一般由服务器605执行，相应地，准入客户的识别装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统700的结构示意图。图7示出的终端设备或服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一业务表现预测结果确定模块、第二业务表现预测结果确定模块、综合业务表现预测结果生成模块、准入客户识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一业务表现预测结果确定模块还可以被描述为“用于根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果；根据第一客户的企业主数据，通过企业主准入模型确定第一客户的第二业务表现预测结果；对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，综合业务表现预测结果指示第一客户的综合业务表现是否异常；在第一客户的综合业务表现无异常的情况下，将第一客户识别为准入客户。

根据本发明实施例的技术方案，根据第一客户的企业数据，通过企业准入模型确定第一客户的第一业务表现预测结果；根据第一客户的企业主数据，通过企业主准入模型确定第一客户的第二业务表现预测结果；对第一业务表现预测结果和第二业务表现预测结果进行逻辑回归处理，得到第一客户的综合业务表现预测结果，综合业务表现预测结果指示第一客户的综合业务表现是否异常；在第一客户的综合业务表现无异常的情况下，将第一客户识别为准入客户。能够适用于初始无额度的企业的授信和准入，增加企业和企业主的数据维度并且分别建模，提高识别的准确率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种准入客户的识别方法，其特征在于，包括：

根据第一客户的企业数据，通过企业准入模型确定所述第一客户的第一业务表现预测结果；

根据所述第一客户的企业主数据，通过企业主准入模型确定所述第一客户的第二业务表现预测结果；

对所述第一业务表现预测结果和所述第二业务表现预测结果进行逻辑回归处理，得到所述第一客户的综合业务表现预测结果，所述综合业务表现预测结果指示所述第一客户的综合业务表现是否异常；

在所述第一客户的综合业务表现无异常的情况下，将所述第一客户识别为准入客户。

2.根据权利要求1所述的方法，其特征在于，根据第二客户的企业数据和企业主数据，分别利用决策树算法进行建模及训练，以生成所述企业准入模型和所述企业主准入模型。

3.根据权利要求2所述的方法，其特征在于，所述分别利用决策树算法进行建模及训练，以生成所述企业准入模型和所述企业主准入模型，包括：

以所述第二客户的企业数据作为所述企业准入模型的训练数据集，以所述第二客户的企业主数据作为所述企业主准入模型的训练数据集，分别基于使用GOSS算法和EFB算法的梯度提升树，训练得到所述企业准入模型和所述企业主准入模型。

4.根据权利要求2所述的方法，其特征在于，所述生成所述企业准入模型和所述企业主准入模型之前，包括：

基于所述第二客户的企业数据和企业主数据得到原始变量；

按照业务逻辑对得到的原始变量进行变量衍生，得到衍生的变量，其中，由企业数据对应的原始变量衍生得到企业特征变量，由企业主数据对应的原始变量衍生得到企业主特征变量；

利用预设的筛选指标对所述企业特征变量和所述企业主特征变量进行筛选，分别得到企业建模变量和企业主建模变量，其中，所述企业建模变量用于生成所述企业准入模型，所述企业主建模变量用于生成所述企业主准入模型。

5.根据权利要求4所述的方法，其特征在于，所述筛选指标包括覆盖率指标、群体稳定度指标、信息值指标、相关系数指标中的一种或多种，其中，所述覆盖率指标用于分析所述企业特征变量和所述企业主特征变量的缺失率；所述群体稳定度指标用于分析所述企业特征变量和所述企业主特征变量的稳定度；所述信息值指标用于分析所述企业特征变量和所述企业主特征变量对目标事件的单一预测能力；所述相关系数指标用于分析不同所述企业特征变量或不同所述企业主特征变量之间的相关性。

6.根据权利要求1所述的方法，其特征在于，所述第一客户的第一业务表现预测结果为所述第一客户的业务表现无异常的第一概率，所述第一客户的第二业务表现预测结果为所述第一客户的业务表现无异常的第二概率；

所述对所述第一业务表现预测结果和所述第二业务表现预测结果进行逻辑回归处理，得到所述第一客户的综合业务表现预测结果，包括：

以所述第一概率和所述第二概率作为逻辑回归模型的输入，所述逻辑回归模型的参数向量包括常数项、所述第一概率对应的第一回归系数、所述第二概率对应的第二回归系数，所述常数项、所述第一回归系数、所述第二回归系数通过预先训练确定，由所述逻辑回归模型输出指示所述第一客户的综合业务表现是否异常的所述综合业务表现预测结果。

7.根据权利要求1所述的方法，其特征在于，所述第一客户为初始无贷款额度的企业，所述第二客户为初始有贷款额度且有还款数据的企业，所述综合业务表现预测结果包括无逾期还款的概率，在所述第一客户的无逾期还款的概率满足预设条件的情况下，所述第一客户的综合业务表现无异常。

8.根据权利要求1或2所述的方法，其特征在于，所述企业数据包括企业基本信息、企业征信数据、工商数据、行内税务数据、国税数据、企业代发工资数据、公积金缴交情况数据、企业流水数据中的一种或多种。

9.根据权利要求1或2所述的方法，其特征在于，所述企业主数据包括企业主基本信息、已存企业主评分数据、企业主等级数据、个人征信数据、贷款合约数据、贷款账户数据、贷款账户交易流水数据、贷款放款流水数据、贷记卡合约数据、贷记卡账户数据、贷记卡账户流水数据、资产管理规模数据中的一种或多种。

10.一种准入客户的识别装置，其特征在于，包括：

第一业务表现预测结果确定模块，用于根据第一客户的企业数据，通过企业准入模型确定所述第一客户的第一业务表现预测结果；

第二业务表现预测结果确定模块，用于根据所述第一客户的企业主数据，通过企业主准入模型确定所述第一客户的第二业务表现预测结果；

综合业务表现预测结果生成模块，用于对所述第一业务表现预测结果和所述第二业务表现预测结果进行逻辑回归处理，得到所述第一客户的综合业务表现预测结果，所述综合业务表现预测结果指示所述第一客户的综合业务表现是否异常；

准入客户识别模块，用于在所述第一客户的综合业务表现无异常的情况下，将所述第一客户识别为准入客户。

11.根据权利要求10所述的装置，其特征在于，还包括准入模型生成模块，用于：

根据第二客户的企业数据和企业主数据，分别利用决策树算法进行建模及训练，以生成所述企业准入模型和所述企业主准入模型。

12.根据权利要求11所述的装置，其特征在于，所述准入模型生成模块还用于：

13.根据权利要求11所述的装置，其特征在于，还包括建模变量确定模块，用于：

基于所述第二客户的企业数据和企业主数据得到原始变量；

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述的方法。