CN114372862A

CN114372862A - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114372862A
Application number: CN202111490141.2A
Authority: CN
Inventors: 李鹏; 张浩波
Original assignee: Nanjing Xingyun Digital Technology Co Ltd
Current assignee: Nanjing Xingyun Digital Technology Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-19

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。该方法包括：获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。采用本方法能够消除模型样本偏差和数据偏差。

Description

数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

金融违约风险评估是通过构建模型对贷款申请者的违约风险进行预测，给出申请者违约概率，并利用违约概率判断申请者的好坏并做出接受或拒绝贷款申请的决策。

然而，传统模型只是对贷款申请通过样本进行建模，完全没有考虑到贷款拒绝样本的信息，贷款被审批拒绝的客户，很难获得客户的贷款表现，不仅使得客户数据信息没有得到充分的利用，还使得模型的开发偏离实际应用场景，容易导致模型预测准确性降低，模型风险提高。

发明内容

基于此，有必要针对上述技术问题，提供一种数据处理方法、装置、计算机设备和存储介质，能够充分利用客户信用拒绝样本，为其打上标签，结合客户信用通过样本进行建模，得到客户信用评估模型，建立好的客户信用评估模型不仅考虑到客户信用通过样本，而且还考虑到客户信用拒绝样本，消除模型样本偏差和数据偏差，提高模型的预测准确性，降低模型风险。

一种数据处理方法，该方法包括：

获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集；

根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型；

通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集；

根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集；

根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集；

根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

在其中一个实施例中，还包括：获取贷款拒绝客户对应的贷款拒绝客户数据，将贷款拒绝客户数据输入至客户信用评估模型中，通过客户信用评估模型对贷款拒绝客户数据进行预测，得到贷款拒绝客户数据对应的贷款信用评估结果，根据贷款信用评估结果确定贷款拒绝客户是否为贷款通过客户。

在其中一个实施例中，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，包括：对客户信用通过样本集进行拆分，得到客户信用通过训练样本集和客户信用通过测试样本集，对客户信用通过训练样本集进行入模变量筛选，得到入模变量集，根据入模变量集进行建模，得到初始客户违约预测模型，通过客户信用通过测试样本集对初始客户违约预测模型进行有监督训练，直至初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。

在其中一个实施例中，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，包括：从客户信用拒绝样本集确定当前客户信用拒绝样本，根据当前客户信用拒绝样本对应的当前客户信用违约概率计算得到对应的当前客户信用非违约概率，将当前客户信用拒绝样本复制得到完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本，根据当前客户信用违约概率确定第一客户信用拒绝样本对应的客户信用违约标签，根据当前客户信用非违约概率确定第二客户信用拒绝样本对应的客户信用非违约标签。

在其中一个实施例中，还包括：将第一客户信用拒绝样本对应的权重设置为当前客户信用违约概率，将第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率，将第一客户信用拒绝样本和第二客户信用拒绝样本组成客户信用拒绝样本集，其中第一客户信用拒绝样本和第二客户信用拒绝样本携带对应的标签和权重。

在其中一个实施例中，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集，包括：将客户信用通过样本集中各客户信用通过样本的权重设置为1，将设置好权重的客户信用通过样本集和客户信用拒绝样本集拼接得到客户信用样本集。

在其中一个实施例中，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度，包括：对客户信用样本集进行拆分，得到客户信用训练样本集和客户信用测试样本集，根据客户信用训练样本集进行建模，得到初始客户信用评估模型，通过客户信用测试样本集对初始客户信用评估模型进行有监督训练，直至满足预设收敛条件，得到训练好的客户信用评估模型。

一种数据处理装置，该装置包括：

获取模块，用于获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集；

第一建模模块，用于根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型；

预测模块，用于通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集；

确定模块，用于根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集；

生成模块，用于根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集；

第二建模模块，用于根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述数据处理方法、装置、计算机设备和存储介质，获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。因此，能够充分利用客户信用拒绝样本，通过建立客户违约预测模型为其打上标签，结合客户信用通过样本进行建模，得到客户信用评估模型，建立好的客户信用评估模型不仅考虑到客户信用通过样本，而且还考虑到客户信用拒绝样本，消除模型样本偏差和数据偏差，提高模型的预测准确性，降低模型风险。

附图说明

图1为一个实施例中数据处理方法的应用环境图；

图2为一个实施例中数据处理方法的流程示意图；

图3为一个实施例中数据处理方法的流程示意图；

图4为一个实施例中客户违约预测模型建模步骤的流程示意图；

图5为一个实施例中第二标签集确定步骤的流程示意图；

图6为一个实施例中数据处理方法的流程示意图；

图7为一个实施例中客户信用样本集生成步骤的流程示意图；

图8为一个实施例中客户信用评估模型建模步骤的流程示意图；

图9为一个实施例中数据处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，终端102可以获取客户信用通过样本集和客户信用拒绝样本集，并通过网络通信发送至服务器104，服务器104获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。进一步地，服务器104可以将客户信用评估模型发送至终端102，以使终端102利用客户信用评估模型来预测目标客户的客户信用度。

在一个实施例中，如图2所示，提供了一种数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集。

其中，客户信用通过样本集是客户信用通过样本的集合，客户信用通过样本是目标业务信用通过的客户相关的样本数据，目标业务可以是根据实际业务需求、实际产品需求或实际应用场景确定，例如目标业务可以是信贷业务，也可以是贷款业务等，则客户信用通过样本是信贷产品审核通过的客户样本数据，或是贷款申请通过的客户样本数据。

其中，客户信用拒绝样本集是客户信用拒绝样本的集合，与客户信用通过样本集是相对的，客户信用拒绝样本是目标业务信用未通过的客户相关的数据，例如，在目标业务为信贷产品业务时，则客户信用拒绝样本为信贷产品审批被拒绝的客户样本数据，在目标业务为贷款业务时，则客户信用拒绝样本为贷款未审批通过的客户样本数据。

其中，客户信用通过样本集中的各客户信用通过样本都携带有对应的第一标签，第一标签可以通过客户信用通过样本的表现期确定得到，表现期可以是良好的表现，也可以是较差的标签，因此第一标签可以是通过标签或拒绝标签，所谓通过标签是指客户信用通过样本的客户表现良好，而拒绝标签是指客户信用通过样本的客户表现不佳，客户表现可以是是否按时还款或是否还款等，客户信用通过样本中按时还款的客户信用通过样本的标签为通过标签，客户信用通过样本中未按时还款或未还款的客户信用通过样本的标签为拒绝标签，具体可以通过客户信用通过样本的表现期的数据确定得到。

而客户信用拒绝样本集中的客户信用拒绝样本由于一开始被目标业务拒绝，所以该客户信用拒绝样本没有任何客户表现，因此无法根据客户表现确定对应的标签，因此，客户信用拒绝样本集中的各客户信用拒绝样本都无对应的标签。

步骤204，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型。

具体地，对客户信用通过样本集和对应的第一标签集可以使用传统评分卡技术进行建模，得到客户违约预测模型，所谓客户违约预测模型是来预测客户信用通过样本对应的客户违约的违约概率，违约概率越高说明该客户信用通过样本对应的客户违约可能性越高，反之，违约概率越低说明该客户信用通过样本对应的客户违约可能性越低。其中，传统评分卡技术是主要用来评估通过客户是否会按时还款，即是否会违约(不按时还款为“坏-违约”，按时还款为“好-不违约”)，一般分数越高，按时还款的可能性越高，客户越好。可以使用传统评分卡技术在客户信用通过样本集上开发客户违约预测模型，再进行测试客户违约预测模型效果，达到评估标准后确定最终的客户违约预测模型。

在其中一个实施例中，客户违约预测模型可以是KGB模型(Konwledge Good Ba,已知好坏模型)，可以通过客户信用通过样本集进行KGB模型的建立和训练，KGB模型可以是用来预测客户信用通过样本集中的各客户信用通过样本变坏的概率，即客户信用通过样本违约的概率。

步骤206，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集。

其中，由于客户信用拒绝样本没有任何的标签，因此可以通过客户违约预测概率推断出客户信用拒绝样本对应的标签。具体可以是，将客户信用拒绝样本集中的各客户信用拒绝样本输入至客户违约预测模型中，通过客户违约预测模型对客户信用拒绝样本进行预测，得到对应的客户信用违约概率。

步骤208，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集。

具体地，在得到客户信用拒绝样本集中各客户信用拒绝样本对应的客户信用违约概率后，可以将客户信用拒绝样本一拆为二，得到两份相同的客户信用拒绝样本，一份客户信用拒绝标本对应“好”的标签，一份客户信用拒绝标本对应“坏”的标签，而“好”的标签或“坏”的标签都是通过客户信用违约概率确定得到的，具体可以是，获取预设违约概率阈值，当客户信用违约概率集超过预设违约概率阈值时，确定一份客户信用拒绝标本对应“坏”的标签，另一份客户信用拒绝标本对应“好”的标签。依次类推，得到客户信用拒绝样本集中各客户信用拒绝样本对应的标签，即第二标签集。其中，此时的客户信用拒绝样本集中的客户信用拒绝样本的数量相比之前都翻一倍，因为将每个客户信用拒绝样本都一分为二成“部分好”和“部分坏”。

步骤210，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集。

步骤212，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

具体地，在得到客户信用拒绝样本集的各客户信用拒绝样本对应的标签后，将与携带第一标签的客户信用通过样本组成客户信用样本集，也就是说，客户信用样本集中的各样本都携带有对应的标签，也包括客户信用通过样本和客户信用拒绝样本，不单单只有客户信用通过样本。

进一步地，可以通过客户信用样本集进行建模和训练，得到客户信用评估模型。所谓客户信用评估模型是用来预测目标客户的客户信用度的，而这里的目标客户不但可以是客户信用通过的客户，还可以是客户信用拒绝的客户，通过客户信用度来判断目标客户是否可以通过目标业务审核，解决传统技术中出现数据偏差，导致模型预测准确性低的问题。

在其中一个实施例中，通过客户信用样本集进行建模和训练，得到客户信用评估模型，具体可以是，运用LightGBM技术在客户信用样本集上开发客户信用评估模型，LightGBM技术是现有技术，在此不作过多的说明。其中，客户信用评估模型可以是AGB模型(All Good Bad，AGB)，训练的时候包括客户信用通过样本集和客户信用拒绝样本集，因此，训练好的客户信用评估模型相比客户违约预测模型的应用范围更广，客户违约预测模型只能预测客户信用通过样本，而对于客户信用拒绝样本则会拒绝准入，而客户信用评估模型可以预测任何客户信用样本数据，能够消除传统技术的模型的人群样本的偏差，使得模型的可用性更强。

上述数据处理方法中，获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。因此，能够充分利用客户信用拒绝样本，通过建立客户违约预测模型为其打上标签，结合客户信用通过样本进行建模，得到客户信用评估模型，建立好的客户信用评估模型不仅考虑到客户信用通过样本，而且还考虑到客户信用拒绝样本，消除模型样本偏差和数据偏差，提高模型的预测准确性，降低模型风险。

在一个实施例中，如图3所示，数据处理方法还包括：

步骤302，获取贷款拒绝客户对应的贷款拒绝客户数据。

步骤304，将贷款拒绝客户数据输入至客户信用评估模型中，通过客户信用评估模型对贷款拒绝客户数据进行预测，得到贷款拒绝客户数据对应的贷款信用评估结果。

步骤306，根据贷款信用评估结果确定贷款拒绝客户是否为贷款通过客户。

其中，贷款拒绝客户是贷款业务中被拒绝贷款的客户，或者是信贷业务中审批不通过的客户，而贷款拒绝客户数据可以是与贷款拒绝客户相关的所有数据，包括贷款拒绝客户的基本信息、贷款拒绝客户的以往贷款数据等，在传统技术的模型中，该客户可以会被确定为贷款拒绝客户，无法进行贷款业务或信贷业务相关的业务操作，因此，获取贷款拒绝客户对应的贷款拒绝客户数据，将贷款拒绝客户数据作为训练好的客户信用评估模型的输入，客户信用评估模型对贷款拒绝客户进行预测，得到贷款拒绝客户对应的贷款信用评估结果，通过贷款信用评估结果重新确定贷款拒绝客户是否为贷款通过客户。其中，贷款信用评估结果可以包括贷款信用值，可以根据贷款信用值来判断贷款拒绝客户是否为贷款通过客户，具体可以是，获取预设贷款信用阈值，当客户信用评估模型输出的贷款信用值大于贷款信用阈值，可以确定贷款拒绝客户为贷款通过客户，反之，可以确定贷款拒绝可以为贷款拒绝客户。通过客户信用评估模型能够消除传统技术中的模型的人群样本偏差，使得模型的可用性更强，使得模型开发与模型应用场景保持一致，消除模型风险的可能性。

在一个实施例中，如图4所示，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，包括：

步骤402，对客户信用通过样本集进行拆分，得到客户信用通过训练样本集和客户信用通过测试样本集。

步骤404，对客户信用通过训练样本集进行入模变量筛选，得到入模变量集。

具体地，可通过预设的比例对客户信用通过样本集进行拆分，分成两部分，一部分是客户信用通过训练样本集，一部分是客户信用通过测试样本集，客户信用通过训练样本集是用来开发客户违约预测模型的，而客户信用通过测试样本集是用来测试开发的客户违约预测模型是否达到预设模型收敛条件，得到训练好的客户违约预测模型。

进一步低，在得到客户信用通过训练样本集和客户信用通过测试样本集后，可以对客户信用通过训练样本集进行入模变量筛选，得到入模变量集，入模变量集中的入模变量是用来开发客户违约预测模型。其中，入模变量筛选具体可以是对客户信用通过训练样本集进行相关处理，以满足逻辑回归方法建模，比如对某些变量进行缺失值填充等，其次对变量进行细分箱、粗分箱，然后基于粗分箱的结果，对数据做WOE转化，使用logistic回归的Stepwise方法训练模型，其主要思想是利用逐步回归思想逐步逐个将变量引入，最后使用所有入模变量拟合逻辑回归模型，检查模型是否满足模型筛选条件(模型筛选条件：1、模型变量系数全部为负；2、模型变量的p值全部小于0.05；3、模型变量间的相关系数全部小于0.7；4、模型变量的VIF全部小于4)，若满足条件，则确定该变量为入模变量，并返回最初的步骤，若不满足条件，则返回前面的步骤检查排序下一位的变量，直至得到入模变量集。

步骤406，根据入模变量集进行建模，得到初始客户违约预测模型。

步骤408，通过客户信用通过测试样本集对初始客户违约预测模型进行有监督训练，直至初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。

具体地，在得到入模变量集后，通过入模变量集进行建模，得到初始客户违约预测模型，在通过客户信用通过测试样本集对初始客户违约预测模型进行有监督训练，具体可以是，将信用通过测试样本集输入至初始客户违约预测模型，得到输出的违约概率，根据违约概率确定输出标签，通过输出标签与信用通过测试样本本身携带的标签计算训练损失值，根据训练损失值不断地调整模型参数，直至初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。其中，模型收敛条件可以根据实际业务需求、实际产品需求或实际应用场景进行确定得到。

在一个实施例中，如图5所示，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，包括：

步骤502，从客户信用拒绝样本集确定当前客户信用拒绝样本。

步骤504，根据当前客户信用拒绝样本对应的当前客户信用违约概率计算得到对应的当前客户信用非违约概率。

步骤506，将当前客户信用拒绝样本复制得到完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本。

其中，当前客户信用拒绝样本是客户信用拒绝样本集中的任意一个客户信用拒绝样本，可以从客户信用拒绝样本集中随机确定一个客户信用拒绝样本为当前客户信用拒绝样本。具体地，获取当前客户信用拒绝样本对应的当前客户信用违约概率，通过当前客户信用违约概率计算得到当前客户信用非违约概率，例如当前客户信用违约概率和当前客户信用非违约概率总和为1。

进一步地，将当前客户信用拒绝样本复制两份完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本，其中，具体可以是，复制两份与当前客户信用拒绝样本完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本，或者按照当前客户信用拒绝样本复制多一份客户信用拒绝样本，当前客户信用拒绝样本确定为第一客户信用拒绝样本，复制的客户信用拒绝样本确定为第二客户信用拒绝样本。

步骤508，根据当前客户信用违约概率确定第一客户信用拒绝样本对应的客户信用违约标签。

步骤510，根据当前客户信用非违约概率确定第二客户信用拒绝样本对应的客户信用非违约标签。

具体地，第一客户信用拒绝样本对应的客户信用违约标签可以通过当前信用违约概率确定，在当前客户信用违约概率大于预设违约阈值时，确定第一客户信用拒绝样本对应的标签为客户信用违约标签，而相同的第二客户信用拒绝样本的标签确定为客户信用非违约标签。也就是说，将客户信用拒绝样本被复制成两条相同的客户信用拒绝样本，分别为这两条客户信用拒绝样本标签打上一个违约标签和非违约标签。进一步地，在从客户信用拒绝样本集获取下一条客户信用拒绝样本，确定为当前客户信用拒绝样本，返回上述步骤，直至得到客户信用拒绝样本集中各客户信用拒绝样本对应的标签，此时的客户信用拒绝样本集中的客户信用拒绝样本的数量相比之前都翻一倍，因为将每个客户信用拒绝样本都一分为二成“部分好”和“部分坏”。

在一个实施例中，如图6所示，数据处理方法还包括：

步骤602，将第一客户信用拒绝样本对应的权重设置为当前客户信用违约概率。

步骤604，将第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率。

步骤606，将第一客户信用拒绝样本和第二客户信用拒绝样本组成客户信用拒绝样本集，其中第一客户信用拒绝样本和第二客户信用拒绝样本携带对应的标签和权重。

其中，由于将客户信用拒绝样本集中的各客户信用拒绝样本进行了复制，也就是说，相同内容的客户信用拒绝样本对应两个标签，需要给这相同内容的客户信用拒绝样本设置权重。具体可以是，将第一客户信用拒绝样本对应的权重设置为当前客户信用违约概率，将第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率，设置好权重后，将第一客户信用拒绝样本和第二客户信用拒绝样本组成客户信用拒绝样本集，其中第一客户信用拒绝样本和第二客户信用拒绝样本携带对应的标签和权重。

例如，使用客户违约预测模型对客户信用拒绝样本打分预测：建立客户违约预测模型后对客户信用拒绝样本打分，对于每一个客户的客户违约预测模型的预测结果均有预测拒绝客户是“好”客户的概率p(good)和是“坏”客户的的概率p(bad)：

其次，拒绝客户拆分：将每一个客户信用拒绝样本一分为二成“部分好”和“部分坏”。即每一个客户信用拒绝样本被复制成两条观测记录，其中一条观测记录对应着“好”的标签，另外一条记录对应着“坏”的标签：

最后，确定拒绝样本权重：根据上一步预测结果进行数据加工以增加样本权重，对于被预测为“好”的那条观测记录，其权重为p(good),对应“好”的标签；对于被预测为“坏”的那条观测记录，其权重为p(bad),对应“坏”的标签，由此得到的权重和与未拆分前的权重和一致。

在一个实施例中，如图7所示，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集，包括：

步骤702，将客户信用通过样本集中各客户信用通过样本的权重设置为1。

步骤704，将设置好权重的客户信用通过样本集和客户信用拒绝样本集拼接得到客户信用样本集。

具体地，在设置客户信用拒绝样本集中各客户信用拒绝样本对应的权重后，可以设置客户信用通过样本集中的各客户信用通过样本对应的权重，可以将各客户信用通过样本的权重设置为1，将设置权重的客户信用通过样本集和客户信用拒绝样本集拼接得到客户信用样本集。也就是说，客户信用样本集中包括客户信用通过样本集和客户信用拒绝样本集，而且客户信用通过样本集和客户信用拒绝样本集分别携带对应的标签和权重。

在一个实施例中，如图8所示，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度，包括：

步骤802，对客户信用样本集进行拆分，得到客户信用训练样本集和客户信用测试样本集。

步骤804，根据客户信用训练样本集进行建模，得到初始客户信用评估模型。

步骤806，通过客户信用测试样本集对初始客户信用评估模型进行有监督训练，直至满足预设收敛条件，得到训练好的客户信用评估模型。

具体地，根据预设的拆分比例对客户信用样本集进行拆分，预设的拆分比例可以根据实际业务需求、实际产品需求或实际应用场景进行确定得到，拆分后客户信用样本集分为两部分，一部分是客户信用训练样本集，一部分是客户信用测试样本集，客户信用训练样本集中的客户信用训练样本用来建模，具体可以是利用LightGBM方法在客户信用训练样本集上建立初始客户信用评估模型，然后再通过客户信用测试样本集对建立好的初始客户信用评估模型进行有监督训练，具体可以是，通过初始客户信用评估模型的输出值对应的标签和客户信用测试样本本身携带的标签计算训练损失值，根据训练损失值不断调整初始客户信用评估模型的模型参数，直至满足预设收敛条件，得到最终训练好的客户信用评估模型。

在一个具体的实施例中，提供了一种数据处理方法，具体包括以下步骤：

1、获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集。

2、根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型。

2-1、对客户信用通过样本集进行拆分，得到客户信用通过训练样本集和客户信用通过测试样本集。

2-2、对客户信用通过训练样本集进行入模变量筛选，得到入模变量集。

2-3、根据入模变量集进行建模，得到初始客户违约预测模型。

2-4、通过客户信用通过测试样本集对初始客户违约预测模型进行有监督训练，直至初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。

3、通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集。

4、根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集。

4-1、从客户信用拒绝样本集确定当前客户信用拒绝样本。

根据当前客户信用拒绝样本对应的当前客户信用违约概率计算得到对应的当前客户信用非违约概率。

4-2、将当前客户信用拒绝样本复制得到完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本。

4-3、根据当前客户信用违约概率确定第一客户信用拒绝样本对应的客户信用违约标签。

4-4、根据当前客户信用非违约概率确定第二客户信用拒绝样本对应的客户信用非违约标签。

4-5、将第一客户信用拒绝样本对应的权重设置为当前客户信用违约概率。

4-6、将第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率。

4-7、将第一客户信用拒绝样本和第二客户信用拒绝样本组成客户信用拒绝样本集，其中第一客户信用拒绝样本和第二客户信用拒绝样本携带对应的标签和权重。

5、根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集。

5-1、将客户信用通过样本集中各客户信用通过样本的权重设置为1。

5-2、将设置好权重的客户信用通过样本集和客户信用拒绝样本集拼接得到客户信用样本集。

6、根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

6-1、对客户信用样本集进行拆分，得到客户信用训练样本集和客户信用测试样本集。

6-2、根据客户信用训练样本集进行建模，得到初始客户信用评估模型。

6-3、通过客户信用测试样本集对初始客户信用评估模型进行有监督训练，直至满足预设收敛条件，得到训练好的客户信用评估模型。

7、获取贷款拒绝客户对应的贷款拒绝客户数据。

8、将贷款拒绝客户数据输入至客户信用评估模型中，通过客户信用评估模型对贷款拒绝客户数据进行预测，得到贷款拒绝客户数据对应的贷款信用评估结果。

9、根据贷款信用评估结果确定贷款拒绝客户是否为贷款通过客户。

在一个信贷风控的应用场景中，出现一种现象叫拒绝推断，所谓拒绝推断是指对于信贷产品被审批拒绝的客户来说，很难获取到客户的信贷表现(即客户是否会按时偿还其信贷贷款)，该类客户的信贷表现在正常情况下是未知的。目前开发的信贷审批模型是基于有表现的审批通过客户开发的，与信贷审批模型应用于全体审批客户(包括审批可能会通过或拒绝的客户)不一致。对于一个信贷机构而言，审批通过客户因为要在本机构定期或不定期偿还贷款，故很容易获取到通过客户的表现数据。开发的信贷审批模型也常常是基于以上通过客群的数据来开发，但是信贷审批模型的应用场景却是到一个信贷机构来申请贷款的所有客群，不管申请是通过还是拒绝。所以，目前开发的信贷审批模型在开发客群和应用客群上存在差异，导致模型偏差。为了避免这种模型偏差，通过以下步骤可以解决该模型偏差：

步骤一：获取各数据源建模数据，对数据进行预处理，建模数据选取一定数量的有表现期的历史数据，对数据拆分通过样本和拒绝样本，然后做相关特征工程加工、缺失值填充等，得到数据预处理的结果，以此作为模型训练的输入数据。

步骤二：对通过样本进行训练集和测试集拆分，使用传统评分卡技术在训练集上开发KGB模型，在测试集上测试KGB模型效果，KGB模型达到评估标准后即确定最终的KGB模型。

步骤三：使用步骤二的KGB模型对步骤一生成的拒绝样本进行KGB模型打分，每一条记录均有KGB模型的预测概率p。将每一条记录“一拆为二”，第一个对应“违约”的标签，权重为p，第二个对应“非违约”的标签，权重为(1-p)。

步骤四：将步骤一生成的通过样本和步骤三生成的拒绝样本按统一的数据形式进行上下拼接，生成包括通过样本和拒绝样本的AGB模型开发样本。

步骤五：对步骤四的样本进行训练集和测试集拆分，使用LightGBM技术在训练集上开发AGB模型，在测试集上测试AGB模型效果，AGB模型达到评估标准后即确定最终的AGB模型。

步骤六：对步骤五得到的最终模型进行评估，评估模型效果后可上线部署，进行实际应用。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种数据处理装置900，包括：获取模块902、第一建模模块904、预测模块906、确定模块908、生成模块910和第二建模模块912，其中：

获取模块902，用于获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集。

第一建模模块904，用于根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型。

预测模块906，用于通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集。

确定模块908，用于根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集。

生成模块910，用于根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集。

第二建模模块912，用于根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

在一个实施例中，数据处理装置900获取贷款拒绝客户对应的贷款拒绝客户数据，将贷款拒绝客户数据输入至客户信用评估模型中，通过客户信用评估模型对贷款拒绝客户数据进行预测，得到贷款拒绝客户数据对应的贷款信用评估结果，根据贷款信用评估结果确定贷款拒绝客户是否为贷款通过客户。

在一个实施例中，第一建模模块904对客户信用通过样本集进行拆分，得到客户信用通过训练样本集和客户信用通过测试样本集，对客户信用通过训练样本集进行入模变量筛选，得到入模变量集，根据入模变量集进行建模，得到初始客户违约预测模型，通过客户信用通过测试样本集对初始客户违约预测模型进行有监督训练，直至初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。

在一个实施例中，确定模块908从客户信用拒绝样本集确定当前客户信用拒绝样本，根据当前客户信用拒绝样本对应的当前客户信用违约概率计算得到对应的当前客户信用非违约概率，将当前客户信用拒绝样本复制得到完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本，根据当前客户信用违约概率确定第一客户信用拒绝样本对应的客户信用违约标签，根据当前客户信用非违约概率确定第二客户信用拒绝样本对应的客户信用非违约标签。

在一个实施例中，确定模块908将第一客户信用拒绝样本对应的权重设置为当前客户信用违约概率，将第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率，将第一客户信用拒绝样本和第二客户信用拒绝样本组成客户信用拒绝样本集，其中第一客户信用拒绝样本和第二客户信用拒绝样本携带对应的标签和权重。

在一个实施例中，生成模块910将客户信用通过样本集中各客户信用通过样本的权重设置为1，将设置好权重的客户信用通过样本集和客户信用拒绝样本集拼接得到客户信用样本集。

在一个实施例中，第二建模模块912对客户信用样本集进行拆分，得到客户信用训练样本集和客户信用测试样本集，根据客户信用训练样本集进行建模，得到初始客户信用评估模型，通过客户信用测试样本集对初始客户信用评估模型进行有监督训练，直至满足预设收敛条件，得到训练好的客户信用评估模型。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储客户违约预测模型和客户信用评估模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10或图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取贷款拒绝客户对应的贷款拒绝客户数据，将贷款拒绝客户数据输入至客户信用评估模型中，通过客户信用评估模型对贷款拒绝客户数据进行预测，得到贷款拒绝客户数据对应的贷款信用评估结果，根据贷款信用评估结果确定贷款拒绝客户是否为贷款通过客户。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对客户信用通过样本集进行拆分，得到客户信用通过训练样本集和客户信用通过测试样本集，对客户信用通过训练样本集进行入模变量筛选，得到入模变量集，根据入模变量集进行建模，得到初始客户违约预测模型，通过客户信用通过测试样本集对初始客户违约预测模型进行有监督训练，直至初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从客户信用拒绝样本集确定当前客户信用拒绝样本，根据当前客户信用拒绝样本对应的当前客户信用违约概率计算得到对应的当前客户信用非违约概率，将当前客户信用拒绝样本复制得到完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本，根据当前客户信用违约概率确定第一客户信用拒绝样本对应的客户信用违约标签，根据当前客户信用非违约概率确定第二客户信用拒绝样本对应的客户信用非违约标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将第一客户信用拒绝样本对应的权重设置为当前客户信用违约概率，将第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率，将第一客户信用拒绝样本和第二客户信用拒绝样本组成客户信用拒绝样本集，其中第一客户信用拒绝样本和第二客户信用拒绝样本携带对应的标签和权重。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将客户信用通过样本集中各客户信用通过样本的权重设置为1，将设置好权重的客户信用通过样本集和客户信用拒绝样本集拼接得到客户信用样本集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对客户信用样本集进行拆分，得到客户信用训练样本集和客户信用测试样本集，根据客户信用训练样本集进行建模，得到初始客户信用评估模型，通过客户信用测试样本集对初始客户信用评估模型进行有监督训练，直至满足预设收敛条件，得到训练好的客户信用评估模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取客户信用通过样本集和客户信用拒绝样本集，客户信用通过样本集携带有对应的第一标签集，根据客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，通过客户违约预测模型对客户信用拒绝样本集进行预测，得到客户信用拒绝样本集对应的客户信用违约概率集，根据客户信用违约概率集确定客户信用拒绝样本集对应的第二标签集，根据客户信用通过样本集和客户信用拒绝样本集得到客户信用样本集，根据客户信用样本集进行建模，得到客户信用评估模型，客户信用评估模型用于预测目标客户的客户信用度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，所述方法包括：

获取客户信用通过样本集和客户信用拒绝样本集，所述客户信用通过样本集携带有对应的第一标签集；

根据所述客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型；

通过所述客户违约预测模型对所述客户信用拒绝样本集进行预测，得到所述客户信用拒绝样本集对应的客户信用违约概率集；

根据所述客户信用违约概率集确定所述客户信用拒绝样本集对应的第二标签集；

根据所述客户信用通过样本集和所述客户信用拒绝样本集得到客户信用样本集；

根据所述客户信用样本集进行建模，得到客户信用评估模型，所述客户信用评估模型用于预测目标客户的客户信用度。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取贷款拒绝客户对应的贷款拒绝客户数据；

将所述贷款拒绝客户数据输入至所述客户信用评估模型中，通过所述客户信用评估模型对所述贷款拒绝客户数据进行预测，得到所述贷款拒绝客户数据对应的贷款信用评估结果；

根据所述贷款信用评估结果确定所述贷款拒绝客户是否为贷款通过客户。

3.根据权利要求1所述的方法，其特征在于，所述根据所述客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型，包括：

对所述客户信用通过样本集进行拆分，得到客户信用通过训练样本集和客户信用通过测试样本集；

对所述客户信用通过训练样本集进行入模变量筛选，得到入模变量集；

根据所述入模变量集进行建模，得到初始客户违约预测模型；

通过所述客户信用通过测试样本集对所述初始客户违约预测模型进行有监督训练，直至所述初始客户违约预测模型满足模型收敛条件，得到训练好的客户违约预测模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述客户信用违约概率集确定所述客户信用拒绝样本集对应的第二标签集，包括：

从所述客户信用拒绝样本集确定当前客户信用拒绝样本；

根据所述当前客户信用拒绝样本对应的当前客户信用违约概率计算得到对应的当前客户信用非违约概率；

将所述当前客户信用拒绝样本复制得到完全相同的第一客户信用拒绝样本和第二客户信用拒绝样本；

根据所述当前客户信用违约概率确定所述第一客户信用拒绝样本对应的客户信用违约标签；

根据所述当前客户信用非违约概率确定所述第二客户信用拒绝样本对应的客户信用非违约标签。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述第一客户信用拒绝样本对应的权重设置为所述当前客户信用违约概率；

将所述第二客户信用拒绝样本对应的权重设置为当前客户信用非违约概率；

将所述第一客户信用拒绝样本和所述第二客户信用拒绝样本组成客户信用拒绝样本集，其中所述第一客户信用拒绝样本和所述第二客户信用拒绝样本携带对应的标签和权重。

6.根据权利要求5所述的方法，其特征在于，所述根据所述客户信用通过样本集和所述客户信用拒绝样本集得到客户信用样本集，包括：

将所述客户信用通过样本集中各客户信用通过样本的权重设置为1；

将设置好权重的客户信用通过样本集和客户信用拒绝样本集拼接得到所述客户信用样本集。

7.根据权利要求1所述的方法，其特征在于，所述根据所述客户信用样本集进行建模，得到客户信用评估模型，所述客户信用评估模型用于预测目标客户的客户信用度，包括：

对所述客户信用样本集进行拆分，得到客户信用训练样本集和客户信用测试样本集；

根据所述客户信用训练样本集进行建模，得到初始客户信用评估模型；

通过所述客户信用测试样本集对所述初始客户信用评估模型进行有监督训练，直至满足预设收敛条件，得到训练好的客户信用评估模型。

8.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取客户信用通过样本集和客户信用拒绝样本集，所述客户信用通过样本集携带有对应的第一标签集；

第一建模模块，用于根据所述客户信用通过样本集和对应的第一标签集进行建模，得到客户违约预测模型；

预测模块，用于通过所述客户违约预测模型对所述客户信用拒绝样本集进行预测，得到所述客户信用拒绝样本集对应的客户信用违约概率集；

确定模块，用于根据所述客户信用违约概率集确定所述客户信用拒绝样本集对应的第二标签集；

生成模块，用于根据所述客户信用通过样本集和所述客户信用拒绝样本集得到客户信用样本集；

第二建模模块，用于根据所述客户信用样本集进行建模，得到客户信用评估模型，所述客户信用评估模型用于预测目标客户的客户信用度。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。