CN110544166A

CN110544166A - 样本生成方法、装置及存储介质

Info

Publication number: CN110544166A
Application number: CN201910838714.2A
Authority: CN
Inventors: 李京昊; 陈鹏程; 陈金辉; 朱晨; 庞云蔚
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-06

Abstract

本申请公开了一种样本生成方法、装置及存储介质，属于机器学习领域。所述方法包括：根据多个用户申请信用评估的申请时间，对初始训练集进行划分，得到多个验证集；确定候选特征集中的每个用户特征在各个验证集上的信息值，候选特征集包括N个用户特征或N个用户特征中除初始化用户特征之外的用户特征；根据候选特征集中的每个用户特征在各个验证集上的信息值，从候选特征集中确定满足参考条件的至少一个参考用户特征；将入模用户特征作为信用评估模型的训练样本，入模用户特征包括确定的参考用户特征或确定的参考用户特征和初始化用户特征。本申请通过基于用户特征在各个验证集上的信息值，对用户特征进行筛选，提供了模型的稳定性和使用寿命。

Description

样本生成方法、装置及存储介质

技术领域

本申请涉及机器学习领域，特别涉及一种样本生成方法、装置及存储介质。

背景技术

在互联网金融领域，常使用信用评估模型来对用户的信用风险进行评估，以确定用户的信用标签。为了构建信用评估模型，需要先获取大量用户的用户特征和对应的信用标签，并将这些数据作为训练样本进行模型训练，才能得到该信用评估模型。但是，由于有些用户特征与用户信用风险有关，而有些用户特征对用户信用风险无关，因此，在获取训练样本的过程中，还需要对用户特征进行筛选。

相关技术中，可以先获取多个用户的用户特征集和信用标签，得到初始训练集，其中，每个用户的用户特征集包括该用户的N个用户特征的用户特征值。然后，根据初始训练集包括的多个用户的用户特征集和对应的信用标签，计算N个用户特征中的每个用户特征在该初始训练集上的信息值。之后，按照在初始训练集上的信息值从大到小的顺序，从N个用户特征中选择用户特征，得到至少一个参考用户特征，然后，将多个用户中每个用户的至少一个参考用户特征的用户特征值和每个用户的信用标签，作为信息评估模型的训练样本，以基于该训练样本进行模型训练。

由于用户的金融业务是会随时间发生变动的，因此，仅根据N个用户特征在整个初始训练集上的信息值，来从这N个用户特征中筛选用于训练的用户特征，会导致训练得到的信用评估模型容易出现过拟合，模型稳定性较低，使用寿命较短。

发明内容

本申请实施例提供了一种样本生成方法、装置及存储介质，可以用于解决相关技术中存在的仅根据N个用户特征在整个初始训练集上的信息值来筛选用于训练的用户特征，会导致训练得到的信用评估模型容易出现过拟合，模型稳定性较低，使用寿命较短的问题。所述技术方案如下：

一方面，提供了一种样本生成方法，所述方法包括：

获取多个用户的第一用户特征集和信用标签，得到初始训练集，每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值，所述多个用户为申请信用评估的用户，所述N为正整数；

根据所述多个用户申请信用评估的申请时间，对所述初始训练集进行划分，得到多个验证集，所述多个验证集对应用户的申请时间处于不同时间段；

确定候选特征集中的每个用户特征在各个验证集上的信息值，所述候选特征集包括所述N个用户特征，或所述N个用户特征中除初始化用户特征之外的用户特征，所述信息值用于衡量用户特征的预测能力；

根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中确定满足参考条件的至少一个参考用户特征；

将所述多个用户的第二用户特征集和信用标签，作为信用评估模型的训练样本，每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值，所述入模用户特征包括所述至少一个参考用户特征，或所述至少一个参考用户特征和所述初始化用户特征。

可选地，所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中确定满足参考条件的至少一个参考用户特征，包括：

对于所述多个验证集中的每个验证集，从所述候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集；

从所述种子特征集中，选择满足参考条件的参考用户特征，将选择的参考用户特征从所述候选特征集中删除；

若基于已选择的参考用户特征，确定当前满足特征选择停止条件，则将已选择的参考用户特征确定为所述至少一个参考用户特征；

若基于已选择的参考用户特征，确定当前不满足特征选择停止条件，则将删除用户特征后的候选特征集确定为待处理的候选特征集，并重复执行对于所述多个验证集中的每个验证集，从所述候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集，从所述种子特征集中，选择满足参考条件的参考用户特征，将选择的参考用户特征从所述候选特征集中删除的步骤，直至基于已选择的参考用户特征，确定当前满足特征选择停止条件为止。

可选地，所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中选择满足参考条件的至少一个参考用户特征之前，还包括：

对所述候选特征集中的用户特征进行分类，得到多个特征类别，每个特征类别包括一个或多个用户特征；

所述对于所述多个验证集中的每个验证集，从所述候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集，包括：

按照参考规则，依次从所述多个特征类别中选择一个特征类别；

对于所述多个验证集中的每个验证集，从选择的特征类别包括的用户特征中确定在每个验证集上信息值最大的用户特征；

对确定出的用户特征进行去重，得到所述种子特征集。

可选地，所述按照参考规则，依次从所述多个特征类别中选择一个特征类别，包括：

按照平均遍历法，对所述多个特征类别进行遍历，或者，按照所述多个特征类别的权重，对所述多个特征类别进行遍历；

将每次遍历到的特征类别，确定为当前选择的特征类别。

可选地，所述从所述种子特征集中，选择满足参考条件的参考用户特征，包括：

从所述种子特征集中，确定M个备选用户特征；其中，对于所述M个备选用户特征中的任一备选用户特征，基于所述多个用户的所述任一备选用户特征、初始用户特征和信用标签构建的待检验信用评估模型能够通过模型检验；

确定所述M个备选用户特征中的每个备选用户特征对应的待检验信用评估模型在所述多个验证集中每个验证集上的增益，所述增益用于衡量待检验信用评估模型的预测能力；

基于各个备选用户特征对应的待检验信用评估模型在所述多个验证集中每个验证集上的增益，确定各个备选用户特征的参考增益；

从所述M个备选用户特征中，选择参考增益最大的备选用户特征作为满足参考条件的参考用户特征。

可选地，所述从所述种子特征集中，确定M个备选用户特征，包括：

对于所述种子特征集中的任一用户特征，基于所述多个用户的所述任一用户特征、初始用户特征和信用标签，构建待检验信用评估模型；

对构建的待检验信用评估模型进行模型检验；

若模型检验通过，则将所述任一用户特征确定为一个备选用户特征。

可选地，所述对构建的待检验信用评估模型进行模型检验，包括：

对构建的待检验信用评估模型进行假定值检验和/或参数检验。

可选地，所述对构建的待检验信用评估模型进行模型检验之后，还包括：

若模型检验未通过，则将所述任一用户特征从所述候选特征集中删除。

可选地，所述基于各个备选用户特征对应的待检验信用评估模型，在所述多个验证集中每个验证集上的增益，确定各个备选用户特征的参考增益，包括：

将各个备选用户特征对应的待检验信用评估模型，在所述多个验证集中每个验证集上的增益中的最小增益，确定为各个备选用户特征的参考增益；或者，将各个备选用户特征对应的待检验信用评估模型，在所述多个验证集中每个验证集上的增益的平均增益，确定为各个备选用户特征的参考增益。

可选地，所述将所述多个用户的第二用户特征集和信用标签，作为信用评估模型的训练样本之后，还包括：

根据所述多个用户的第二用户特征集和信用标签，对待训练信用评估模型进行训练，得到所述信用评估模型。

另一方面，提供了一种样本生成装置，所述装置包括：

获取模块，用于获取多个用户的第一用户特征集和信用标签，得到初始训练集，每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值，所述多个用户为申请信用评估的用户，所述N为正整数；

划分模块，用于根据所述多个用户申请信用评估的申请时间，对所述初始训练集进行划分，得到多个验证集，所述多个验证集对应用户的申请时间处于不同时间段；

第一确定模块，用于确定候选特征集中的每个用户特征在各个验证集上的信息值，所述候选特征集包括所述N个用户特征，或所述N个用户特征中除初始化用户特征之外的用户特征，所述初始化用户特征为预先从所述N个用户特征中选择得到，所述信息值用于衡量用户特征的预测能力；

第二确定模块，用于根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中确定满足参考条件的至少一个参考用户特征；

第三确定模块，用于将所述多个用户的第二用户特征集和信用标签，作为信用评估模型的训练样本，每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值，所述入模用户特征包括所述至少一个参考用户特征，或所述至少一个参考用户特征和所述初始化用户特征。

可选地，所述第二确定模块包括：

第一确定单元，用于对于所述多个验证集中的每个验证集，从所述候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集；

选择单元，用于从所述种子特征集中，选择满足参考条件的参考用户特征，将选择的参考用户特征从所述候选特征集中删除；

第二确定单元，用于若基于已选择的参考用户特征，确定当前满足特征选择停止条件，则将已选择的参考用户特征确定为所述至少一个参考用户特征；

重复单元，用于若基于已选择的参考用户特征，确定当前不满足特征选择停止条件，则将删除用户特征后的候选特征集确定为待处理的候选特征集，并重复执行对于所述多个验证集中的每个验证集，从所述候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集，从所述种子特征集中，选择满足参考条件的参考用户特征，将选择的参考用户特征从所述候选特征集中删除的步骤，直至基于已选择的参考用户特征，确定当前满足特征选择停止条件为止。

可选地，所述第二确定模块还包括：

分类单元，用于对所述候选特征集中的用户特征进行分类，得到多个特征类别，每个特征类别包括一个或多个用户特征；

所述第一确定单元用于：

对确定出的用户特征进行去重，得到所述种子特征集。

可选地，所述第一确定单元用于：

将每次遍历到的特征类别，确定为当前选择的特征类别。

可选地，所述选择单元用于：

对构建的待检验信用评估模型进行模型检验；

可选地，所述选择单元用于：

可选地，所述选择单元还用于：

可选地，所述选择单元用于：

可选地，所述装置还包括：

训练模块，用于根据所述多个用户的第二用户特征集和信用标签，对待训练信用评估模型进行训练，得到所述信用评估模型。

另一方面，提供了一种样本生成装置，所述装置包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述任一种样本生成方法。

另一方面，提供了一种非临时性计算机可读存储介质，所述存储介质上存储有指令，所述指令被处理器执行时实现上述任一种样本生成方法的步骤。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行上述任一种业务处理方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例中，通过先根据各个用户的申请信用评估的申请时间，对初始训练集进行划分，得到与多个时间段对应的多个验证集，然后基于用户特征在各个验证集上的信息值，对用户特征进行筛选，可以使得基于筛选后的用户特征训练得到的信用评估模型能够应对业务随时间的变动，避免了模型容易出现过拟合的问题，提供了模型的稳定性和使用寿命。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种样本生成方法的流程图；

图2是本申请实施例提供的一种样本生成装置的结构框图；

图3是本申请实施例提供的一种计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例的应用场景予以说明。

金融风控领域中，常使用信用评估模型对用户信用风险进行评估，信用评估模型也可以称为信用评分卡。但是，随着互联网金融的快速发展、大数据及人工智能的技术革新，传统的信用评估模型已经无法满足互联网金融的应用场景，原因有以下两点：1，互联网金融不同于传统金融机构，互联网金融的业务场景变化更快，使得信用评估模型的生命周期更短；2，互联网金融有更多的基础数据，能够获取更多信用评估模型所需的用户特征。为了快速构建出稳定性较高的适应于互联网金融场景的信用评估模型，本申请实施例提供了一种信用评估模型的样本生成方法，利用该方法生成的训练样本进行模型训练，能够快速训练出稳定性较高的信用评估模型，减少模型训练成本。

图1是本申请实施例提供的一种样本生成方法的流程图，该方法应用于计算机设备，该计算机设备可以为终端、服务器或处理器等电子设备，终端可以为手机、平板电脑或计算机等。参见图1，该方法包括如下步骤：

步骤101：获取多个用户的第一用户特征集和信用标签，得到初始训练集，每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值，该多个用户为申请信用评估的用户，N为正整数。

其中，该多个用户为预先选取的用于训练信用评估模型的样本用户，比如，该多个用户为从申请信贷产品的客户群中选取的满足样本要求的用户。对于这多个用户中的每个用户，可以对每个用户进行特征提取，得到每个用户的N个用户特征的用户特征值。

其中，N个用户特征为待筛选的用户特征。比如，N个用户特征包括对应用户的各个方面的用户特征，既包括与信用风险有关的用户特征，也包括与信用风险无关的用户特征。N可以由技术人员预先设置，也可以由样本生成装置默认设置，本申请实施例对此不做限定。

可选地，N个用户特征包括初始化用户特征，初始化用户特征为预先从N个用户特征中选择得到，比如为预先从N个用户特征中确定的与信用风险有关的用户特征。

示例的，可以预先构建候选特征列表L_unselected和入模特征列表L_selected，然后对候选特征列表L_unselected和入模特征列表L_selected进行初始化，使得初始化的候选特征列表L_unselected中包括该N个用户特征，初始化的入模特征列表L_selected可以为空，也可以包括初始化用户特征。

其中，信用标签用于指示对应用户是否违约。若用户违约，则可以将对应用户称为违约用户，若用户未违约，则可以将对应用户称为正常用户。

步骤102：根据该多个用户申请信用评估的申请时间，对该初始训练集进行划分，得到多个验证集，该多个验证集对应用户的申请时间处于不同时间段。

也即是，根据该多个用户申请信用评估的申请时间，对该初始训练集进行划分，得到与不同时间段对应的多个验证集。其中，每个验证集对应于一个时间段，每个验证集包括申请时间处于对应时间段内的部分用户的第一用户特征集和信用标签。

由于信贷产品的客户群往往会随时间发生变化，因此可以按照申请时间，对该多个用户对应的初始训练集进行划分，得到不同时间段对应的验证集，便于后续根据时间变化筛选用户特征。

步骤103：确定候选特征集中的每个用户特征在各个验证集上的信息值，候选特征集包括N个用户特征或N个用户特征中除初始化用户特征之外的用户特征，信息值用于衡量用户特征的预测能力。

其中，候选特征集为待筛选的用户特征，其可以包括N个用户特征，也可以包括N个用户特征中除已确定的初始用户特征之外的其他用户特征。每个用户特征的信息值(Information Value，IV)用于衡量每个用户特征的预测能力，IV越大，表示该用户特征的预测能力越强，与信用评估越相关。

对于候选特征集中的每个用户特征，可以确定该用户特征在多个验证集中的每个验证集上的IV。用户特征在每个验证集上的IV可以根据该用户特征在每个验证集上的WOE(Weight of Evidence，迹象权重)确定。

作为一个示例，对于该候选特征集中的参考用户特征以及该多个验证集中的参考验证集来说，在计算参考用户特征在参考验证集上的IV时，可以先根据参考验证集中所有用户的参考用户特征的用户特征值，对参考用户验证集中的多个用户进行分组，得到与不同用户特征值区间对应的多个用户组，然后计算参考用户特征在每个用户组上的IV，根据参考用户特征在多个用户组上的IV，确定参考用户特征在参考验证集上的IV。其中，参考用户特征为候选特征集中的任一用户特征，参考验证集为该多个验证集中的任一验证集。

作为一个示例，计算参考用户特征在多个用户组上的IV的操作包括：对于该多个用户组中的每个用户组，确定每个用户组的WOE(Weight of Evidence，迹象权重)，根据每个用户组的WOE确定每个用户组的IV，将每个用户组的IV作为参考用户特征在每个用户组上的IV。其中，每个用户组的WOE＝ln(每个用户组的正常用户占比/每个组的违约用户占比)，每个组的IV＝(每个用户组的正常用户占比-每个组的违约用户占比)*每个组的WOE。

作为一个示例，可以将参考用户特征在多个用户组上的平均IV，确定为参考用户特征在参考验证集上的IV。

步骤104：根据该候选特征集中的每个用户特征在各个验证集上的信息值，从该候选特征集中确定满足参考条件的至少一个参考用户特征。

其中，参考条件可以包括在各个验证集上的信息值最大，能够通过模型检验，以及基于参考用户特征构建的待检验信用评估模型在各个验证集上的参考增益最大中的至少一种。

作为一个示例，根据该候选特征集中的每个用户特征在各个验证集上的信息值，从该候选特征集中确定满足参考条件的至少一个参考用户特征包括如下步骤1041-1044：

步骤1041：对于多个验证集中的每个验证集，从候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集。

本申请实施例中，可以依次从候选特征集中确定在各个验证集上IV最大的用户特征，也可以先对候选特征集中的用户特征进行分类，得到多个特征类别，然后依次从各个特征类别中确定在各个验证集上IV最大的用户特征。

作为一个示例，可以预先对候选特征集中的用户特征进行分类，得到多个特征类别，每个特征类别包括一个或多个用户特征，然后按照参考规则，依次从该多个特征类别中选择一个特征类别；对于多个验证集中的每个验证集，从选择的特征类别包括的用户特征中确定在每个验证集上信息值最大的用户特征；对确定出的用户特征进行去重，得到种子特征集。

例如，对于选择的特征类别c，针对每个验证集，从选择的特征类别c中确定在该验证集上IV值最大的用户特征，将确定出的用户特征加入到种子特征列表Lc中并去重。

可选地，参考规则为尽可能保证每个特征类别中均有用户特征被选中，每次所选择的特征类别中需要有待选用户特征。

作为一个示例，按照参考规则，依次从该多个特征类别中选择一个特征类别的操作包括：按照平均遍历法，对该多个特征类别进行遍历，或者，按照该多个特征类别的权重，对该多个特征类别进行遍历；将每次遍历到的特征类别，确定为当前选择的特征类别。

步骤1042：从该种子特征集中，选择满足参考条件的参考用户特征，将选择的参考用户特征从该候选特征集中删除。

其中，参考条件可以包括能够通过模型检验，以及基于参考用户特征构建的待检验信用评估模型在各个验证集上的参考增益最大中的至少一种。

作为一个示例，从该种子特征集中，选择满足参考条件的参考用户特征的操作包括如下步骤1)-4)：

1)从种子特征集中，确定能够通过模型检验的M个备选用户特征。

也即是，对于该M个备选用户特征中的任一备选用户特征，基于该任一备选用户特征和信用标签构建的待检验信用评估模型能够通过模型检验。

作为一个示例，对于该种子特征集中的任一用户特征，可以基于该任一用户特征和信用标签，构建待检验信用评估模型，然后对构建的待检验信用评估模型进行模型检验，若模型检验通过，则将该任一用户特征确定为一个备选用户特征。

进一步地，可以基于该任一用户特征、已确定的入模用户特征和信用标签，构建待检验信用评估模型。已确定的入模用户特征包括已确定的参考用户特征，或者包括已确定的参考用户特征和初始化用户特征。

可选地，所进行的模型检验可以包括假定值(P-value)检验和参数检验中的至少一种。也即是，可以对构建的待检验信用评估模型假定值检验和/或参数检验。

作为一个示例，对于种子特征集中未通过模型检验的其他用户特征，还可以将未通过模型检验的其他用户特征从候选特征集中删除。例如，在对构建的待检验信用评估模型进行模型检验之后，若模型检验未通过，则将该任一用户特征从该候选特征集中删除。

2)确定M个备选用户特征中的每个备选用户特征对应的待检验信用评估模型在该多个验证集中每个验证集上的增益，增益用于衡量待检验信用评估模型的预测能力。

3)基于各个备选用户特征对应的待检验信用评估模型在该多个验证集中每个验证集上的增益，确定各个备选用户特征的参考增益。

其中，参考增益可以为平均增益或最小增益。

作为一个示例，将各个备选用户特征对应的待检验信用评估模型，在该多个验证集中每个验证集上的增益中的最小增益，确定为各个备选用户特征的参考增益。

作为另一示例，将各个备选用户特征对应的待检验信用评估模型，在该多个验证集中每个验证集上的增益的平均增益，确定为各个备选用户特征的参考增益。

4)从M个备选用户特征中，选择参考增益最大的备选用户特征作为满足参考条件的参考用户特征。

例如，可以遍历种子特征列表Lc，每次选取一个用户特征f，使用入模特征列表L_selected、用户特征f和信用标签构建待检验信用评估模型，并对构建的待检验信用评估模型进行模型检验，若未通过模型检验，则将用户特征f从候选特征列表L_unselected删除，若通过模型检验，则确定用户特征f的参考增益。然后，从种子特征列表Lc包括的通过模型检验的用户特征中选取参考增益最大的用户特征f加入到入模特征列表L_selected中。

步骤1043：若基于已选择的参考用户特征，确定当前满足特征选择停止条件，则将已选择的参考用户特征确定为该至少一个参考用户特征。

也即是，重复步骤1041-1042，如果当前满足特征选择停止条件，则停止选择参考用户特征。其中，停止条件包括已选择的参考用户特征大于或等于预设数目，或者，候选特征集为空。

步骤1044：若基于已选择的参考用户特征，确定当前不满足特征选择停止条件，则将删除用户特征后的候选特征集确定为待处理的候选特征集，并重复执行对于该多个验证集中的每个验证集，从该候选特征集中确定在每个验证集上信息值最大的用户特征，对确定出的用户特征进行去重，得到种子特征集，从该种子特征集中，选择满足参考条件的参考用户特征，将选择的参考用户特征从该候选特征集中删除的步骤，直至基于已选择的参考用户特征，确定当前满足特征选择停止条件为止。

步骤105：将多个用户的第二用户特征集和信用标签，作为信用评估模型的训练样本，每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值，入模用户特征包括该至少一个参考用户特征，或该至少一个参考用户特征和初始化用户特征。

作为一示例，若N个用户特征中包括初始化用户特征，则将从候选特征集中筛选出的至少一个参考用户特征和初始化用户特征确定为待进行模型训练的入模用户特征，若N个用户特征中不包括初始化用户特征，则将从候选特征集中筛选出的至少一个参考用户特征确定为待进行模型训练的入模用户特征。

进一步地，在确定出训练样本之后，即可基于训练样本对待训练信用评估模型进行训练，得到该信用评估模型。也即是，可以根据该多个用户的第二用户特征集和信用标签，对待训练信用评估模型进行训练，得到该信用评估模型。

其中，该信用评估模型可以为树模型或深度学习模型，当然也可以为其他机器学习模型，本申请实施例对此不做限定。

进一步地，在训练好信用评估模型之后，还可以获取待评估的目标用户的第二用户特征集，根据目标用户的第二用户特征集，通过该信用评估模型对目标用户进行信用评估。

例如，可以将目标用户的第二用户特征集作为该信用评估模型输入，通过该信用评估模型确定目标用户的违约概率。进一步地，确定目标用户的违约概率之后，还可以根据该信用评估模型的模型参数，将目标用户的违约概率转换为评分卡分值。

本申请实施例中，通过先根据各个用户的申请信用评估的申请时间，对初始训练集进行划分，得到与多个时间段对应的多个验证集，然后基于用户特征在各个验证集上的信息值，对用户特征进行筛选，可以使得基于筛选后的用户特征训练得到的信用评估模型能够应对业务随时间的变动，避免了模型容易出现过拟合的问题，提供了模型的稳定性和使用寿命。也即是，本申请实施例综合考虑了用户特征在所有验证集上的综合表现，保证了入用户模特征的稳定性。另外，相比于传统的样本生成方法，本申请实施例还考虑了特征类别信息，保证了入模用户特征的广度。另外，相比于传统的样本生成方法，本申请实施例还考虑了用户特征入模后的评估效果，在一定程度上避免了传统的样本生成方法出现的过拟合、复杂度过高的问题。

图2是本申请实施例提供的一种样本生成装置的结构框图，该装置可以集成于计算机设备中，该计算机设备可以为终端、服务器或处理器等电子设备，该终端可以为手机、平板电脑或计算机等，如图1所示，该装置包括获取模块201、划分模块202、第一确定模块203、第二确定模块204和第三确定模块205。

获取模块201，用于获取多个用户的第一用户特征集和信用标签，得到初始训练集，每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值，所述多个用户为申请信用评估的用户，所述N为正整数；

划分模块202，用于根据所述多个用户申请信用评估的申请时间，对所述初始训练集进行划分，得到多个验证集，所述多个验证集对应用户的申请时间处于不同时间段；

第一确定模块203，用于确定候选特征集中的每个用户特征在各个验证集上的信息值，所述候选特征集包括所述N个用户特征，或所述N个用户特征中除初始化用户特征之外的用户特征，所述初始化用户特征为预先从所述N个用户特征中选择得到，所述信息值用于衡量用户特征的预测能力；

第二确定模块204，用于根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中确定满足参考条件的至少一个参考用户特征；

第三确定模块205，用于将所述多个用户的第二用户特征集和信用标签，作为信用评估模型的训练样本，每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值，所述入模用户特征包括所述至少一个参考用户特征，或所述至少一个参考用户特征和所述初始化用户特征。

可选地，所述第二确定模块204包括：

可选地，所述第二确定模块204还包括：

所述第一确定单元用于：

对确定出的用户特征进行去重，得到所述种子特征集。

可选地，所述第一确定单元用于：

将每次遍历到的特征类别，确定为当前选择的特征类别。

可选地，所述选择单元用于：

对构建的待检验信用评估模型进行模型检验；

可选地，所述选择单元用于：

可选地，所述选择单元还用于：

可选地，所述选择单元用于：

可选地，所述装置还包括：

需要说明的是：上述实施例提供的样本生成装置在生成训练样本时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的样本生成装置与样本生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请实施例提供的一种计算机设备300的结构框图。该计算机设备300可以是手机、平板电脑、智能电视、多媒体播放设备、可穿戴设备、台式电脑、服务器等电子设备。该计算机设备300可用于实施上述实施例中提供的样本生成方法。

通常，计算机设备300包括有：处理器301和存储器302。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的样本生成方法。

在一些实施例中，计算机设备300还可选包括有：外围设备接口303和至少一个外围设备。处理器301、存储器302和外围设备接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口303相连。具体地，外围设备可以包括：显示屏304、音频电路305、通信接口306和电源307中的至少一种。

本领域技术人员可以理解，图3中示出的结构并不构成对计算机设备300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性的实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述样本生成方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述样本生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种样本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中确定满足参考条件的至少一个参考用户特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值，从所述候选特征集中选择满足参考条件的至少一个参考用户特征之前，还包括：

对确定出的用户特征进行去重，得到所述种子特征集。

4.根据权利要求3所述的方法，其特征在于，所述按照参考规则，依次从所述多个特征类别中选择一个特征类别，包括：

将每次遍历到的特征类别，确定为当前选择的特征类别。

5.根据权利要求2所述的方法，其特征在于，所述从所述种子特征集中，选择满足参考条件的参考用户特征，包括：

从所述种子特征集中，确定M个备选用户特征；其中，对于所述M个备选用户特征中的任一备选用户特征，基于所述任一备选用户特征和信用标签构建的待检验信用评估模型能够通过模型检验；

6.根据权利要求5所述的方法，其特征在于，所述从所述种子特征集中，确定M个备选用户特征，包括：

对于所述种子特征集中的任一用户特征，基于所述任一用户特征和信用标签，构建待检验信用评估模型；

对构建的待检验信用评估模型进行模型检验；

7.根据权利要求5所述的方法，其特征在于，所述基于各个备选用户特征对应的待检验信用评估模型，在所述多个验证集中每个验证集上的增益，确定各个备选用户特征的参考增益，包括：

将各个备选用户特征对应的待检验信用评估模型，在所述多个验证集中每个验证集上的增益中的最小增益，确定为各个备选用户特征的参考增益；或者，

将各个备选用户特征对应的待检验信用评估模型，在所述多个验证集中每个验证集上的增益的平均增益，确定为各个备选用户特征的参考增益。

8.一种样本生成装置，其特征在于，所述装置包括：

第一确定模块，用于确定候选特征集中的每个用户特征在各个验证集上的信息值，所述候选特征集包括所述N个用户特征或所述N个用户特征中除初始化用户特征之外的用户特征，所述信息值用于衡量用户特征的预测能力；

9.一种样本生成装置，其特征在于，所述装置包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行权利要求1-7任一项所述的样本生成方法。

10.一种非临时性计算机可读存储介质，其特征在于，所述存储介质上存储有指令，所述指令被处理器执行时实现权利要求1-7任一项所述的样本生成方法的步骤。