CN112767134A

CN112767134A - 样本筛选方法、装置和电子设备

Info

Publication number: CN112767134A
Application number: CN202110105876.2A
Authority: CN
Inventors: 梅子行
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-07

Abstract

本申请公开了一种样本筛选方法、装置和电子设备，属于模型训练领域。方法包括：基于训练样本进行训练，得到第一逻辑回归模型；根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标；基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型；根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标；在第一模型指标和第二模型指标满足预设条件的情况下，将训练样本和目标候选样本作为目标训练样本。本申请实施例可以引入目标候选样本，可以使得目标候选样本的数量得到提升，实现了对训练样本的样本量较小时的样本补充训练。

Description

样本筛选方法、装置和电子设备

技术领域

本申请属于模型训练领域，具体涉及一种样本筛选方法、装置和电子设备。

背景技术

随着金融信贷业务的快速发展，金融普惠大众的同时，也因逾期和违约给金融业带来了巨大损失。尤其是在宏观经济下行与监管重拳治理的双重冲击下，我国银行业陷入了不良攀升的困境，巨大的逾期贷款包袱造成信贷资源难以释放。风险管理能力的强弱，将成为未来区分银行经营优劣的核心。

当前的金融信贷风险控制方法主要以机器学习算法为主。其中，准入模型是衡量用户信用风险的第一步，传统的准入模型是：通过机器学习算法利用大量样本进行准入模型训练，其中常用的是基于逻辑回归的准入模型，基于逻辑回归的准入模型本质是一种线性模型，可以获取用户逾期的概率，也可以判断用户为还款用户或逾期用户。基于逻辑回归的准入模型通常以半年期为界限进行准入模型的迭代，以保证准入模型适用于当前样本环境。

但是，由于环境影响可能没有满足要求的足够数量的样本可以实现准入模型的迭代，也即是在半年期的界限内没有满足要求的足够数量的样本时，无法建立基于逻辑回归的准入模型，因为样本量较小还导致准入模型的泛化能力和稳定性均较低。

申请内容

本申请实施例的目的是提供一种样本筛选方法、装置和电子设备，能够解决样本数量少时无法建立基于模型，以及由于样本量少导致的模型的泛化能力和稳定性均较低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种样本筛选方法，该方法包括：

基于训练样本进行训练，得到第一逻辑回归模型；

根据测试样本对所述第一逻辑回归模型进行测试，生成所述第一逻辑回归模型对应的第一模型指标；

基于所述训练样本和目标候选样本进行训练，得到第二逻辑回归模型；

根据所述测试样本对所述第二逻辑回归模型进行测试，生成所述第二逻辑回归模型对应的第二模型指标；

在所述第一模型指标和所述第二模型指标满足预设条件的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。

第二方面，本申请实施例提供了一种样本筛选装置，该装置包括：

第一逻辑回归模型训练模块，用于基于训练样本进行训练，得到第一逻辑回归模型；

第一模型指标生成模块，用于根据测试样本对所述第一逻辑回归模型进行测试，生成所述第一逻辑回归模型对应的第一模型指标；

第二逻辑回归模型训练模块，用于基于所述训练样本和目标候选样本进行训练，得到第二逻辑回归模型；

第二模型指标生成模块，用于根据所述测试样本对所述第二逻辑回归模型进行测试，生成所述第二逻辑回归模型对应的第二模型指标；

第一目标训练样本确定模块，用于在所述第一模型指标和所述第二模型指标满足预设条件的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，基于训练样本进行训练，得到第一逻辑回归模型；根据测试样本对所述第一逻辑回归模型进行测试，生成所述第一逻辑回归模型对应的第一模型指标；基于所述训练样本和目标候选样本进行训练，得到第二逻辑回归模型；根据所述测试样本对所述第二逻辑回归模型进行测试，生成所述第二逻辑回归模型对应的第二模型指标；在所述第一模型指标和所述第二模型指标满足预设条件的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。本申请实施例可以引入目标候选样本，并将目标训练样本和训练样本合并为目标训练样本，可以为训练样本引入更多的目标候选样本，使得逻辑回归模型的稳定性得到提升，保证了模型泛化能力的增长，避免了训练样本较小时模型的泛化能力和稳定性均较低的问题，实现了对训练样本的样本量较小时的样本补充训练。

附图说明

图1为本申请实施例一提供的一种样本筛选方法的步骤流程图；

图2为本申请实施例二提供的一种样本筛选方法的步骤流程图；

图3为本申请实施例四提供的一种样本筛选装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图；

图5为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的样本筛选方法进行详细地说明。

参照图1，示出了本申请实施例一提供的一种样本筛选方法的步骤流程图，如图1所示，该样本筛选方法具体可以包括如下步骤：

步骤101：基于训练样本进行训练，得到第一逻辑回归模型。

训练样本是属于数据样本集，具体地，可以按照一定的比例将数据样本集划分为训练样本和测试样本，其中，训练样本用于对逻辑回归模型进行训练，测试样本用于验证训练完成的逻辑回归模型的泛化能力。

上述训练样本和测试样本的比例可以是7:3，还可以是8:2，本申请实施例对该比例的具体数值不作限定，可以根据实际应用场景做具体调整。

逻辑回归模型是一个二分类模型，示例的，在信贷风险控制领域，此二分类模型可以预测样本属于逾期样本或者还款样本。

其中，初始逻辑回归模型中所有样本的权重均为1。

逻辑回归模型要求建模样本需要服从某个特定的数据分布，当数据样本集分布统一的时候，逻辑回归模型才能够收敛，则将训练样本输入至初始逻辑回归模型，通过梯度下降学习至收敛，得到第一逻辑回归模型。

示例的，在信贷风险控制领域，可以将数据样本集，也即是当前2020年4月的样本集按照比例7:3，划分为训练样本和测试样本，将训练样本输入至初始逻辑回归模型，通过梯度下降学习至收敛，得到第一逻辑回归模型。

在基于训练样本进行训练，得到第一逻辑回归模型之后，执行步骤102。

步骤102：根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标。

测试样本是属于数据样本集，具体地，可以按照一定的比例将数据样本集划分为训练样本和测试样本，其中，训练样本用于对逻辑回归模型进行训练，测试样本用于验证训练完成的逻辑回归模型的泛化能力。其中，泛化能力(GeneralizationAbility)是指机器学习算法对新鲜样本的适应能力，学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

模型指标包括：工作特征曲线下的面积(AreaUnder Curve，AUC)值或柯莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov，KS)值等模型指标值，本申请实施例对此不作限定，只要是可以表征逻辑回归模型的稳定性的模型指标即可，可以根据实际应用场景做具体调整。

KS值的检验主要是验证模型对违约对象的区分能力，通常是在模型预测全体样本的信用评分后，将全体样本按违约与非违约分为两部分，然后用KS统计量来检验这两组样本信用评分的分布是否有显著差异。

AUC值等价于将随机选择的正样本排序在随机选择的负样本之前的概率。

AUC被定义为接受者工作特征(Receiver Operating Characteristic，ROC)曲线下与坐标轴围成的面积，此面积的数值不会大于1。又由于ROC曲线一般都处于y＝x这条直线的上方，所以AUC值的取值范围在0.5和1之间。

AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的得分值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

示例的，在模型指标为AUC值的情况下，可以将测试样本(val)输入至第一逻辑回归模型，以确定该测试样本在第一逻辑回归模型中对应的AUC值，可以记为AUC-val1，也即是第一模型指标为AUC-val1。

在根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标之后，执行步骤103。

步骤103：基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型。

可以将目标候选样本和训练样本合并，将目标候选样本和训练样本输入至第一逻辑回归模型，以对第一模型指标进行更新调整，得到第二逻辑回归模型。

具体的，可以获取候选样本；候选样本为与训练样本和测试样本为间隔时长超出时长阈值的样本；将候选样本输入至初始逻辑回归模型，并获取由第一逻辑回归模型输出的候选样本的评分值；根据评分值，从候选样本中筛选出目标候选样本；基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型。

候选样本(bac)可以理解为与训练样本和测试样本为间隔时长超出时长阈值的样本，也即是距离当前时间跨度较大的时间内的样本集合，可以是之前模型训练中使用过的部分样本。

示例的，在信贷风险控制领域，可以将数据样本集，也即是当前2020年4月的样本集按照比例7:3，划分为训练样本和测试样本，可以将2019年12月份的样本集合作为候选样本。

可以将候选样本输入至初始逻辑回归模型，并获取由初始逻辑回归模型输出的候选样本的评分值，根据评分值，从候选样本中筛选出目标候选样本。其中，初始逻辑回归模型为二分类模型，可以根据评分值确定候选样本属于哪个分类，也即是可以筛选出目标候选样本，保证了目标候选样本和训练样本具有相似的数据分布。

在基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型之后，执行步骤104。

步骤104：根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标。

在本申请中，第一模型指标和第二模型指标是同一个模型指标下的数值，模型指标包括：工作特征曲线下的面积(AreaUnder Curve，AUC)值或柯莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov，KS)值等模型指标值，本申请实施例对此不作限定，只要是可以表征逻辑回归模型的稳定性的模型指标即可，可以根据实际应用场景做具体调整。

示例的，在模型指标为AUC值的情况下，可以将测试样本(val)输入至第二逻辑回归模型，以确定该测试样本在第二逻辑回归模型中对应的AUC值，可以记为AUC-val2，也即是第二模型指标为AUC-val2。

在生成第二逻辑回归模型对应的第二模型指标之后，执行步骤105。

步骤105：在第一模型指标和第二模型指标满足预设条件的情况下，将训练样本和目标候选样本作为目标训练样本。

其中，预设条件可以包括目标候选样本对应的样本权重大于第一权重阈值。

可以基于第一模型指标和第二模型指标，计算得到目标候选样本对应的样本权重；在样本权重大于第一权重阈值的情况下，表明目标候选样本在逻辑回归模型中起到了较大的作用，可以将训练样本和目标候选样本作为目标训练样本。

本申请实施例提供的样本筛选方法，基于训练样本进行训练，得到第一逻辑回归模型；根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标；基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型；根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标；在第一模型指标和第二模型指标满足预设条件的情况下，将训练样本和目标候选样本作为目标训练样本。本申请实施例可以引入目标候选样本，并将目标训练样本和训练样本合并为目标训练样本，可以为训练样本引入更多的目标候选样本，使得逻辑回归模型的稳定性得到提升，保证了模型泛化能力的增长，避免了训练样本较小时模型的泛化能力和稳定性均较低的问题，实现了对训练样本的样本量较小时的样本补充训练。

参照图2，示出了本申请实施例二提供的一种样本筛选方法的步骤流程图，如图2所示，该样本筛选方法具体可以包括如下步骤：

步骤201：基于训练样本进行训练，得到第一逻辑回归模型。

其中，初始逻辑回归模型中所有样本的权重均为1。

在基于训练样本进行训练，得到第一逻辑回归模型之后，执行步骤202。

步骤202：根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标。

模型指标包括：工作特征曲线下的面积(AreaUnder Curve，AUC)值或柯莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov，KS)值等模型指标值，本申请实施例对此不作限定，只要是可以表征逻辑回归模型的稳定性的模型指标，可以通过该模型指标在测试样本上的变化，决定目标候选样本的权重的模型指标即可，可以根据实际应用场景做具体调整。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在基于第一逻辑回归模型，确定测试样本对应的第一模型指标之后，执行步骤203。

步骤203：基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型。

具体的，步骤203的实现过程可以包括：

子步骤A1：获取第一候选样本；第一候选样本为与训练样本和测试样本为间隔时长超出时长阈值的样本。

其中，第一候选样本(bac)可以理解为与训练样本和测试样本为间隔时长超出时长阈值的样本，也即是距离当前时间跨度较大的时间内的样本集合，可以是之前模型训练中使用过的部分样本。

示例的，在信贷风险控制领域，可以将数据样本集，也即是当前2020年4月的样本集按照比例7:3，划分为训练样本和测试样本，可以将2019年12月份的样本集合作为第一候选样本。

子步骤A2：将第一候选样本输入至第一始逻辑回归模型，并获取由第一逻辑回归模型输出的第一候选样本的评分值。

其中，第一逻辑回归模型为二分类模型，第一候选样本的评分值决定了其分类是否正确，可以根据评分值确定第一候选样本是否完成正确分类，则在获取由第一逻辑回归模型输出的第一候选样本的评分值后，执行子步骤A3。

子步骤A3：根据评分值，从第一候选样本中筛选出目标第一候选样本。

可以根据评分值，筛选出和第一逻辑回归模型分类相同的部分第一候选样本，该部分第一候选样本就是目标第一候选样本，这样子保证了目标第一候选样本和训练样本具有相似的数据分布。

子步骤A4：基于训练样本和目标第一候选样本进行训练，得到第二逻辑回归模型。

第一逻辑回归模型中所有样本的权重均为1。

逻辑回归模型要求建模样本需要服从某个特定的数据分布，当数据样本集分布统一的时候，逻辑回归模型才能够收敛，则将训练样本和目标候选样本输入至初始逻辑回归模型，通过梯度下降学习至收敛，得到第二逻辑回归模型。

在基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型，进而，执行步骤204。

步骤204：根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标。

在根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标之后，执行步骤205。

步骤205：基于第一模型指标和第二模型指标，计算得到目标候选样本对应的样本权重。

具体地，步骤205的实现过程可以包括：

子步骤B1：确定第一模型指标和第二模型指标的模型指标差值。

在本申请中，第一模型指标和第二模型指标是同一个模型指标下的数值，则可以通过将第一模型指标减去第二模型指标，得到模型指标差值。

示例的，在模型指标为AUC值的情况下，可以将测试样本(val)输入至第一逻辑回归模型，以确定该测试样本在第一逻辑回归模型中对应的AUC值，可以记为AUC-val1，也即是第一模型指标为AUC-val1，可以将测试样本(val)输入至第二逻辑回归模型，以确定该测试样本在第二逻辑回归模型中对应的AUC值，可以记为AUC-val2，也即是第二模型指标为AUC-val2，则可以将AUC-val1-AUC-val2，得到AUC差值。

在确定第一模型指标和第二模型指标的模型指标差值之后，执行子步骤B2。

子步骤B2：在模型指标差值大于零的情况下，基于模型指标差值确定目标候选样本的样本权重。

在模型指标差值大于零的情况下，说明第二逻辑回归模型的稳定性和泛化能力大于第一逻辑回归模型的稳定性和泛化能力，则说明在候选样本中选择的目标候选样本具有较高的可信度，可以使用该目标候选样本对当前逻辑逻辑回归模型进行训练。

并且，将模型指标差值加1，并对其和进行平方，以得到目标候选样本的样本权重，可以通过当前轮次加入的目标候选样本引入后在测试样本上的影响，来动态调整该目标候选样本部分的样本权重，样本权重越大，说明该部分目标候选样本在第二逻辑回归模型中起到的作用越大，当样本权重接近零的时候，相当于该部分目标候选样本在第二逻辑回归模型中没有任何作用。

示例的，在模型指标为AUC值的情况下，可以将测试样本(val)输入至第一逻辑回归模型，以确定该测试样本在第一逻辑回归模型中对应的AUC值，可以记为AUC-val1，也即是第一模型指标为AUC-val1，可以将测试样本(val)输入至第二逻辑回归模型，以确定该测试样本在第二逻辑回归模型中对应的AUC值，可以记为AUC-val2，也即是第二模型指标为AUC-val2，则可以将AUC-val1-AUC-val2，得到AUC差值，在AUC差值大于零的情况下，可以将AUC差值记为AUC-up，可以使用(1+(AUC-up))²作为目标候选样本的权重。

在基于第一模型指标和第二模型指标，计算得到目标候选样本对应的样本权重之后，执行步骤206。

步骤206：在样本权重大于第一权重阈值的情况下，将训练样本和目标候选样本作为目标训练样本。

第一权重阈值指的是在目标候选样本和训练样本合并之前对应的第一逻辑回归模型中的训练样本的权重值。

在样本权重大于第一权重阈值的情况下，表明目标候选样本在第二逻辑回归模型中起到了较大的作用，则可以将训练样本和目标候选样本作为目标训练样本。

在样本权重小于或者等于第一权重阈值的情况下，表明目标候选样本在第二逻辑回归模型中没有任何作用，则将目标候选样本为无效样本，则进一步的，舍弃该目标候选样本。

在样本权重大于第一权重阈值的情况下，将训练样本和目标候选样本作为目标训练样本之后，执行步骤207。

步骤207：将第二候选样本输入至所述第二逻辑回归模型，并获取由所述第二逻辑回归模型输出的所述候选样本的评分值。

其中，所述第二候选样本为所述第一候选样本去除所述目标候选样本后的样本。

其中，第二逻辑回归模型为二分类模型，第二候选样本的评分值决定了其分类是否正确，可以根据评分值确定第二候选样本是否完成正确分类。

需要说明的是，在所述第一模型指标和所述第二模型指标不满足预设条件的情况下，也即是未确定出目标候选样本，则舍弃第二逻辑回归模型，将第二候选样本再次输入第一逻辑回归模型，再次执行步骤201至步骤206，以确定出目标候选样本。

在将第二候选样本输入至所述第二逻辑回归模型，并获取由所述第二逻辑回归模型输出的所述候选样本的评分值之后，执行步骤208。

步骤208：根据所述评分值，从所述第二候选样本中筛选出第二目标候选样本。

可以根据评分值，筛选出和第二逻辑回归模型分类相同的部分第二候选样本，该部分第二候选样本就是目标第二候选样本，这样子保证了目标第二候选样本和训练样本具有相似的数据分布。

在根据所述评分值，从所述第二候选样本中筛选出第二目标候选样本之后，执行步骤209。

步骤209：基于所述训练样本、所述目标候选样本和所述第二目标候选样本进行训练，得到第三逻辑回归模型。

逻辑回归模型要求建模样本需要服从某个特定的数据分布，当数据样本集分布统一的时候，逻辑回归模型才能够收敛，则将基于所述训练样本、所述目标候选样本和所述第二目标候选样本进行训练，放入第二逻辑回归模型，通过梯度下降学习至收敛，得到第三逻辑回归模型。

在基于所述训练样本、所述目标候选样本和所述第二目标候选样本进行训练，得到第三逻辑回归模型之后，执行步骤210。

步骤210：根据所述测试样本对所述第三逻辑回归模型进行测试，生成所述第三逻辑回归模型对应的第三模型指标。

测试样本是属于数据样本集，具体地，可以按照一定的比例将数据样本集划分为训练样本和测试样本，其中，训练样本用于对逻辑回归模型进行训练，测试样本用于验证训练完成的逻辑回归模型的泛化能力。其中，泛化能力(Generalization Ability)是指机器学习算法对新鲜样本的适应能力，学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

在本申请中，第一模型指标、第二模型指标和第三模型指标是同一个模型指标下的数值，模型指标包括：工作特征曲线下的面积(Area Under Curve，AUC)值或柯莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov，KS)值等模型指标值，本申请实施例对此不作限定，只要是可以表征逻辑回归模型的稳定性的模型指标即可，可以根据实际应用场景做具体调整。

示例的，在模型指标为AUC值的情况下，可以将测试样本(val)输入至第三逻辑回归模型，以确定该测试样本在第三逻辑回归模型中对应的AUC值，可以记为AUC-val2，也即是第三模型指标为AUC-val2。

在根据所述测试样本对所述第三逻辑回归模型进行测试，生成所述第三逻辑回归模型对应的第三模型指标之后，执行步骤211。

步骤211：在所述第二模型指标和所述第三模型指标满足所述预设条件的情况下，将所述训练样本、所述目标候选样本和所述第二目标候选样本作为目标训练样本。

可以基于第二模型指标和第三模型指标，计算得到第二目标候选样本对应的样本权重；在样本权重大于第一权重阈值的情况下，表明第二目标候选样本在逻辑回归模型中起到了较大的作用，可以将训练样本和第二目标候选样本作为目标训练样本。

步骤212：在未从所述第一候选样本中筛选出所述目标候选样本，或者，所述第一模型指标和所述第二模型指标不满足所述预设条件的情况下，停止逻辑回归模型的迭代训练过程。

其中，迭代停止预设条件包括：目标候选样本均被添加至目标训练样本和在连续预设轮次出现无效样本。

也即是，在所有的候选样本中的目标候选样本均被添加至第二逻辑回归模型中，或者在已连续的预设轮次出现的候选样本中的目标候选样本均为无效样本的情况下，停止继续引入目标候选样本的过程。

本申请可以基于训练样本进行训练，得到第一逻辑回归模型；根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标；基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型；根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标；在第一模型指标和第二模型指标满足预设条件的情况下，将训练样本和目标候选样本作为目标训练样本，可以在该过程中优化时间维度较远的样本补充问题，还可以优化不同产品维度样本的样本补充问题，例如在某些产品初期，没有足够的逾期样本进行模型的建设，可以将一些其他产品上的逾期样本，作为候选样本，将候选样本从其他产品的表现映射到当前产品，以解决产品初期样本量较少的问题，可以进一步的提高逻辑回归模型的稳定性和泛化能力。

在本申请实施例中，基于训练样本进行训练，得到第一逻辑回归模型；根据测试样本对第一逻辑回归模型进行测试，生成第一逻辑回归模型对应的第一模型指标；基于训练样本和目标候选样本进行训练，得到第二逻辑回归模型；根据测试样本对第二逻辑回归模型进行测试，生成第二逻辑回归模型对应的第二模型指标；在第一模型指标和第二模型指标满足预设条件的情况下，将训练样本和目标候选样本作为目标训练样本。本申请实施例可以引入目标候选样本，并将目标训练样本和训练样本合并为目标训练样本，可以为训练样本引入更多的目标候选样本，使得逻辑回归模型的稳定性得到提升，保证了模型泛化能力的增长，避免了训练样本较小时模型的泛化能力和稳定性均较低的问题，实现了对训练样本的样本量较小时的样本补充训练。

需要说明的是，本申请实施例提供的样本筛选方法，执行主体可以为样本筛选装置，或者，或者该样本筛选装置中的用于执行加载模型训练的方法的控制模块。本申请实施例中以样本筛选装置执行加载模型训练的方法为例，说明本申请实施例提供的模型训练的方法。

参照图3，示出了本申请实施例三提供的一种样本筛选装置的结构示意图，如图3所示，该样本筛选装置具体可以包括如下模块：

第一逻辑回归模型训练模块301，用于基于训练样本进行训练，得到第一逻辑回归模型；

第一模型指标生成模块302，用于根据测试样本对所述第一逻辑回归模型进行测试，生成所述第一逻辑回归模型对应的第一模型指标；

第二逻辑回归模型训练模块303，用于基于所述训练样本和目标候选样本进行训练，得到第二逻辑回归模型；

第二模型指标生成模块304，用于根据所述测试样本对所述第二逻辑回归模型进行测试，生成所述第二逻辑回归模型对应的第二模型指标；

第一目标训练样本确定模块305，用于在所述第一模型指标和所述第二模型指标满足预设条件的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。

可选地，所述第二逻辑回归模型训练模块包括：

候选样本获取子模块，用于获取第一候选样本；所述第一候选样本为与所述训练样本和所述测试样本的间隔时长超出时长阈值的样本；

评分值获取子模块，用于将所述第一候选样本输入至所述第一逻辑回归模型，并获取由所述第一逻辑回归模型输出的所述候选样本的评分值；

目标候选样本筛选子模块，用于根据所述评分值，从所述第一候选样本中筛选出所述目标候选样本；

第二逻辑回归模型训练子模块，用于基于所述训练样本和目标候选样本进行训练，得到所述第二逻辑回归模型。

可选地，所述第一目标训练样本确定模块包括：

样本权重计算子模块，用于基于所述第一模型指标和所述第二模型指标，计算得到所述目标候选样本对应的样本权重；

第一目标训练样本确定子模块，用于在所述样本权重大于第一权重阈值的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。

可选地，所述装置还包括：

第二逻辑回归模型评分值输出模块，用于将第二候选样本输入至所述第二逻辑回归模型，并获取由所述第二逻辑回归模型输出的所述候选样本的评分值；其中，所述第二候选样本为所述第一候选样本去除所述目标候选样本后的样本；

第二目标候选样本筛选模块，用于根据所述评分值，从所述第二候选样本中筛选出第二目标候选样本；

第三逻辑回归模型得到模块，用于基于所述训练样本、所述目标候选样本和所述第二目标候选样本进行训练，得到第三逻辑回归模型；

第三模型指标生成模块，用于根据所述测试样本对所述第三逻辑回归模型进行测试，生成所述第三逻辑回归模型对应的第三模型指标；

第二目标训练样本确定模块，用于在所述第二模型指标和所述第三模型指标满足所述预设条件的情况下，将所述训练样本、所述目标候选样本和所述第二目标候选样本作为目标训练样本。

可选地，所述装置还包括：

逻辑回归模型训练停止模块，用于在未从所述第一候选样本中筛选出所述目标候选样本，或者，所述第一模型指标和所述第二模型指标不满足所述预设条件的情况下，停止逻辑回归模型的迭代训练过程。

本申请实施例中的样本筛选装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的样本筛选装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的样本筛选装置能够实现图1至图2的方法实施例中样本筛选装置实现的各个过程，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种电子设备，如图4所示，电子设备400包括处理器409，存储器410，存储在存储器410上并可在所述处理器409上运行的程序或指令，该程序或指令被处理器409执行时实现上述样本筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。

本领域技术人员可以理解，电子设备500还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器510，用于基于训练样本进行训练，得到第一逻辑回归模型；

在本申请实施例中，基于训练样本进行训练，得到第一逻辑回归模型；根据测试样本对所述第一逻辑回归模型进行测试，生成所述第一逻辑回归模型对应的第一模型指标；基于所述训练样本和目标候选样本进行训练，得到第二逻辑回归模型；根据所述测试样本对所述第二逻辑回归模型进行测试，生成所述第二逻辑回归模型对应的第二模型指标；在所述第一模型指标和所述第二模型指标满足预设条件的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。本申请实施例可以引入目标候选样本，并将目标训练样本和训练样本合并为目标训练样本，可以使得目标候选样本的数量得到提升，使得逻辑回归模型的稳定性得到提升，保证了模型泛化能力的增长，避免了训练样本较小时模型的泛化能力和稳定性均较低的问题，实现了对训练样本的样本量较小时的样本补充训练。

可选的，处理器510，还用于获取第一候选样本；所述第一候选样本为与所述训练样本和所述测试样本的间隔时长超出时长阈值的样本；

将所述第一候选样本输入至所述第一逻辑回归模型，并获取由所述第一逻辑回归模型输出的所述候选样本的评分值；

根据所述评分值，从所述第一候选样本中筛选出所述目标候选样本；

基于所述训练样本和目标候选样本进行训练，得到所述第二逻辑回归模型；

可选地，处理器510，还用于基于所述第一模型指标和所述第二模型指标，计算得到所述目标候选样本对应的样本权重；

在所述样本权重大于第一权重阈值的情况下，将所述训练样本和所述目标候选样本作为目标训练样本；

可选地，处理器510，还用于将第二候选样本输入至所述第二逻辑回归模型，并获取由所述第二逻辑回归模型输出的所述候选样本的评分值；其中，所述第二候选样本为所述第一候选样本去除所述目标候选样本后的样本；

根据所述评分值，从所述第二候选样本中筛选出第二目标候选样本；

基于所述训练样本、所述目标候选样本和所述第二目标候选样本进行训练，得到第三逻辑回归模型；

根据所述测试样本对所述第三逻辑回归模型进行测试，生成所述第三逻辑回归模型对应的第三模型指标；

在所述第二模型指标和所述第三模型指标满足所述预设条件的情况下，将所述训练样本、所述目标候选样本和所述第二目标候选样本作为目标训练样本。

可选地，处理器510，还用于在未从所述第一候选样本中筛选出所述目标候选样本，或者，所述第一模型指标和所述第二模型指标不满足所述预设条件的情况下，停止逻辑回归模型的迭代训练过程。

在本申请实施例中，本申请实施例可以引入目标候选样本，并将目标训练样本和训练样本合并为目标训练样本，可以使得目标候选样本的数量得到提升，使得逻辑回归模型的稳定性得到提升，保证了模型泛化能力的增长，避免了训练样本较小时模型的泛化能力和稳定性均较低的问题，实现了对训练样本的样本量较小时的样本补充训练。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述样本筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述样本筛选方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种样本筛选方法，其特征在于，包括：

基于训练样本进行训练，得到第一逻辑回归模型；

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本和目标候选样本进行训练，得到第二逻辑回归模型，包括：

获取第一候选样本；所述第一候选样本为与所述训练样本和所述测试样本的间隔时长超出时长阈值的样本；

基于所述训练样本和目标候选样本进行训练，得到所述第二逻辑回归模型。

3.根据权利要求1所述的方法，其特征在于，所述在所述第一模型指标和所述第二模型指标满足预设条件的情况下，将所述训练样本和所述目标候选样本作为目标训练样本，包括：

基于所述第一模型指标和所述第二模型指标，计算得到所述目标候选样本对应的样本权重；

在所述样本权重大于第一权重阈值的情况下，将所述训练样本和所述目标候选样本作为目标训练样本。

4.根据权利要求3所述的方法，其特征在于，在所述将所述训练样本和所述目标候选样本作为目标训练样本之后，所述方法还包括：

将第二候选样本输入至所述第二逻辑回归模型，并获取由所述第二逻辑回归模型输出的所述候选样本的评分值；其中，所述第二候选样本为所述第一候选样本去除所述目标候选样本后的样本；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在未从所述第一候选样本中筛选出所述目标候选样本，或者，所述第一模型指标和所述第二模型指标不满足所述预设条件的情况下，停止逻辑回归模型的迭代训练过程。

6.一种样本筛选装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第二逻辑回归模型训练模块包括：

8.根据权利要求6所述的装置，其特征在于，所述第一目标训练样本确定模块包括：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5所述的样本筛选方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5所述的样本筛选方法的步骤。