CN110263859A

CN110263859A - 样本分类方法、装置、设备及可读存储介质

Info

Publication number: CN110263859A
Application number: CN201910542720.3A
Authority: CN
Inventors: 林禹君
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-20

Abstract

本发明公开了一种样本分类方法，通过获取待分类样本的各个第一样本特征、第一样本特征的第一特征取值、样本分类设备的各个预设特征以及预设特征的目标特征取值；从第一样本特征中选取出与预设特征相同的特征，并将选取的特征作为待分类样本的目标特征；根据目标特征、第一特征取值和目标特征取值，确定待分类样本为负样本或正样本。本发明还公开了一种样本分类装置、设备以及可读存储介质。本发明使得待分类样本的有一个准确的样本特征分类依据，待分类样本的样本分类比例可以达到需求值，避免盲目的样本分类而导致样本样本分类比例达不到需求值。

Description

样本分类方法、装置、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种样本分类方法、装置、设备及可读存储介质。

背景技术

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，越来越多的技术应用在金融领域。金融领域中，在金融业务中，银行往往需要根据业务样本的特征对业务样本进行风险分析，根据业务样本的风险，对业务样本进行好坏分类。例如贷前信用审批业务，会选择一定比例的样本作为符合信用审批条件的好样本通过，选择一定比例的样本作为不符合条信用审批件的坏样本拒绝。为了使好样本和坏样本达到业务需求的比例，有一种方法是随机选择一定比例的样本作为好样本、随机选择一定比例的样本作为坏样本；虽然按照业务需求比例随机选择样本作为好样本或坏样本，好样本和坏样本的比例可以达到业务需求，但是样本的分类特征极其不明显，没有根据样本的特征区分样本好或坏，达不到分类目的。为了使样本按照特征进行分类，可以人为去选定样本的特征作为好样本和坏样本的分类标准；但是，业务样本存在多个特征，通过人为根据经验选定样本的特征、定义规则去判断样本的好坏，人为经验缺乏客观性，判断出来的好样本和坏样本的比例达不到业务需求。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种样本分类方法，旨在解决根据人为经验选择样本特征来定义规则对样本进行分类，导致样本分类比例达不到需求值的技术问题。

为实现上述目的，本发明提供一种样本分类方法，所述样本分类方法包括：

获取待分类样本的各个第一样本特征、所述第一样本特征的第一特征取值、样本分类设备的各个预设特征以及所述预设特征的目标特征取值；

从所述第一样本特征中选取出与所述预设特征相同的特征，并将所述选取的特征作为所述待分类样本的目标特征；

根据所述目标特征、所述第一特征取值和所述目标特征取值，确定所述待分类样本为负样本或正样本。

可选地，所述根据所述目标特征、所述第一特征取值和所述目标特征取值，确定所述待分类样本为负样本或正样本的步骤包括：

判断所述目标特征的第一特征取值与所述目标特征取值是否相符；

若所述目标特征的第一特征取值与所述目标特征取值相符，则确定所述待分类样本为正样本；

若所述目标特征的第一特征取值与所述目标特征取值不相符，则确定所述待分类样本为负样本。

可选地，所述获取待分类样本的各个第一样本特征、所述第一样本特征的第一特征取值、样本分类设备的各个预设特征以及所述预设特征的目标特征取值的步骤之前还包括：

获取训练集的各个第二样本特征、训练集的各个训练样本的样本标签以及各个训练样本的各个样本特征的第二特征取值；

从各个所述第二样本特征中选取权重值大于预设数值的特征作为预设特征；

根据样本分类设备的约束条件，确定各个所述预设特征的目标特征取值。

可选地，所述根据样本分类设备的约束条件，确定各个所述预设特征的目标特征取值的步骤包括：

根据样本分类设备的约束条件，确定各个所述预设特征的接受域；

根据每个所述预设特征的接受域，穷举每个所述预设特征的各个变量取值；

从所述变量取值中获取各个所述预设特征的最优取值，以作为各个所述预设特征的目标特征取值。

可选地，所述从所述变量取值中获取各个所述预设特征的最优取值的步骤包括：

从每个所述预设特征的各个变量取值中选取一个所述变量取值进行组合，得到各个变量组合；

根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率，并将所述变量组合、所述拒绝率和所述命中率关联存储得到预设关系表；

获取待分类样本的目标拒绝率，并根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合；

根据所述目标变量组合，确定各个所述预设特征的最优取值。

可选地，所述根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率的步骤包括：

确定训练集中各个所述第二特征取值与所述变量组合相符的目标训练样本；

将所述目标训练样本的个数与所述训练集的样本个数之比作为所述变量组合的拒绝率；

基于所述样本标签确定目标训练样本中的负样本数，并将所述负样本数与所述目标训练样本的个数之比作为所述变量组合的命中率。

可选地，所述根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合的步骤包括：

遍历所述预设关系表，找出拒绝率与所述目标拒绝率相同的各个待选变量组合；

从所述各个待选变量组合中选取所述命中率最高的变量组合，以作为目标变量组合。

此外，本发明还提出一种样本分类装置，所述样本分类装置包括：

第一获取模块，用于获取待分类样本的各个第一样本特征、所述第一样本特征的第一特征取值、样本分类设备的各个预设特征以及所述预设特征的目标特征取值；

目标特征提取模块，用于从所述第一样本特征中选取出与所述预设特征相同的特征，并将所述选取的特征作为所述待分类样本的目标特征；

分类模块，用于根据所述目标特征、所述第一特征取值和所述目标特征取值，确定所述待分类样本为负样本或正样本。

可选地，所述分类模块还用于：

可选地，所述样本分类装置还包括：

第二获取模块，用于获取训练集的各个第二样本特征、训练集的各个训练样本的样本标签以及各个训练样本的各个样本特征的第二特征取值；

预设特征确定模块，用于从各个所述第二样本特征中选取权重值大于预设数值的特征作为预设特征；

特征取值确定模块，用于根据样本分类设备的约束条件，确定各个所述预设特征的目标特征取值。

可选地，所述特征取值确定模块还包括：

接受域确定模块，用于根据样本分类设备的约束条件，确定各个所述预设特征的接受域；

变量取值穷举模块，用于根据每个所述预设特征的接受域，穷举每个所述预设特征的各个变量取值；

特征取值确定子模块，用于从所述变量取值中获取各个所述预设特征的最优取值，以作为各个所述预设特征的目标特征取值。

可选地，所述特征取值确定子模块还包括：

组合模块，用于从每个所述预设特征的各个变量取值中选取一个所述变量取值进行组合，得到各个变量组合；

记录模块，用于根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率，并将所述变量组合、所述拒绝率和所述命中率关联存储得到预设关系表；

变量组合确定模块，用于获取待分类样本的目标拒绝率，并根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合；

最优取值确定模块，用于根据所述目标变量组合，确定各个所述预设特征的最优取值。

可选地，所述记录模块还包括：

目标训练样本确定模块，用于确定训练集中各个所述第二特征取值与所述变量组合相符的目标训练样本；

拒绝率确定模块，用于将所述目标训练样本的个数与所述训练集的样本个数之比作为所述变量组合的拒绝率；

命中率确定模块，用于基于所述样本标签确定目标训练样本中的负样本数，并将所述负样本数与所述目标训练样本的个数之比作为所述变量组合的命中率。

可选地，所述变量组合确定模块还包括：

遍历模块，用于遍历所述预设关系表，找出拒绝率与所述目标拒绝率相同的各个待选变量组合；

第二选取模块，用于从所述各个待选变量组合中选取所述命中率最高的变量组合，以作为目标变量组合。

此外，为实现上述目的，本发明还提供一种样本分类设备，所述样本分类设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本分类程序，所述样本分类程序被所述处理器执行时实现如上所述的样本分类方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有样本分类程序，所述样本分类程序被处理器执行时实现如上所述的样本分类方法的步骤。

本发明实施例提出的一种样本分类方法、装置、设备及可读存储介质，通过获取预先设定的预设特征以及预设特征的特征取值，其中，预设特征是根据训练集的各个样本的样本特征进行分析选取出来的具有较好的分类能力的样本特征，预设特征的特征取值是依据业务需求的样本分类比例确定的预设特征的特征取值；在待分类样本分类时从待分类样本的各个样本特征中选取与预设特征相同的目标特征，并判断目标特征的特征取值与预设特征的特征取值是否相符，根据判断结果对样本进行分类，使得待分类样本的有一个准确的样本特征分类依据，待分类样本的样本分类比例可以达到需求值，避免盲目的样本分类而导致样本样本分类比例达不到需求值。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明样本分类方法第一实施例的流程示意图；

图3为本发明样本分类方法实施例预设特征和目标特征取值确定的流程示意图；

图4为本发明实施例不同变量组合的拒绝率和命中率的变化示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

本发明实施例样本分类设备可以是PC，也可以是智能手机、平板电脑、便携计算机等可移动式终端设备。

如图1所示，该样本分类设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的样本分类设备结构并不构成对样本分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本分类程序。

在图1所示的样本分类设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的样本分类程序，并执行以下操作：

进一步地，所述根据所述目标特征、所述第一特征取值和所述目标特征取值，确定所述待分类样本为负样本或正样本的步骤包括：

进一步地，所述获取待分类样本的各个第一样本特征、所述第一样本特征的第一特征取值、样本分类设备的各个预设特征以及所述预设特征的目标特征取值的步骤之前还包括：

进一步地，所述根据样本分类设备的约束条件，确定各个所述预设特征的目标特征取值的步骤包括：

进一步地，所述从所述变量取值中获取各个所述预设特征的最优取值的步骤包括：

进一步地，所述根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率的步骤包括：

进一步地，所述根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合的步骤包括：

基于上述硬件结构，提出本发明方法实施例。

参照图2，在本发明样本分类方法第一实施例中，所述样本分类方法包括：

步骤S10，获取待分类样本的各个第一样本特征、所述第一样本特征的第一特征取值、样本分类设备的各个预设特征以及所述预设特征的目标特征取值；

金融领域中，例如贷前信用审批业务，会选择一定比例的样本作为符合信用审批条件的样本通过，选择一定比例的样本作为不符合信用审批条件的样本拒绝，这里定义不符合信用审批条件的样本比例为拒绝率(即，拒绝率＝拒绝样本数/总样本数)。若要确定样本是通过还是拒绝，就需要有一个分类标准来对每个样本进行分类，根据每个样本的分类结果确定样本为通过或拒绝。在本发明实施例中，主要是将待分类样本区分为正样本和负样本，其中，负样本占待分类样本的比例为待分类样本的拒绝率。另外，业务对待分类样本一般会有一个拒绝率的要求，在后续描述中将业务要求的待分类样本的拒绝率称为业务的目标拒绝率。本发明实施例提供一种样本分类方法，本发明实施例样本分类方法通过样本分类设备来实现，首先通过获取训练集来确定样本分类设备用来分类样本的各个预设特征，然后根据业务的目标拒绝率确定出各个预设特征的目标特征取值；各个预设特征以及各个预设特征的特征取值的确定，后续将作详细介绍。每个样本可能有一个或多个样本特征，在实际对样本进行分类时，首先从待分类样本中选出与预设特征相同的样本特征，然后分析选出的样本特征的特征取值是否均符合预设特征的特征取值，若选出的每个样本特征均符合预设特征的特征取值，则将待测样本分类为正样本，否则将待测样本分类为负样本。其中，样本特征的特征取值符合预设特征的特征取值，是指若预设特征的特征取值为一个特定值，则样本特征的特征取值与该特定值相同；若预设特征的特征取值为一个区间，则样本特征的特征取值在该区间内。在对样本进行分类时，首先获取待分类样本的各个第一样本特征，样本分类设备的各个预设特征以及各个预设特征的特征取值。

其中，待分类样本，是指待区分为正样本或负样本的业务样本。第一样本特征，是指待分类样本的样本特征；例如，贷前信用审批业务的业务样本中，有多个样本特征：存款数额、征信历史时间、一阶联系人数量，二阶联系人数量，一阶联系人负样本数，二阶联系人负样本数等等。第一特征取值，是指第一样本特征的特征取值，例如，贷前信用审批业务的业务样本中，“存款数额5万”，则样本特征“存款数额”的特征取值为“5万”。

预设特征，是指通过特征选取模型对训练集进行分析，从训练集的多个样本特征中，筛选出的重要性较高或大于一定阈值的样本特征。

目标特征取值，是指通过网络搜索模型采用网格搜索方式计算出的各个预设特征的特征取值。

步骤S20，从所述第一样本特征中选取出与所述预设特征相同的特征，并将所述选取的特征作为所述待分类样本的目标特征；

具体地，将每个预设特征与各个第一样本特征逐个进行对比，当发现第一样本特征与预设特征相同时，提取该第一样本特征，直至各个第一样本特征中与各个预设特征相同的样本特征均被提取出来；从而从待分类样本的各个第一样本特征中选取出与预设特征相同的特征，并将选取出的特征作为待分类样本的目标特征。其中，目标特征，是指从各个第一样本特征中选取出与预设特征相同的样本特征，目标特征包括多个样本特征，预设特征有几个则目标特征就包含几个样本特征。

为了方便理解，以一具体实施例进行说明。例如，贷前信用审批业务中，获取到一个待分类业务样本后，待分类业务样本的样本特征有：存款数额、征信历史时间、一阶联系人数量，二阶联系人数量，一阶联系人负样本数，二阶联系人负样本数等等。此时要通过样本分类设备对这个待分类业务样本进行分类，首先需要从这些样本特征选出一些重要性较高的样本特征作为目标特征，选取出来的目标特征需要与特征选取模型确定的预设特征相同，例如，预设特征为存款数额、征信历史时间，则选取出来的目标特征为待分类业务样本的存款数额、征信历史时间。

步骤S30，根据所述目标特征、所述第一特征取值和所述目标特征取值，确定所述待分类样本为负样本或正样本。

具体地，判断目标特征的第一特征取值是否满足预设特征的目标特征取值，若目标特征的第一特征取值与预设特征的目标特征取值相同或相符，则将待分类样本分类为正样本；若目标特征的第一特征取值与预设特征的目标特征取值不相同或不相符，则将待分类样本分类为负样本。

在本实施例中，通过获取预先设定的预设特征以及预设特征的特征取值，其中，预设特征是根据训练集的各个样本的样本特征进行分析选取出来的具有较好的分类能力的样本特征，预设特征的特征取值是依据业务需求的样本分类比例确定的预设特征的特征取值；在待分类样本分类时从待分类样本的各个样本特征中选取与预设特征相同的目标特征，并判断目标特征的特征取值与预设特征的特征取值是否相符，根据判断结果对样本进行分类，使得待分类样本的有一个准确的样本特征分类依据，待分类样本的样本分类比例可以达到需求值，避免盲目的样本分类而导致样本样本分类比例达不到需求值。

进一步地，步骤S30包括：

判断所述目标特征变量的第一特征取值与所述目标特征取值是否相符；

在检测待分类样本时，判断目标特征中每个样本特征的第一特征取值与对应相同的预设特征的目标特征取值是否均相同或相符。

若目标特征中每个样本特征的第一特征取值与对应相同的预设特征的目标特征取值均相同或相符，则将待分类样本分类为正样本。其中，第一特征取值与目标特征取值相符，是指若目标特征取值为一个特定值，则第一特征取值与该特定值相同；若目标特征取值为一个区间，则第一特征取值在该区间内。如，预设特征“征信历史情况”的目标特征取值为“有征信历史”，该目标特征取值为一个特定值，若第一特征取值为“有征信历史”，则第一特征取值与该特定值相同，第一特征取值与目标特征取值相符。又如，预设特征“存款数额”的目标特征取值为“存款数额大于4万”，该目标特征取值为一个区间，若第一特征取值为“存款数额5万”，则第一特征取值在该区间内，第一特征取值与目标特征取值相符。

具体地，一种实施方式为，若目标特征中有一个或多个样本特征的第一特征取值与对应相同的预设特征的目标特征取值相同或相符，但目标特征中有一个或多个样本特征的第一特征取值与对应相同的预设特征的目标特征取值不相同或不相符，则将待分类样本分类为负样本。一种实施方式为，若目标特征中每个样本特征的第一特征取值与对应相同的预设特征的目标特征取值均不相同或不相符，则将待分类样本分类为负样本。其中，第一特征取值与目标特征取值不相符，是指若目标特征取值为一个特定值，则第一特征取值与该特定值不相同；若目标特征取值为一个区间，则第一特征取值不在该区间内。如，预设特征“征信历史情况”的目标特征取值为“有征信历史”，该目标特征取值为一个特定值，若第一特征取值为“无征信历史”，则第一特征取值与该特定值不相同，第一特征取值与目标特征取值不相符。又如，预设特征“存款数额”的目标特征取值为“存款数额大于4万”，该目标特征取值为一个区间，若第一特征取值为“存款数额3万”，则第一特征取值不在该区间内，第一特征取值与目标特征取值不相符。

为了方便理解，以一具体实施例进行说明。例如，预设特征1为存款数额，预设特征1的特征取值为“存款数额大于2万”；预设特征2为征信历史时间，预设特征2的特征取值为“征信历史时间大于3年”；待分类业务样本A为“存款数额3万”、“征信历史时间4年”、“历史逾期1次”，则待分类业务样本A的目标特征为“存款数额”、“征信历史时间”，其中每个样本特征的特征取值与对应相同的预设特征的特征取值均相符，将待分类样本A分类为正样本；待分类业务样本B的为“存款数额1万”、“征信历史时间4年”，则待分类业务样本B的目标特征为“存款数额”、“征信历史时间”，其中样本特征“存款数额”的第一特征取值“存款数额1万”不满足对应相同的预设特征1的特征取值“存款数额大于2万”，将待分类样本B分类为负样本。

在本实施例中，通过将目标特征中每个样本特征的第一特征取值与对应相同的预设特征的目标特征取值均相同或相符的待分类样本分类为正样本，将目标特征的第一特征取值与对应相同的预设特征的目标特征取值存在不相同或不相符的待分类样本分类为负样本，从而待分类样本有一个清楚准确的样本分类标准，使得待分类样本可以准确地进行分类。

进一步地，在本发明样本分类方法第二实施例中，基于上述图2所述的实施例，步骤S10之前还包括：

步骤S40，获取训练集的各个第二样本特征、训练集的各个训练样本的样本标签以及各个训练样本的各个样本特征的第二特征取值；

在对待分类样本进行检测分类之前，预先通过关系链网络等收集一批训练样本作为训练集，每个训练样本包含多个样本特征，不同训练样本之间的同一样本特征视为训练集的一个第二样本特征，然后根据第二样本特征确定各个预设特征以及各个预设特征的特征取值。首先根据具体业务需求定义负样本和正样本，例如，信贷业务中选取半年内连续三次逾期及以上的样本为负样本，其余为正样本。在根据具体业务需求定义负样本和正样本后，即可根据训练样本的样本特征确定各个训练样本的样本标签，即确定各个训练样本为正样本或负样本。

其中，第二样本特征，是指训练集的样本特征，即各个训练样本的样本特征，不同训练样本之间的同一样本特征即是一个第二样本特征；第二样本特征与第一样本特征指代的都是样本的样本特征，不同的是，第一样本特征指待分类样本的样本特征，第二样本特征指训练样本的样本特征。样本标签，是指识别训练样本为正样本与负样本的标识，如，贷前信用审批业务中选取半年内连续三次逾期及以上的样本为负样本，其余为正样本，则符合半年内连续三次逾期及以上的样本的样本标签为负样本，否则样本标签为正样本。第二特征取值，是指训练样本的样本特征的特征取值。

步骤S50，从各个所述第二样本特征中选取权重值大于预设数值的特征作为预设特征；

将训练集输入一个特征选取模型中，通过特征选取模型对各个第二样本特征进行分析，从各个第二样本特征中，筛选出重要性较高的样本特征作为预设特征。具体地，根据训练集的各个第二样本特征构造一个变量池，每个第二样本特征作为变量池的一个变量；然后通过随机森林确定变量池中各个变量的在随机森林中的权重值，即确定各个第二样本特征的权重值。第二样本特征的权重值确定后，从第二样本特征中选取权重值大于预设数值的样本特征作为预设特征。因为第二样本特征的权重值越高，第二样本特征用于区分正样本和负样本的能力越强，所以通过选取权重值较高的样本特征作为预设特征，使得后续样本分类设备对待分类样本进行分类时，可以基于预设特征选取待分类样本中区分正样本和负样本能力较强的样本特征对样本进行分类。其中，预设数值可以根据具体需求而设置，在本发明实施例中对预设数值的具体数值不作限制。

为方便理解，以下以一具体实施例进行说明。如图3所示，根据训练集的样本特征构造一个变量池，并根据具体业务需求定义训练集的负样本，然后通过随机森林从变量池的变量筛选出权重值大于0.05的变量；其中，权重值大于0.05只是本实施例列举的一个数值，不作为对本发明实施例的限制，变量池的变量筛选条件可以根据具体需求而设置。

步骤S60，根据样本分类设备的约束条件，确定各个所述预设特征的目标特征取值。

金融领域中，例如贷前信用审批业务，会选择一定比例的样本作为符合信用审批条件的样本通过，选择一定比例的样本作为不符合信用审批条件的样本拒绝，这里定义不符合信用审批条件的样本比例为拒绝率(即，拒绝率＝拒绝样本数/总样本数)。在实际根据信用审批条件利用样本分类设备对样本进行分类为正样本或负样本时，样本分类设备的分类准确率不可能达到百分百，样本分类设备可能会将一个实际为正样本的样本误判为负样本、将一个实际为负样本的样本误判为正样本。定义样本分类设备命中的负样本数与拒绝样本数的商为样本分类设备的命中率(即，命中率＝命中负样本数/拒绝样本数)，样本分类设备的命中率越大，证明样本分类设备区分正样本和负样本的准确率越高，样本分类设备分类能力越强。

在训练集中，拒绝率等于拒绝样本数与训练集的总样本数的商(即，拒绝率＝拒绝样本数/训练集的总样本数)。命中率等于命中训练集的负样本数与训练集的拒绝样本数的商(即，命中率＝命中训练集的负样本数/训练集的拒绝样本数)。为了使样本分类设备的命中率能达到一个业务能接受的最低水平，在采用训练集查找出预设特征的目标特征取值时，需要对样本分类设备设定一个约束条件，使得在采用样本分类设备对待分类样本进行分类时，样本分类设备的分类准确率能达到一定水平。具体地，定义样本分类设备命中负样本数与训练集的总负样本数为负样本占比(即，负样本占比＝命中负样本数/训练集的总负样本数)，给预设样本分类设备的负样本占比设定一个阈值。然后确定各个预设特征符合负样本占比阈值条件的所有特征取值，并获取业务要求的样本分类设备的拒绝率；最后，从每个预设特征的所有特征取值选取一个特征取值进行组合，得到多组特征取值组合；从多组特征取值组合中选取拒绝率与业务要求的拒绝率相符的待选组合，并从待选组合中选取命中率最高的特征取值组合，命中率最高的特征取值组合中的各个特征取值即是各个预设特征的目标特征取值。

其中，约束条件，是指为使样本分类设备的分类准确率能达到一定水平，在训练集训练时定义的负样本占比的阈值指标。目标特征取值，是指预设特征的所有可能特征取值中的一个特定特征取值。

如图3所示，在从变量池中筛选出重要性大于0.05的目标变量后，每个目标变量可能均有多个不同的变量取值，定义一个约束条件为负样本占比大于10％，而每个目标变量满足约束条件的变量取值就会被限定在一个取值空间内；同时定义优化目标为：根据业务的目标拒绝率，查找出符合目标拒绝率且命中率最大时目标变量的变量取值。通过网格搜索的方式，在该约束条件下从每个目标变量中选取一个变量取值进行组合形成多组变量组合，计算每个变量组合的拒绝率和命中率，并将每个变量组合及其拒绝率和命中率关联记录。最后根据业务的目标拒绝率，查找出符合目标拒绝率且命中率最大的各个目标变量的变量取值、命中率最大值。

在本实施例中，通过随机森林从训练集的所有样本特征中选择重要性较高的样本特征作为样本的分类特征，基于训练集选取的分类特征用于区分样本更加准确，使得样本分类更加地准确；并且避免了人为选定特征定义规则缺乏客观性，未经过获取多维度信息进行综合分析判断样本各个特征的重要性，更不能从样本的各个特征中选择重要性高的特征对样本进行好坏判断，达不到准确分类。为了使样本的分类准确率达到一定水平，通过样本分类设备的约束条件，确定各个预设特征的目标特征取值，后续采用目标特征取值作为标准，判断待分类样本的目标特征的是否符合目标特征取值来对待分类样本进行分类，使得在符合样本分类比例的同时、样本分类设备的分类准确率达到较高水平，从而提高了样本分类准确率。

进一步地，在本发明样本分类方法第三实施例中，基于上述图2所述的实施例，步骤S60包括：

步骤S61，根据样本分类设备的约束条件，确定各个所述预设特征的接受域；

具体地，定义样本分类设备命中负样本数与训练集的总负样本数为负样本占比(即，负样本占比＝命中负样本数/训练集的总负样本数)，给预设样本分类设备的负样本占比设定一个阈值，并将负样本占比大于该预设阈值作为样本分类设备的约束条件，每个预设特征在满足负样本占比阈值要求时，预设特征的特征取值就会被限定在一个取值空间内，从而得到各个预设特征的接受域。其中，接受域，是指预设特征在满足负样本占比阈值要求时的各个特征取值。

为了方便理解，以一具体实施例进行说明。例如，负样本占比大于10％，预设特征A的特征取值有a1、a2、a3、a4，预设特征B的特征取值有b1、b2、b3、b4、b5；训练集中a1的负样本占比为18％、a2的负样本占比为8％、a3的负样本占比为10％、a4的负样本占比为5％，则符合负样本占比大于10％的预设特征A的特征取值被限制为a1、a3，预设特征A的接受域为a1、a3。训练集中b1的负样本占比为10％、b2的负样本占比为8％、b3的负样本占比为12％、b4的负样本占比为15％、b5的负样本占比为5％，则符合负样本占比大于10％的预设特征B的特征取值被限制为b1、b3、b4，预设特征B的接受域为b1、b3、b4。

步骤S62，根据每个所述预设特征的接受域，穷举每个所述预设特征的各个变量取值；

具体地，在确定每个预设特征的接受域后，穷举每个预设特征的接受域内的每个变量取值。其中，变量取值，是指预设特征的接受域内的特征取值。

为方便理解，接以上步骤S61的例子继续说明。例如，预设特征A的接受域为a1、a3，预设特征B的接受域为b1、b3、b4，穷举每个预设特征的各个变量取值，即是将预设特征A的特征取值a1、a3列举出来，将预设特征B的特征取值b1、b3、b4列举出来。

步骤S63，从所述变量取值中获取各个所述预设特征的最优取值，以作为各个所述预设特征的目标特征取值。

具体地，从每个预设特征的各个变量取值中选取一个最优变量取值作为预设特征的目标特征取值。为方便理解，接以上步骤S62的例子继续说明。例如，从预设特征A的特征取值a1、a3中选取负样本占比最高的特征取值a1作为预设特征A的目标特征取值；从预设特征B的特征取值b1、b3、b4中选取负样本占比最高的特征取值b4作为预设特征B的目标特征取值。

在本实施例中，通过对样本分类设备设定一个约束条件，使得在符合样本分类比例的同时、样本分类设备的分类准确率能达到需求值；并在约束条件下确定预设特征的接受域，并在预设特征的接受域查找出预设特征的最优取值作为预设特征的目标特征取值；依据约束条件确定目标特征取值，使得样本分类设备的分类准确率能满足需求，从而提高了待分类样本的分类准确率。

进一步地，从所述变量取值中获取各个所述预设特征的最优取值的步骤包括：

步骤A1，从每个所述预设特征的各个变量取值中选取一个所述变量取值进行组合，得到各个变量组合；

具体地，从每个预设特征的各个变量取值中选取一个所述变量取值进行组合，得到多个变量组合；其中，变量组合的个数为各个预设特征的变量取值个数的乘积。变量组合，是指从每个预设特征的各个变量取值中选取一个变量取值进行组合后，得到的各个预设特征的变量取值的组合。

为方便理解，接以上步骤S63的例子继续说明。例如，分别从预设特征A的特征取值a1、a3中选取一个变量取值，预设特征B的特征取值b1、b3、b4中选取一个变量取值进行组合，从而得到2×3个变量组合，得到的各个变量组合分别为：变量组合1，特征取值a1、特征取值b1；变量组合2，特征取值a1、特征取值b3；变量组合3，特征取值a1、特征取值b4；变量组合4，特征取值a2、特征取值b1；变量组合5，特征取值a2、特征取值b3；变量组合6，特征取值a2、特征取值b4。

步骤A2，根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率，并将所述变量组合、所述拒绝率和所述命中率关联存储得到预设关系表；

具体地，每个变量组合的拒绝率和命中率的计算方式为：确定训练集中各个第二特征取值与变量组合相符的目标训练样本，并计算出目标训练样本的个数、训练集的样本个数；并计算出目标训练样本中的样本标签为负样本的样本个数，最后将根据目标训练样本个数与训练集的样本个数之比作为变量组合的拒绝率、目标训练样本中的负样本数与目标训练样本的个数之比作为变量组合的命中率。每计算出一个变量组合的拒绝率和命中率，就将该变量组合与其拒绝率和命中率关联存储，最终得到一个记录各个变量组合及各个变量组合的拒绝率和命中率的预设关系表。

其中，变量组合的拒绝率，是指目标训练样本个数与训练集的样本个数之比。变量组合的命中率，是指目标训练样本中的负样本数与目标训练样本的个数之比。

如图4所示，左半部分为在根据各个预设特征的接受域，从每个预设特征的各个变量取值中选取一个变量取值进行组合，得到各个不同变量组合，不同变量组合命中负样本数、不同变量组合的拒绝率和命中率的变化示意图。

为了方便理解，接以上步骤A1的例子继续说明。例如，训练集的100个训练样本中预设特征A符合变量组合1的特征取值a1、且预设特征B符合变量组合1的特征取值b1训练样本个数为20，其中，符合变量组合1的特征取值的训练样本中负样本个数为10，则变量组合1的拒绝率为10/100＝10％、变量组合1的命中率为10/20＝50％；变量组合2至变量组合6的命中率与拒绝率计算同理，在此不再赘述。

进一步地，根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率的步骤包括：

步骤B1，确定训练集中各个所述第二特征取值与所述变量组合相符的目标训练样本；

具体地，每个变量组合的目标训练样本的确定方式为：将训练集中每个训练样本各个预设特征的特征取值分别与变量组合的每个变量取值进行对比，若训练样本各个预设样本的特征取值分别与变量组合的每个变量取值均相符，则各个预设样本的特征取值分别与变量组合的每个变量取值均相符的训练样本视为该变量组合的目标训练样本。同理，得出各个变量组合的目标训练样本。

步骤B2，将所述目标训练样本的个数与所述训练集的样本个数之比作为所述变量组合的拒绝率；

具体地，每个变量组合的拒绝率的计算方式为：计算变量组合的目标训练样本的个数、以及训练集的样本个数，将目标训练样本的个数与训练集的样本个数之比作为变量组合的拒绝率。同理，得出各个变量组合的拒绝率。

步骤B3，基于所述样本标签确定目标训练样本中的负样本数，并将所述负样本数与所述目标训练样本的个数之比作为所述变量组合的命中率。

具体地，每个变量组合的命中率的计算方式为：计算出该变量组合的目标训练样本中样本标签为负样本的样本个数，计算变量组合的目标训练样本的个数、以及训练集的样本个数，将目标训练样本中的负样本数与目标训练样本的个数之比作为变量组合的命中率。同理，得出各个变量组合的命中率。

在本实施例中，通过查找出第二特征取值与变量组合相符的目标训练样本、基于样本标签确定目标训练样本中的负样本数，并将目标训练样本的个数与训练集的样本个数之比作为变量组合的拒绝率、将负样本数与目标训练样本的个数之比作为变量组合的命中率，使得样本分类设备的拒绝率可以计算并控制，从而使得样本分类设备的拒绝率能达到业务需求值；通过确定变量组合拒绝率和命中率，为进一步查找符合目标拒绝率且命中率最高的变量组合提供了准确的数据。

步骤A3，获取待分类样本的目标拒绝率，并根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合；

具体地，获取业务对待分类样本的目标拒绝率，遍历预设关系表，找出拒绝率与目标拒绝率相符的各个待选变量组合。从各个待选变量组合中选取命中率最高的变量组合，以作为目标变量组合。其中，目标拒绝率，是指业务要求在对待分类样本进行分类时，不符合条件的样本比例，即业务对负样本的比例要求。目标变量组合，是指拒绝率与目标拒绝率相符、且命中率最高的变量组合。

进一步地，根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合的步骤包括：

步骤C1，遍历所述预设关系表，找出拒绝率与所述目标拒绝率相同的各个待选变量组合；

具体地，预设关系表中记录各个变量组合，以及各个变量组合的拒绝率和命中率，在获取业务对待分类样本的目标拒绝率后，遍历预设关系表中的各个拒绝率，找出拒绝率与目标拒绝率相符的所有变量组合，作为待选变量组合。其中待选变量组合，是指预设关系表中拒绝率与目标拒绝率相符的所有变量组合。

步骤C2，从所述各个待选变量组合中选取所述命中率最高的变量组合，以作为目标变量组合。

具体地，对照各个待选变量组合在预设关系表记录的命中率，从各个待选变量组合中选取预设关系表记录的命中率最高的变量组合，作为目标变量组合。

在本实施例中，变量组合的命中率越高证明样本分类设备的分类能力越强，通过找出符合目标拒绝率中命中率最高的变量组合作为各个预设特征的变量取值，从而实现进一步提高样本分类设备的分类准确率，从而提高了样本分类的准确率。

步骤A4，根据所述目标变量组合，确定各个所述预设特征的最优取值。

具体地，从多个变量组合选出符合业务要求的目标拒绝率、且命中率最高的目标变量组合，即是各个预设特征的特征取值的组合，将目标变量组合的每个特征取值分别作为各个预设特征的最优取值。

在本实施例中，通过将各个预设特征接受域内的各个变量取值进行组合得到多个变量组合，然后从各个变量组合中选取符合目标拒绝率且命中率最高的目标变量组合，并将目标变量组合的各个变量取值作为各个预设特征的目标特征取值，符合目标特征取值的样本为正样本的比例更高；使得后续对样本进行分类时，在符合样本分类比例的同时，使得样本分类的命中各类样本的比例更高。

此外，本发明实施例还提出一种样本分类装置，所述样本分类装置包括：

优选地，所述分类模块还用于：

优选地，所述样本分类装置还包括：

优选地，所述特征取值确定模块还包括：

优选地，所述特征取值确定子模块还包括：

优选地，所述记录模块还包括：

优选地，所述变量组合确定模块还包括：

本发明样本分类装置具体实施方式与上述样本分类方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种可读存储介质，所述可读存储介质上存储有样本分类程序，所述样本分类程序被处理器执行时实现如上所述的样本分类方法的步骤。

本发明可读存储介质具体实施方式可以参照上述样本分类方法各实施例，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种样本分类方法，其特征在于，所述样本分类方法包括：

2.如权利要求1所述的样本分类方法，其特征在于，所述根据所述目标特征、所述第一特征取值和所述目标特征取值，确定所述待分类样本为负样本或正样本的步骤包括：

3.如权利要求1或2所述的样本分类方法，其特征在于，所述获取待分类样本的各个第一样本特征、所述第一样本特征的第一特征取值、样本分类设备的各个预设特征以及所述预设特征的目标特征取值的步骤之前还包括：

4.如权利要求3所述的样本分类方法，其特征在于，所述根据样本分类设备的约束条件，确定各个所述预设特征的目标特征取值的步骤包括：

5.如权利要求4所述的样本分类方法，其特征在于，所述从所述变量取值中获取各个所述预设特征的最优取值的步骤包括：

6.如权利要求5所述的样本分类方法，其特征在于，所述根据所述样本标签和所述第二特征取值，确定每个所述变量组合的拒绝率和命中率的步骤包括：

7.如权利要求5所述的样本分类方法，其特征在于，所述根据所述目标拒绝率从所述预设关系表获取所述命中率最高的目标变量组合的步骤包括：

8.一种样本分类装置，其特征在于，所述样本分类装置包括：

9.如权利要求8所述的样本分类装置，其特征在于，所述分类模块还用于：

10.如权利要求8或9所述的样本分类装置，其特征在于，所述样本分类装置还包括：

11.如权利要求10所述的样本分类装置，其特征在于，所述特征取值确定模块还包括：

12.如权利要求11所述的样本分类装置，其特征在于，所述特征取值确定子模块还包括：

13.如权利要求12所述的样本分类方法，其特征在于，所述记录模块还包括：

14.如权利要求12所述的样本分类装置，其特征在于，所述变量组合确定模块还包括：

15.一种样本分类设备，其特征在于，所述样本分类设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本分类程序，所述样本分类程序被所述处理器执行时实现如权利要求1至7中任一项所述的样本分类方法的步骤。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储有样本分类程序，所述样本分类程序被处理器执行时实现如权利要求1至7中任一项所述的样本分类方法的步骤。