CN106934413B

CN106934413B - 模型训练方法、装置及系统以及样本集优化方法、装置

Info

Publication number: CN106934413B
Application number: CN201511032578.6A
Authority: CN
Inventors: 杜玮; 张柯; 王晓光; 谢树坤; 程孟力
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2020-10-13
Anticipated expiration: 2035-12-31
Also published as: CN106934413A

Abstract

本申请公开一种基于优化样本集的模型训练方法及装置，用于优化样本的特征值，改善训练后的模型的性能。该方法包括：获取样本集；针对每个样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集；根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并得到最终特征区间集；根据所述最终特征区间集，以及所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；根据所述优化样本集进行模型训练。本申请还公开一种样本集的优化方法及装置，以及一种个人信用模型训练系统。

Description

模型训练方法、装置及系统以及样本集优化方法、装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种基于优化样本集的模型训练方法及装置、一种样本集的优化方法及装置以及一种个人信用模型训练系统。

背景技术

随着大数据时代的到来，可以根据历史数据以及历史数据对应的结果进行分析，从而预测未来可能发生的事。比如，根据历史数据以及对应的结果生成至少包含正负两种样本的样本集，根据样本集中每个样本的特征以及对应的特征值训练特定的模型。当训练后的模型接收到现有样本的特征和特征值时，就可以预测现有样本对应的结果。具体比如，根据癌症患者与健康人的历史数据(包括：病历、饮食、作息等等)生成包含正样本(癌症患者)和负样本(健康人)的样本集，每个样本都有若干特征以及对应的特征值，根据样本集训练癌症预测模型，当癌症预测模型接收到疑似癌症患者的历史数据时，就可以预测出患癌症的可能性，从而及早治疗，这里的“历史数据的结果”就可以是样本的属性。

如前段所述，训练模型时会根据样本属性以及特征值进行训练，由于属性是一定的(如对于二类样本而言只有正负两种)，特征值就对模型有直接的影响，如果特征值存在过多“脏”数据、或“异常”数据，就会影响模型训练的效果。在实际应用中，针对所有样本的同一个特征的特征值而言，可能会跨度很大，比如，身高数据，110CM也有，220CM也有，又如月收入数据，更是跨度很大。所以，可以对同一特征的所有特征值进行离散化处理，使得每个样本都有相对一致的特征值，过滤掉特征值中的“脏”数据，减少“异常”数据对模型训练的影响。

现有技术，是利用分位点对特征值进行离散化处理，比如，等频率离散化处理。具体地，就是将同一特征的所有特征值进行排序，从排序后的特征值中以相同间隔选取若干分位点，利用分位点确定出包含若干个特征区间的特征区间集，将样本特征值所属区间置为1，非所述区间置为0，最终，所有特征区间以及对应的特征区间值(1或0)，就是每个样本在该特征下的所有特征值。

但是，现有技术在根据分位点进行离散化时，如果分位点太少(即离散后的特征值较少)，显然缺乏特殊性；如果分位点太多(即离散后的特征值较多)，就可能出现有某两个特征区间对样本属性的影响是相同的情况，从而导致样本的某个特征下有多余的特征值，不仅浪费了后续在训练过程中的计算资源，也会对模型训练造成干扰，进而有可能影响模型的性能。

发明内容

本申请实施例提供一种基于优化样本集的模型训练方法，用于优化样本的特征值，改善训练后的模型的性能。

本申请实施例提供一种基于优化样本集的模型训练装置，用于优化样本的特征值，改善训练后的模型的性能。

本申请实施例提供一种样本集的优化方法，用于对样本集中的特征值进行优化。

本申请实施例提供一种样本集的优化装置，用于对样本集中的特征值进行优化。

本申请实施例提供一种个人信用模型训练系统，用于改善训练后的模型的性能。

本申请实施例采用下述技术方案：

一种基于优化样本集的模型训练方法，包括：

获取样本集，所述样本集中包含至少两种不同样本属性的样本；

针对所述样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，所述最终特征区间集中包含的特征区间个数不大于所述初始特征区间集中包含的个数；

根据所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；

根据所述优化样本集进行模型训练。

一种基于优化样本集的模型训练装置，包括：获取单元、确定单元、合并单元、生成单元以及训练单元，其中，

所述获取单元，用于获取样本集，所述样本集中包含至少两种不同样本属性的样本；

所述确定单元，用于针对所述样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

所述合并单元，用于根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，所述最终特征区间集中包含的特征区间个数不大于所述初始特征区间集中包含的个数；

所述生成单元，用于根据所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；

所述训练单元，用于根据所述优化样本集进行模型训练。

一种样本集的优化方法，包括：

根据所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集。

一种样本集的优化装置，包括：确定单元、合并单元以及生成单元，其中，所述确定单元，用于针对所述样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

所述生成单元，用于根据所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集。

一种个人信用模型训练系统，包括：原始个人信用建立系统、样本优化系统、信用模型训练系统，其中，

所述原始个人信用建立系统，用于根据用户对应的特征和特征值，建立原始个人信用样本集；

所述样本优化系统，用于利用样本集的优化方法，对原始个人信用样本集进行优化，生成优化样本集；

所述信用模型训练系统，用于根据优化样本集训练信用模型。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：在对样本集中每个样本都具有的某个特征的特征值利用分位点划分为多个特征区间后，根据相邻的特征区间与样本属性的相关程度的差异，进行合并或保留，从而使得最终保留的相邻特征区间与样本属性都有较大差异，对比现有技术仅以划分后的多个特征区间作为最终的特征区间集的方法，达到了优化样本集的目的，在一定程度上解决了现有技术由于特征区间过多，且有可能某几个特征区间对于样本属性的影响相似，而导致的不仅浪费了训练过程中的计算资源，也对模型训练造成干扰的问题，进而改善模型的性能。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例1提供的一种基于优化样本特征值的模型训练方法的流程示意图；

图2为本申请实施例1提供的生成最终特征区间集的流程示意图；

图3为本申请实施例1提供的生成最终特征区间集的流程示意图；

图4为本申请实施例1提供的目标属性样本与特征区间关系的示意图；

图5为本申请实施例1提供的目标属性样本与特征区间关系的示意图；

图6为本申请实施例2提供的基于优化样本集的模型训练装置的结构框图；

图7为本申请实施例3提供的一种样本集的优化方法的流程示意图；

图8为本申请实施例4提供的一种样本集的优化装置的结构框图；

图9为本申请实施例5提供一种基于优化样本集的信用模型训练方法的流程示意图；

图10为本申请实施例6提供的一种个人信用模型训练系统的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在进行本申请的技术方案的详细介绍之前，为了明确起见，这里先对几个术语作简要说明。在本申请实施例中将涉及样本集，负样本和正样本，特征和特征值，以及样本空间。对于二类样本来说，样本集中包含正样本和负样本，每个样本表示一个对象。比如，当需要建立健康人群与癌症患者的样本集时，每个人就是一个样本，健康的人是负样本，癌症患者就是正样本，这里的负样本就是代表多数类样本，正样本代表少数类样本。每个样本都有自己的特征和特征值，比如一个胃癌患者正样本中，会有高血压病史：5年，“高血压病史”就是特征，“5年”就是特征值。每个样本会有多维度的特征和特征值，可以根据多维度的特征和特征值建立多维度的样本空间，根据每个维度的特征值将每个样本放置在样本空间的某个位置中。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

如前所述，特征值就对模型有直接的影响，如果特征值存在过多“脏”数据、或“异常”数据，就会影响模型训练的效果。现有技术利用分位点对特征值进行离散化处理，比如，对于月收入这个特征，有100个样本，分别对应了100个月收入的数额，将这100个数额进行升序排列，按照等频率确定方法，从中选出9个分位点(排在第10的数额、排在第20的数额……排在第90的数额)，接着就可以根据这9个分位点，确定出10个月收入区间：[排在第1的数额，排在第10的数额]、[排在第11的数额，排在第20的数额]……[排在第91的数额，排在第100的数额]，这样，每个样本的月收入特征下，都有10个特征区间，并且每个区间对应一个特征值，比如在这100个样本中，某个样本的月收入为第15位，那么该样本在[排在第11的数额，排在第20的数额]这个特征区间的值为1，其它值为0。但是，在这些月收入区间中，可能会存在对逾期或非逾期的影响是相同的，比如，[排在第81的数额，排在第90的数额]与[排在第91的数额，排在第100的数额]，这两个特征区间，由于在现实生活中，收入较高，所以极少会出现信用卡逾期，所以这两个收入区间内的人与是否出现信用卡逾期的关系基本相似，所以就没有再出现两个区间。作为延伸，在患病样本、天气样本、自然灾害样本中，都可能出现两个特征区间与样本属性具有相似的相关性。对于这样的情况，每个样本的多维特征中，都出现过多的、用处不大的特征区间，那么不仅在训练模型过程中对计算资源的浪费，也会对模型训练过程造成干扰，从而有可能影响模型的性能。基于此缺陷，本发明人提出了一种基于优化样本特征值的模型训练方法，用于优化样本的特征值，提高训练后的模型的性能。该方法的流程示意图如图1所示，包括下述步骤：

步骤11：获取样本集。

由于本申请是要对样本集中样本的特征对应的特征值进行优化，所以要先获取到样本集，样本集中有多个样本，每个样本中包含该样本的属性，该样本的特征以及对应的特征值。由于根据样本集训练模型的意义在于后续通过样本特征以及特征值，预测样本的属性，所以在训练时，就需要有不同属性的样本，所以样本集中可以包含至少两种不同样本属性的样本。比如正负两样样本，也可以是一类二类三类这三种样本。

步骤12：针对样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于该特征的初始特征区间集。

根据步骤11中获取到的样本集，在该步骤中，利用分位点，确定初始特征区间集。具体地，同一特征可以是指每个样本集中都存在的特征，比如，对于一个样本集，每个都有月收入这个特征，那么月收入就是针对每个样本的同一特征，如果有n个样本，就会有n个特征值。在得到n个特征值后，可以将n个特征值进行排序(升或降)，并确定出若干分位点，根据分位点，为n个特征值分出若干个特征区间，形成初始的特征区间集合(简称特征区间集)。分位点的个数至少为1个，也就是至少分出2个特征区间。

其中，分位点地确定方法可以是根据排序结果进行随机确定，也可以按照相同的间隔，等频率确定。

比如，如本实施例开头的举例，对于月收入这个特征，有100个样本，确定出10个月收入区间：[排在第1的数额，排在第10的数额]、[排在第11的数额，排在第20的数额]……[排在第91的数额，排在第100的数额]。

步骤13：根据初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集。

初始区间集中的各个特征区间都会与样本属性存在相关性，比如，对于某类病的患者，高血压病史会与病患存在相关性，月收入可能会与信用卡及时还款存在相关性，但是有的特征区间与相邻区间对样本属性的相关性是一致的，比如，高血压7-8年和高血压8-9年与病患存在的相关性一致，所以就可以将这两个特征区间进行合并。

具体地，每个特征区间都与样本属性有一定的相关程度，如果相邻两个特征区间与样本属性的相关程度相似，就认为可以进行合并，相似的依据就是差异很小，比如，可以以数值的形式来体现差异。所以，在一种实施方式中，该步骤13可以包括如图2的下述子步骤：

子步骤1311：根据每个样本在初始特征区集中各个特征区间的所属情况以及每个样本的属性，确定初始特征区集中各个特征区间与样本属性的相关系数。

针对相关系数，可以通过下述公式确定：

其中，R可以是特征区间对于样本属性的相关系数，i为样本的序号，j为特征区间的序号，x_ij为第i个样本在第j个特征区间的值，y_j为第j个样本的属性值，

为所有x_ij值的平均值，

为所有y_j值的平均值，x、y均为正整数。

比如，以本实施例开头的“月收入”为例，R就可以是月收入区间对于不同样本属性的相关系数，具体比如，[排在第11的数额，排在第20的数额]对于信用卡逾期的相关系数，[排在第31的数额，排在第40的数额]对于信用卡非逾期的相关系数。

对于x的取值问题：当样本属于某个特征区间时x值可以为1(或0)，当样本不属于某个特征区间时x值可以为0(或1)；

对于y的取值问题：对于二类样本而言，当样本属性为正时，y值可以为1(或0)，当样本属性为负时，y值可以为0(或1)，正负仅代表对立，也可以是左右、前后等相对关系。对于多类样本而言，第一类样本属性值可以为1、第n类样本属性值可以为n，等。

需要说明的是，对于x、y的值均是相对的，是为了区分之间的关系，比如，也可以当样本属于某个特征区间时x值为10，否则(不属于)x值为5等等。

在实际应用中，对于R的算法，还可以在上述公式的基础上，添加相关比值p，即：

其中，p可以根据实际应用来设定，如1.1、1.2等。

子步骤1312：根据初始特征区集中各个特征区间与样本属性的相关系数，确定初始特征区集中相邻特征区间与样本属性的相关系数的差值。

如前所述，相似的依据就是差异很小，所以在上一个子步骤确定出每个特征区间与样本属性的相关系数后，就可以根据相关系数的差值判断差异，具体地，可以利用差值，即R_j+1-R_j，当差值很小时，就可以认为这两个特征区间与样本属性的相关性比较一致。

在实际应用中，R可能会出现负值，所以，相关系数的差值，也可以扩展为相关系数的差值的绝对值，即|R_j+1-R_j|，或扩展为相关系数的差值的平方值，即(R_j+1-R_j)²，等。

前文介绍，对于相关性相似比较一致，可以根据差值很小来判断，可以预先设置合并阈值，比如0.3，或0.1等，所以，

子步骤1313：判断差值是否小于预设合并阈值。

具体地，当差值(或绝对值)小于预设合并阈值时，可以确定对相邻特征区间进行合并；当差值(或绝对值)不小于预设合并阈值时，可以确定保留相邻的各个特征区间。

子步骤1314：根据确定出的合并结果，生成最终特征区间集。

在上一个子步骤中，确定出了合并的结果，在该步骤中，可以对特征区间进行合并或保留，从而生成最终特征区间集，最终特征区间集中包含的特征区间的个数应不大于初始特征区间集中包含的特征区间的个数。

比如，以本实施例开头的“月收入”为例。初始特征区间集中包含10个月收入区间，最终特征区间集中就可能包含7个月收入区间，说明有3个特征区间与相邻的特征区间对于样本属性的影响相似。

在子步骤1311至子步骤1314介绍了通过数值来合并特征区间的具体方式，然而在实际应用中，合并特征区间的过程，可以认为是通过多次合并而生成最终特征区间集的，所以，在一种实施方式中，初始特征区间集为第m特征区间集时，该步骤13可以包括如图3的下述子步骤：

子步骤1321：根据每个样本在第m特征区间集中各个特征区间的所属情况以及每个样本的属性，确定第m特征区间集中各个特征区间与样本属性的相关程度。

具体地，已经介绍前提是初始特征区间集为第m特征区间集，比如此时m可以是1，那么始特征区间集就是第一特征区间集，然后可以通过步骤1311中的方式来确定第1特征区间集中各个特征区间与样本属性的相关程度。

子步骤1322：根据第m特征区间集中各个特征区间与样本属性的相关程度，确定第m特征区间集中相邻特征区间与样本属性的相关程度的差异。

该步骤中，也可以根据子步骤1312介绍的方法确定差异，不再赘述。

子步骤1323：根据第m特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对第m特征区间集中相邻特征区间进行合并。

类似的，依旧与子步骤1313相似，也可以预先设定合并条件，具体地，

当第m特征区间集中相邻特征区间与样本属性的相关程度的差异满足合并条件时，可以确定对相邻特征区间进行合并；

当第m特征区间集中相邻特征区间与样本属性的相关程度的差异不满足合并条件时，可以确定保留相邻的各个特征区间。

子步骤1324：根据确定出的合并结果，生成第m+1特征区间集。

该步骤中，与子步骤1314类似地，生成第m+1特征区间集，如果m＝1，那么就可以是生成第2特征区间集。第2特征区间集中包含的特征区间的个数也是不大于第1特征区间集中包含的特征区间的个数的。

子步骤1325：判断第m特征区间集与第m+1特征区间集是否一致。

在介绍1321前就已经提到，在实际应用中，合并特征区间的过程，可以认为是通过多次合并而生成最终特征区间集的，由于在上一个子步骤中生成了第m+1特征区间集，所以就可以判断第m特征区间集与第m+1特征区间集是否一致，来确定是否第m+1特征区间集中包含的每个特征区间与相邻特征区间对于样本属性的影响都是比较大的。

具体地，当一致时，可以根据第m+1特征区间集生成最终特征区间集。即此时就认为第m+1特征区间集中包含的每个特征区间与相邻特征区间对于样本属性的影响都比较大。

当不一致时，可以重复执行根据每个样本在第m+1特征区间集中各个特征区间的所属情况以及每个样本的属性，确定第m+1特征区间集中各个特征区间与样本属性的相关程度。也就是重复执行子步骤1321至子步骤1325。

在实际应用中，如果某个特征的特征值，与样本属性的数量呈线性，对于模型训练而言就是比较理想的，比如，月入越低信用卡逾期的比重越高，高血压病史越久患某种病的几率越高等。如果是非线性关系，就不那么好确定与样本属性的关系。所以当某个特征的特征值与样本属性呈线性关系时，就可以不用本申请的方法进行离散化，而是可以直接进行归一化处理，比如某个特征被9个分位点分为10个特征区间，特征如果落在第一个区间中时，就设为0.1，第二个区间就设为0.2，以此类推，第10个区间的值就设为1，这样做归一化处理的好处是既使所有特征的值都落在了0到1之间，又处理了数据中存在的一些极大或极小的“脏”数据，特征值的分布相对均匀，有利于模型的训练。

如果某个特征的特征值，与样本属性的数量呈非线性，那么就可以利用本申请，将特征值分成若干特征区间，从而在训练模型时，利用特征区间作为样本属性判断的依据。所以，在一种实施方式中，步骤13可以包括：

判断目标属性样本在初始特征区间集中各个特征区间的比例与特征区间的正或逆排序是否为单调关系；

当不是单调关系时，根据初始区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并得到最终特征区间集。

具体地，目标属性样本可以是样本集中的一种样本属性，比如，对于逾期和非逾期这个二类样本而言，目标属性样本可以是负样本(即逾期样本)。比如，在某个特征区间内，负样本占所有样本的40％，40％就是目标属性样本在初始特征区间集中某个特征区间的比例，如图4所示，这个比例如果与特征区间的升序或降序为单调关系时，就说明特征值与样本属性的数量呈线性，就可以进行上文提到的归一化处理。如果图5所示为不是单调关系，就可以执行步骤13中的操作。其中，图4和图5，横坐标为初始特征区间集中每个特征区间的序号，比如第1个特征区间，第3个特征区间等，纵坐标为在某个特征区间内负样本占正负样本之和的比例。

步骤14：根据每个样本在最终特征区间集中各个特征区间的所属情况，生成优化样本集。

在子步骤1311中已经介绍了x、y的取值问题，类似的，在本步骤中，可以根据每个样本在最终特征区间集中各个特征区间的所属情况，进行赋值。比如，还以“月收入”为例，初始特征区间集中有10个特征区间，最终特征区间被合并为了4个区间，即[排在第1的数额，排在第40的数额]、[排在第41的数额，排在第50的数额]、[排在第51的数额，排在第70的数额]、[排在第71的数额，排在第100的数额]，对于一个样本而言，在所述特征区间内的值为1，其它特征区间内的值为0。

在实际应用中，可以对样本集中所有样本的每个特征都进行本申请的操作。从而达到优化样本特征值的目的。最终生成优化样本集。

步骤15：根据优化样本集进行模型训练。

在步骤14中已经生成了优化样本集，本步骤中，就可以根据优化样本集进行模型训练，由于模型训练过程不是本申请重点，所以不再详细介绍。

采用实施例1提供的该方法，在对样本集中每个样本都具有的某个特征的特征值利用分位点划分为多个特征区间后，根据相邻的特征区间与样本属性的相关程度的差异，进行合并或保留，从而使得最终保留的相邻特征区间与样本属性都有较大差异，对比现有技术仅以划分后的多个特征区间作为最终的特征区间集的方法，达到了优化样本集的目的，在一定程度上解决了现有技术由于特征区间过多，且有可能某几个特征区间对于样本属性的影响相似，而导致的不仅浪费了训练过程中的计算资源，也对模型训练造成干扰的问题，进而改善模型的性能。

实施例2

基于相同的发明构思，实施例2提供了一种基于优化样本集的模型训练装置，用于优化样本的特征值，改善训练后的模型的性能。图6为该装置的结构框图，该装置包括：获取单元21、确定单元22、合并单元23、生成单元24以及训练单元25，其中，

所述获取单元21，可以用于获取样本集，所述样本集中包含至少两种不同样本属性的样本；

所述确定单元22，可以用于针对所述样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

所述合并单元23，可以用于根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，所述最终特征区间集中包含的特征区间个数不大于所述初始特征区间集中包含的个数；

所述生成单元24，可以用于根据所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；

所述训练单元25，可以用于根据所述优化样本集进行模型训练。

在一种实施方式中，所述初始特征区间集为第m特征区间集，则所述合并单元23，可以用于：

根据每个样本在第m特征区间集中各个特征区间的所属情况以及每个样本的属性，确定第m特征区间集中各个特征区间与样本属性的相关程度；

根据第m特征区间集中各个特征区间与样本属性的相关程度，确定第m特征区间集中相邻特征区间与样本属性的相关程度的差异；

根据第m特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对第m特征区间集中相邻特征区间进行合并；

根据确定出的合并结果，生成第m+1特征区间集；

判断第m特征区间集与第m+1特征区间集是否一致；

当一致时，根据第m+1特征区间集生成最终特征区间集。

在一种实施方式中，所述合并单元，还可以用于：

当不一致时，重复执行根据所述每个样本在第m+1特征区间集中各个特征区间的所属情况以及所述每个样本的属性，确定第m+1特征区间集中各个特征区间与样本属性的相关程度。

在一种实施方式中，所述合并单元23，可以用于：

当第m特征区间集中相邻特征区间与样本属性的相关程度的差异满足合并条件时，确定对相邻特征区间进行合并；

当第m特征区间集中相邻特征区间与样本属性的相关程度的差异不满足合并条件时，确定保留相邻的各个特征区间；

在一种实施方式中，所述合并单元23，可以用于：

根据所述每个样本在初始特征区集中各个特征区间的所属情况以及所述每个样本的属性，确定初始特征区集中各个特征区间与样本属性的相关系数；

根据初始特征区集中各个特征区间与样本属性的相关系数，确定初始特征区集中相邻特征区间与样本属性的相关系数的差值；

当所述差值小于预设合并阈值时，确定对相邻特征区间进行合并；

当所述差值不小于预设合并阈值时，确定保留相邻的各个特征区间。

根据确定出的合并结果，生成最终特征区间集。

在一种实施方式中，每个特征区间与样本属性的相关系数可以按照下述公式确定：

其中，R为特征区间对于样本属性的相关系数，i为样本的序号，j为特征区间的序号，x_ij为第i个样本在第j个特征区间的值，y_j为第j个样本的属性值，

为所有x_ij值的平均值，

为所有y_j值的平均值，x、y均为正整数。

在一种实施方式中，所述合并单元23，可以用于：

当不是单调关系时，根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集。

采用实施例2提供的该装置，在对样本集中每个样本都具有的某个特征的特征值利用分位点划分为多个特征区间后，根据相邻的特征区间与样本属性的相关程度的差异，进行合并或保留，从而使得最终保留的相邻特征区间与样本属性都有较大差异，对比现有技术仅以划分后的多个特征区间作为最终的特征区间集的方法，达到了优化样本集的目的，在一定程度上解决了现有技术由于特征区间过多，且有可能某几个特征区间对于样本属性的影响相似，而导致的不仅浪费了训练过程中的计算资源，也对模型训练造成干扰的问题，进而改善模型的性能。

实施例3

如前所述，特征值就对模型有直接的影响，如果特征值存在过多“脏”数据、或“异常”数据，就会影响模型训练的效果，实施例1详细介绍了模型训练的过程，但其中的重点就是如何对样本集进行优化，所以基于与实施例1相同的发明思路，本实施例提供了一种样本集的优化方法，用于对样本集中的特征值进行优化。该方法的流程示意图如图7所示，包括下述步骤：

步骤31：针对样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于该特征的初始特征区间集。

该步骤与实施例1中步骤12相似，此处不再赘述，分位点数量至少为1，初始特征区间集中包含至少2个特征区间。

步骤32：根据初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集。

该步骤与实施例1中步骤13相似，此处不再赘述，最终特征区间集中包含的特征区间个数不大于初始特征区间集中包含的个数。

步骤33：根据每个样本在最终特征区间集中各个特征区间的所属情况，生成优化样本集。

该步骤与实施例1中步骤14相似，此处不再赘述。

采用实施例3提供的该方法，在对样本集中每个样本都具有的某个特征的特征值利用分位点划分为多个特征区间后，根据相邻的特征区间与样本属性的相关程度的差异，进行合并或保留，从而使得最终保留的相邻特征区间与样本属性都有较大差异，对比现有技术仅以划分后的多个特征区间作为最终的特征区间集的方法，达到了优化样本集的目的。

实施例4

基于相同的发明构思，实施例4提供了一种样本集的优化装置，用于对样本集中的特征值进行优化。图7为该装置的结构框图，该装置包括：确定单元41、合并单元42以及生成单元43，其中，

确定单元41，可以用于针对所述样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

合并单元42，可以用于根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，所述最终特征区间集中包含的特征区间个数不大于所述初始特征区间集中包含的个数；

生成单元43，可以用于根据所述每个样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集。

采用实施例4提供的该装置，在对样本集中每个样本都具有的某个特征的特征值利用分位点划分为多个特征区间后，根据相邻的特征区间与样本属性的相关程度的差异，进行合并或保留，从而使得最终保留的相邻特征区间与样本属性都有较大差异，对比现有技术仅以划分后的多个特征区间作为最终的特征区间集的方法，达到了优化样本集的目的。

实施例5

随着个人征信体系的发展，可以为每个人建立“信用档案”，信用档案中包括用户的历史信用信息，比如，多维度的与信用有关的数据(年龄、教育、个人档案、工作、工资收入等)。通过对历史信用信息的分析，就可以预测出未来这个人是否可信。然而在建立样本集后，某些特征而言，所有样本的所有特征值会跨度很大，如月收入，所以可以利用分位点对这种特征进行离散化，以多个特征区间以及某个特征区间的值表示该特征。但是现有技术在划分特征区间时，可能出现某些特征区间对样本属性(逾期、非逾期)的影响差异性微弱，也就是意义不大，所以再按照现有技术的方法生成样本集并训练，显然不仅会浪费计算资源，也会对训练造成干扰，进而有可能影响训练后的性能。所以基于这个缺点，并且受到实施例1的启发，本实施例5提供了一种基于优化样本集的信用模型训练方法，用于提高信用模型的性能。该方法的流程示意图如图9所示，包括下述步骤：

步骤51：获取原始信用样本集。

该步骤中，可以获取原始的信用样本集，样本集的生成方法不是本申请终点，不做过多介绍。比如，如下表1所示，有15个样本，分别对应15个用户，其中样本名称后有“(+)”的代表是逾期样本，即该用户有信用卡到期不还的行为。选取的特征为月收入。

表1

步骤52：针对样本集中的每个样本的同一特征对应的特征值，利用分位点，确定对于特征的第1特征区间集。

如下表2以及图3所示，将所有月收入按升序排列，选取了4个分位点，将月收入特征值划分为5个特征区间，j就为特征区间的序号，i为样本的序号，此时这5个特征区间的集合就为第1特征区间集。

样本名称	月收入(单位：元)	分位点
			十一(+)	4849
十五	7969
			五(+)	8014	8014
四	8291
			二(+)	9056
六	9096	9096
			十(+)	10574
十三	12115
			七(+)	12385	12385
十二(+)	12743
			九	14484
一	17406	17406
			八(+)	17426
十四	18583
			三	19897

表2

表3

步骤53：根据每个样本在第1特征区集中各个特征区间的所属情况以及每个样本的属性，确定第1特征区集中各个特征区间与样本属性的相关系数。

具体地，可以按照下述公式确定相关系数，

如表3所示，对于某个样本而言，属于哪个特征区间，x值就是1，否则为0，所述对于每个样本而言，只有1个值为1其它值都为0。当样本的属性为逾期时，y为1，否则(为非逾期)，y为0。x_ij为第i个样本在第j个特征区间的值，y_j为第j个样本的属性值，

为所有x_ij值的平均值，

为所有y_j值的平均值，所以

x₁₁＝0，x₂₂＝0等；y₁＝0，y₂＝1等。

对于R₁而言，可以按照下表4进行计算：

表4

所以，R₁＝0.60/0.79＝1.29。

对于R₂而言，可以按照下表5进行计算：

表5

所以，R₂＝-0.40/0.76＝-0.52。

类似地，R₃＝-0.52；R₄＝0.76；R₅＝-0.52。

步骤54：根据第1特征区集中各个特征区间与样本属性的相关系数，确定第1特征区集中相邻特征区间与样本属性的相关系数的差值的绝对值。

根据步骤53中计算出的R的值，确定|R_j+1-R_j|的值，

具体地，|R₂-R₁|＝1.29；|R₃-R₂|＝0；|R₄-R₃|＝1.29；|R₅-R₄|＝1.29。

步骤55：判断差值的绝对值是否小于预设合并阈值。

该步骤中，可以将合并阈值预先设置为0.1或0.5等。以0.5为例，当绝对值小于0.5时，可以确定对相邻特征区间进行合并；当绝对值不小于0.5时，可以确定保留相邻的各个特征区间。

步骤56：根据确定出的合并结果，生成第2特征区间集。

具体地，|R₃-R₂|＝0，小于0.5，所以可以将(8291，9096)以及(10574，12385)这两个相邻的特征区间进行合并，生成(8291，12385)这个特征区间，其他特征区间保留，从而生成第2特征区间集，其中包含4个特征区间。

步骤57：判断第1特征区间集与第2特征区间集是否一致。

具体地，当一致时，可以根据第2特征区间集生成最终特征区间集。即此时就认为第2特征区间集中包含的每个特征区间与相邻特征区间对于样本属性的影响都比较大。

当不一致时，可以重复执行根据每个样本在第2特征区间集中各个特征区间的所属情况以及每个样本的属性，确定第2特征区间集中各个特征区间与样本属性的相关系数。也就是重复执行步骤53至步骤57,。

对于本实施例而言，第2特征区间集与第1特征区间集不一致，所以执行步骤53。

步骤53：根据每个样本在第2特征区集中各个特征区间的所属情况以及每个样本的属性，确定第2特征区集中各个特征区间与样本属性的相关系数。

如下表6所示，此时，j只有4个值。

表6

此时，对于R₁而言，可以按照下表7进行计算：

表7

所以，R₁＝0.60/0.79＝0.76。对于R₂而言，可以按照下表8进行计算：

表8

所以，R₂＝-0.80/0.98＝-0.82。

类似地，R₃＝0.76；R₄＝-0.52。

由于步骤54与步骤55与上文相似，所以不再赘述。

步骤56：根据确定出的合并结果，生成第3特征区间集。

由于|R₂-R₁|＝1.58；|R₃-R₂|＝1.58；|R₄-R₃|＝1.28。

所以，都大于0.5，每个特征区间都保留，所以第3特征区间集中就包含这4个特征区间。

步骤57：判断第3特征区间集与第2特征区间集是否一致。

由于第3特征区间集与第2特征区间集一致，所以就可以根据第3特征区间集生成最终特征区间集，也即第3特征区间集就为最终特征区间集。

步骤58：根据每个样本在最终特征区间集中各个特征区间的所属情况，生成优化信用样本集。

该优化样本集中，对于月收入这个特征，特征值就可以是特征区间以及在特征区间中的值。比如，针对样本“一”而言，该样本的月收入特征的特征值为：(4849，8014)：0，(8291，12385)：0，

(12743，17406)：1，(17426，19897)：0。其它样本以及其它特征以此类推。

步骤59：根据优化信用样本集进行信用模型训练。

该步骤中，可以根据优化信用样本集进行信用模型训练，由于模型训练过程不是本申请重点，所以不再详细介绍。

采用实施例5提供的该方法，在对原始信用样本集中每个样本都具有的某个特征的特征值利用分位点划分为多个特征区间后，根据相邻的特征区间与样本属性的相关系数的差值的绝对值，进行合并或保留，从而使得最终保留的相邻特征区间与样本属性都有较大差异，对比现有技术仅以划分后的多个特征区间作为最终的特征区间集的方法，达到了优化样本集的目的，在一定程度上解决了现有技术由于特征区间过多，且有可能某几个特征区间对于样本属性的影响相似，而导致的不仅浪费了训练过程中的计算资源，也对信用模型训练造成干扰的问题，进而改善了训练后的信用模型的性能。

实施例6

基于与前述实施例相同的发明构思，实施例6提供了一种个人信用模型训练系统，用于改善训练后的模型的性能。图10为该系统的结构框图，该系统包括：

原始个人信用建立系统61、样本优化系统62、信用模型训练系统63，其中，

原始个人信用建立系统61，可以用于根据用户对应的特征和特征值，建立原始个人信用样本集。

比如，可以在当日获取还款日为前一日的所有用户在前个月对应的特征和特征值，建立原始个人信用样本集。具体地，还款日为10日，在9月11日时，获取用户在8月11日至9月10日的信用数据以及对应的信用记录(逾期或非逾期)。

样本优化系统62，可以用于利用优化样本集的生成方法，对原始个人信用样本集进行优化，生成优化样本集。

该系统可以根据实施例1中的某些步骤或实施例3介绍的样本集的优化方法，对原始个人信用样本集进行优化，生成优化样本集。

信用模型训练系统63，可以用于根据优化样本集训练信用模型。

采用实施例6提供的该系统，由于按照本申请的对样本集进行优化的方法对原始个人信用样本集进行优化，使特征下的每个特征区间和对应的值更有代表性，在训练过程中，模型就可以比较准确的掌握每个特征区间与样本属性的关系，从而改善了训练后的模型的性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于优化样本集的模型训练方法，其特征在于，包括：

获取信用样本集，所述信用样本集中包含至少两种不同样本属性的信用样本；所述信用样本包括月收入样本；

针对所述信用样本集中的每个信用样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

根据所述每个信用样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；

根据所述优化样本集进行信用模型训练，所述信用模型用于预测待预测样本的信用信息；

所述根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，包括：根据所述初始特征区间集中各个特征区间与所述样本属性的相关系数，确定所述初始特征区集中相邻特征区间与所述样本属性的相关系数的差值；根据所述差值与预设合并阈值之间的关系，确定合并或保留所述相邻特征区间，并生成所述最终特征区间集。

2.如权利要求1所述的方法，其特征在于，所述初始特征区间集为第m特征区间集，则根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，包括：

根据确定出的合并结果，生成第m+1特征区间集；

判断第m特征区间集与第m+1特征区间集是否一致；

当一致时，根据第m+1特征区间集生成最终特征区间集。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求2所述的方法，其特征在于，根据第m特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对第m特征区间集中相邻特征区间进行合并，包括：

当第m特征区间集中相邻特征区间与样本属性的相关程度的差异不满足合并条件时，确定保留相邻的各个特征区间。

5.如权利要求1所述的方法，其特征在于，根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，包括：

根据所述每个信用样本在初始特征区集中各个特征区间的所属情况以及所述每个信用样本的属性，确定初始特征区集中各个特征区间与样本属性的相关系数；

当所述差值不小于预设合并阈值时，确定保留相邻的各个特征区间；

根据确定出的合并结果，生成最终特征区间集。

6.如权利要求5所述的方法，其特征在于，

每个特征区间与样本属性的相关系数按照下述公式确定：

为所有x_ij值的平均值，

为所有y_j值的平均值，x、y均为正整数。

7.如权利要求1所述的方法，其特征在于，根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，包括：

8.如权利要求1所述的方法，其特征在于，所述方法应用于个人信用模型训练，所述样本集包含逾期样本和非逾期样本。

9.一种基于优化样本集的模型训练装置，其特征在于，包括：获取单元、确定单元、合并单元、生成单元以及训练单元，其中，

所述获取单元，用于获取信用样本集，所述信用样本集中包含至少两种不同样本属性的信用样本；所述信用样本包括月收入样本；

所述确定单元，用于针对所述信用样本集中的每个信用样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；

所述生成单元，用于根据所述每个信用样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；

所述训练单元，用于根据所述优化样本集进行信用模型训练，所述信用模型用于预测待预测样本的信用信息；

所述合并单元，还用于根据所述初始特征区间集中各个特征区间与所述样本属性的相关系数，确定所述初始特征区集中相邻特征区间与所述样本属性的相关系数的差值；根据所述差值与预设合并阈值之间的关系，确定合并或保留所述相邻特征区间，并生成所述最终特征区间集。

10.如权利要求9所述的装置，其特征在于，所述初始特征区间集为第m特征区间集，则所述合并单元，具体用于：

根据确定出的合并结果，生成第m+1特征区间集；

判断第m特征区间集与第m+1特征区间集是否一致；

当一致时，根据第m+1特征区间集生成最终特征区间集。

11.如权利要求10所述的装置，其特征在于，所述合并单元，还用于：

12.如权利要求10所述的装置，其特征在于，所述合并单元，具体用于：

当第i特征区间集中相邻特征区间与样本属性的相关程度的差异满足合并条件时，确定对相邻特征区间进行合并；

当第i特征区间集中相邻特征区间与样本属性的相关程度的差异不满足合并条件时，确定保留相邻的各个特征区间。

13.如权利要求9所述的装置，其特征在于，所述合并单元，具体用于：

根据确定出的合并结果，生成最终特征区间集。

14.如权利要求13所述的装置，其特征在于，

每个特征区间与样本属性的相关系数按照下述公式确定：

为所有x_ij值的平均值，

为所有y_j值的平均值，x、y均为正整数。

15.如权利要求9所述的装置，其特征在于，所述合并单元，具体用于：

16.一种样本集的优化方法，其特征在于，包括：

针对信用样本集中的每个信用样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；所述信用样本包括月收入样本；

17.一种样本集的优化装置，其特征在于，包括：确定单元、合并单元以及生成单元，其中，

所述确定单元，用于针对信用样本集中的每个信用样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；所述信用样本包括月收入样本；

18.一种个人信用模型训练系统，其特征在于，包括：原始个人信用建立系统、样本优化系统、信用模型训练系统，其中，

所述样本优化系统，用于利用样本集的优化方法，对原始个人信用样本集进行优化，生成优化样本集；所述样本集的优化方法包括：针对所述信用样本集中的每个信用样本的同一特征对应的特征值，利用分位点，确定对于所述特征的初始特征区间集，所述分位点数量至少为1，所述初始特征区间集中包含至少2个特征区间；所述信用样本包括月收入样本；根据所述初始特征区间集中相邻特征区间与样本属性的相关程度的差异，确定是否对相邻特征区间进行合并，并生成最终特征区间集，所述最终特征区间集中包含的特征区间个数不大于所述初始特征区间集中包含的个数；根据所述每个信用样本在所述最终特征区间集中各个特征区间的所属情况，生成优化样本集；

所述信用模型训练系统，用于根据优化样本集训练信用模型；

所述样本优化系统，还用于根据所述初始特征区间集中各个特征区间与所述样本属性的相关系数，确定所述初始特征区集中相邻特征区间与所述样本属性的相关系数的差值；根据所述差值与预设合并阈值之间的关系，确定合并或保留所述相邻特征区间，并生成所述最终特征区间集。