CN109739844A

CN109739844A - 基于衰减权重的数据分类方法

Info

Publication number: CN109739844A
Application number: CN201811599413.0A
Authority: CN
Inventors: 沈沛意; 张亮; 王嘉豪; 朱光明; 宋娟; 张宇怀
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-10
Anticipated expiration: 2038-12-26
Also published as: CN109739844B

Abstract

本发明公开了一种基于衰减权重的数据分类方法，本发明主要解决现有传统的分类方法只能接受数值类型的数据集，忽略数据本身的时间特性，容易过拟合，分类准确率不高的问题。其实现步骤是：1、获取训练样本和预测样本；2、清洗数据；3、生成类型转化数据集；4、标准化处理；5、生成训练集和预测集；6、计算训练集中每个样本的衰减权重；7、利用特征选择方法训练极限梯度增强XGBoost的多分类器；8、对预测集中每个样本进行分类。本发明利用数据本身的时间特性信息赋予样本衰减权重，能够接受更多类型的数据，有效地提高了分类的准确率，可应用于复杂多变的业务场景下的数据分类。

Description

基于衰减权重的数据分类方法

技术领域

本发明属于计算机技术领域，更进一步涉及一种基于衰减权重的数据分类方法。本发明可用于对包含时间信息的数据，例如对生产流中不同时间采集的样本，进行预测分类。

背景技术

分类属于有监督学习的范畴，可以从历史数据记录中把握规律从而推导出未来的数据的趋势，并进一步预测分类标号。数据分类具有广泛的应用，例如：缺陷检测、故障检测、信用卡系统的信用分级、图像识别等领域。分类的目的是学习一个分类器，用于把待分类的数据映射到某个特定类别中。同时在构建分类器之前还需要数据集，现实中很多用于生成数据集的数据包含了时间信息，例如用户购物信息、银行贷款信息、医院就诊信息等等，时间特性与数据紧密相连。

人民搜索网络股份公司在其申请的专利文献“一种机器学习分类方法及装置”(申请号：201310384790.3公开号：CN1034260007B)中公开了一种普适的数据分类方法。该方法首先生成训练配置文件相关的数据格式定义、分类任务的任务参数等，然后对训练样本进行训练得到分类器模型，并根据分类拓补结构建立多级分类结构，接着将待分类数据导入分类器模型中，利用多级分类结构逐渐判断待分类数据的类别。该方法存在的不足之处是：该方法未对训练样本进行处理，只能接受数值类型的数据组成的样本集，抛弃了样本集中除数值类型之外其他类型的数据，没有进行特征选择，分类器模型容易过拟合。

小米科技有限责任公司在其申请的专利文献“数据分类方法及装置”(申请号：201410838127.0公开号：CN104572930A)中公开了一种加速迭代的数据分类方法。该方法首先在预设样本数据库中分别选取第一训练样本集和第二训练样本集，然后确定第一训练样本集的平均延边，利用预设迭代算法对平均样本进行迭代运算，得到第一训练样本集的分类模型，接着将第二训练样本集中的每个训练样本在分类模型下分解得到一个训练稀疏系数向量，并将得到的所有训练系数向量级联得到训练矩阵，最后根据第二训练样本集中的每个训练样本的类别确定训练矩阵中每个列向量的类别标签，通过计算与训练矩阵列向量的汉明距离确定样本的目标类别。该方法存在的不足之处是：该方法将大量样本进行平均处理，得到一个平均样本，使得这些被平均的样本无法被分类器训练到，存在欠拟合的可能，忽略了数据本身与时间关系密切的特性。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于衰减权重的数据分类方法，有效利用了样本自身具备的时间特性的信息，赋予训练样本衰减权重，提高了数据分类的准确性。

实现本发明目的的思路是：先对训练样本集和预测样本集依次进行清洗、类型转化和标准化，然后用训练集中每个样本业务流产生的时间减去训练集的生成时间，得到偏移时间差值，利用时间衰减公式，计算得到每个样本的衰减权重，再利用特征选择方法训练极限梯度增强XGBoost的多分类器，最后对预测集中样本进行分类。

实现本发明目的的具体步骤如下：

(1)获取训练样本和预测样本：

(1a)提取包含至少有两个类别且每个类别至少有一个样本的原始数据，组成初始训练集；并提取每个训练样本对应的标签数据；

(1b)提取包含至少有一个类别且每个类别至少有一个样本的原始数据，组成初始预测集；

(2)清洗数据：

(2a)将初始训练集中每个训练样本和初始预测集中每个预测样本，按匹配列名合并成预处理数据集；

(2b)去除数据集中全部为空值或超过90％为空值的列分量；

(2c)去除数据集中取值全部相同的列分量；

(2d)去除数据集中冗余的列分量；

(2e)去除数据集中数据无法数值化或离散化的列分量；

(3)生成类型转化数据集：

(3a)将清洗后的预处理数据集中每个列分量数据划分成五种类型：定性、客户地址、日期、手机号码和数值类型；

(3b)采用类型转化法，将除数值类型外的其余四种类型的列分量数据，按类型转化为数值、离散整形或独热one-hot编码；

(3c)将类型转化后的所有列分量中的每个元素和所有数值类型的列分量中的每个元素，按照其属性进行拼接，生成类型转化数据集；

(4)标准化处理：

利用零-均值标准化公式，计算类型转化数据集中每个训练样本和每个预测样本的每一维特征分量的标准化值，将所有训练样本和所有预测样本的全部特征分量组成标准化数据集；

(5)生成训练集和预测集：

将标准化数据集中的每个训练样本与其对应的标签进行合并，将合并后的所有训练样本组成训练集，将标准化数据集中的所有预测样本组成预测集；

(6)计算训练集中每个样本的衰减权重：

(6a)用训练集中每个样本业务流产生的时间减去训练集的生成时间，得到偏移时间差值；

(6b)利用时间衰减公式，计算每个样本的衰减权重；

(7)利用特征选择方法训练极限梯度增强XGBoost的多分类器：

(7a)分别导入极限梯度增强XGBoost的数据集格式化函数、构造器函数、get_score函数；

(7b)将训练集和训练集中所有样本的衰减权重，输入到极限梯度增强XGBoost的数据集格式化函数中，得到格式化好的训练集；

(7c)设置交叉验证参数为0.3，迭代器类型参数为‘gbtree’，损失函数类型参数为‘multi:softprob’，最大树深度参数为4；

(7d)将配置好的参数和格式化后的训练集，输入到极限梯度增强XGBoost的构造器函数中，得到训练好的多分类器；

(7e)将多分类器中自身的所有特征，输入到极限梯度增强XGBoost的get_score函数中，得到每个特征的相对重要性；

(7f)判断多分类器自身的每个特征的相对重要性是否都大于等于0.005，若是，则执行(8)，否则，从训练集中剔除相对重要性小于0.005的无效特征所对应的列向量后执行步骤(7d)；

(8)对预测集中每个样本进行分类：

(8a)剔除预测集中与从训练集中剔除的列向量对应的列向量；

(8b)将剔除部分列向量后的预测集中的每个样本输入多分类器中，得到每个样本的类别。

本发明与现有方法相比具有如下优点：

第1，由于本发明引入生成类型转化数据集，对定性、客户地址、日期、手机号码等类型的数据转化为数值、离散整形或独热one-hot编码，克服了现有技术只能接受数值类型的训练集，抛弃了样本集中除数值类型之外其他类型的数据的问题，使得本发明能够接受多种类型的数据组成的样本集，能够保留更多维度的数据特征信息。

第2，由于本发明引入计算训练集中每个样本的衰减权重，将每个样本业务流产生的时间减去训练集的生成时间，得到偏移时间差值，利用时间衰减公式，计算得到每个样本的衰减权重，克服了现有技术将大量样本进行平均处理，得到一个平均样本，使得这些被平均的样本无法被分类器训练到，存在欠拟合的可能，忽略了数据本身与时间关系密切的特性的问题，使得本发明保留所有样本作为训练样本，有效利用了样本自身具备的时间特性的信息，使得分类器能捕捉到时间维度的信息，从而提高了分类的准确性。

第3，由于本发明引入利用特征选择方法训练极限梯度增强XGBoost的多分类器，在训练完分类器后对训练集各特征检验相对重要性，剔除其中的无效特征，重新进行分类器的训练和特征选择，直至训练集各特征的相对重要性都大于等于0.005，克服了现有技术没有进行特征选择，分类器模型容易过拟合的问题，使得本发明提高了数据分类的稳定性，剔除无效特征后的分类器不容易过拟合。

附图说明

图1为本发明的流程图；

图2为本发明仿真实验的衰减函数曲线图；

图3为本发明仿真实验的分类器自身特征的相对重要性图。

具体实施方式

下面结合附图，对本发明作进一步的详细描述。

参照附图1，对本发明实现的步骤作进一步的详细描述。

步骤1，获取训练样本和预测样本。

提取包含至少有两个类别且每个类别至少有一个样本的原始数据，组成初始训练集；并提取每个训练样本对应的标签数据。

提取包含至少有一个类别且每个类别至少有一个样本的原始数据，组成初始预测集。

步骤2，清洗数据。

将初始训练集中每个训练样本和初始预测集中每个预测样本，按匹配列名合并成预处理数据集。

去除数据集中全部为空值或超过90％为空值的列分量。

去除数据集中取值全部相同的列分量。

去除数据集中冗余的列分量。

去除数据集中数据无法数值化或离散化的列分量。

步骤3，生成类型转化数据集。

将清洗后的预处理数据集中每个列分量数据划分成五种类型：定性、客户地址、日期、手机号码和数值类型。

采用类型转化法，将除数值类型外的其余四种类型的列分量数据，按类型转化为数值、离散整形或独热one-hot编码。

所述类型转化法的步骤如下。

第一步，将每个划分为定性类型的列分量中的所有元素组成取值集合，若取值集合中所有元素的排列有序时，将所有元素映射到【0,N-1】的离散空间上；

若取值集合中的所有元素的排列无序时，则将取值集合中的所有元素采用独热one-hot编码转化为长度为N的向量，其中，N表示取值集合的模。

第二步，将每个划分为客户地址类型的列分量中的所有元素，按行政区划提取城市名后将其转化为对应的城市等级集合，将城市等级集合中的所有元素按照{一线，二线，三线，四线，五线，六线}组成取值集合，将取值集合的所有元素映射到【0，1，2，3，4，5】的离散空间上。

第三步，用每个划分为日期类型的列分量中的每个元素减去当前日期，得到天数差和月数差，若划分为日期类型的列分量多于2个，则将每个列分量中的所有元素的天数差组成一个向量，将所有的列分量的天数差向量组成一个集合，将集合中的元素两两求差，得到个数值向量；将每个列分量中的所有元素的月数差组成一个向量，将所有的列分量的月数差向量组成一个集合，将集合中的元素两两求差，得到个数值向量，其中，M表示划分为日期类型的列分量的总数。

第四步，将每个划分为手机号码类型的列分量中的所有元素，按号码字段转化为对应的运营商集合，将运营商集合中的所有元素组成取值集合，将取值集合中的所有元素采用独热one-hot编码转化为长度为4的向量。

将类型转化后的所有列分量中的每个元素和所有数值类型的列分量中的每个元素，按照其属性进行拼接，生成类型转化数据集。

步骤4，标准化处理。

利用零-均值标准化公式，计算类型转化数据集中每个训练样本和每个预测样本的每一维特征分量的标准化值，将所有训练样本和所有预测样本的全部特征分量组成标准化数据集。

所述零-均值标准化公式如下。

其中，s_ij表示数据集中的第i个样本的第j维特征分量的标准化值，x_ij表示数据集中的第i个样本的第j维的特征分量值，μ_j表示数据集中第j维特征分量的均值，σ_j表示数据集中第j维特征分量的标准差。

步骤5，生成训练集和预测集。

将标准化数据集中的每个训练样本与其对应的标签进行合并，将合并后的所有训练样本组成训练集，将标准化数据集中的所有预测样本组成预测集。

步骤6，计算训练集中每个样本的衰减权重。

用训练集中每个样本业务流产生的时间减去训练集的生成时间，得到偏移时间差值。

利用时间衰减公式，计算每个样本的衰减权重。

所述时间衰减公式如下。

其中，w_k表示训练集中第k个样本的衰减权重，w₀表示设置为1的初始权重值，e表示以自然常数e为底的指数操作，λ表示设置为0.07的衰减系数，t_k表示训练集中第k个样本的偏移时间差值。

步骤7，利用特征选择方法训练极限梯度增强XGBoost的多分类器。

(7.1)分别导入极限梯度增强XGBoost的数据集格式化函数、构造器函数、get_score函数。

(7.2)将训练集和训练集中所有样本的衰减权重，输入到极限梯度增强XGBoost的数据集格式化函数中，得到格式化好的训练集。调用函数xgboost.DMatrix(data,label＝y,weight＝w)完成格式化，其中‘label’和‘weight’为关键字，‘data’为训练集，‘y’为训练集标签，‘w’为数据集样本权重，对应训练集中所有样本的衰减权重。

(7.3)配置极限梯度增强XGBoost的构造器参数，设置交叉验证参数为0.3，迭代器类型参数为‘gbtree’，损失函数类型参数为‘multi:softprob’，最大树深度参数为4，其余参数采用默认值。

(7.4)将配置好的参数和格式化后的训练集，输入到极限梯度增强XGBoost的构造器函数中，得到训练好的多分类器。

(7.5)将多分类器中自身的所有特征，输入到极限梯度增强XGBoost的get_score函数中，得到每个特征的相对重要性。

(7.6)判断多分类器自身的每个特征的相对重要性是否都大于等于0.005，若是，则执行步骤8，否则，从训练集中剔除相对重要性小于0.005的无效特征所对应的列向量后执行本步骤的(7.4)。剔除无效特征，一方面能够提高分类器训练的速度，减少内存消耗，另一方面能够减轻分类器对训练集数据过拟合的程度。

步骤8，对预测集中每个样本进行分类。

剔除预测集中与从训练集中剔除的列向量对应的列向量。

将剔除部分列向量后的预测集中的每个样本输入多分类器中，得到每个样本的类别。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件。

本发明的仿真实验是在CPU为英特尔Xeon(至强)E5640 2.67GHz四核、内存24GB、WINDOWS 7系统上在Python 3.5.4的运行环境下使用xgboost 0.80和jupyter notebook4.3.0平台进行的。

2.仿真内容与结果分析。

本发明的仿真实验所使用的实验数据选自某银行的真实客户数据，包含两类数据，分别是已还款客户和未还款客户，目标是对需要预测的样本进行分类，并预估将来会还款的概率。仿真过程中，获取了从2018年一月至五月共计5个月的逾期客户数据如表1所示，逾期客户为贷款后未能在期限内还完全款的客户。训练样本数据由前四个月的逾期客户数据组成，预测样本数据由五月份的数据组成。

表1.一月至五月逾期客户数据一览表

月份	一月	二月	三月	四月	五月
						样本数	16120	32194	39248	29022	27977
正样本数	249	614	881	527	344

对获取的训练样本和预测样本，按匹配列名合并成预处理数据集，然后对预处理数据集进行清洗数据。将清洗后的预处理数据集，采用类型转化法，进一步生成类型转化数据集后，定性类型的部分列分量数据的转化结果如表2所示。

表2.定性类型的部分列分量数据的转化结果表

对获取的训练样本和预测样本，按匹配列名合并成预处理数据集，然后对预处理数据集进行清洗数据。将清洗后的预处理数据集，采用类型转化法，进一步生成类型转化数据集后，客户地址、日期、手机号码类型的部分列分量数据的转化结果如表3所示。

表3.客户地址、日期、手机号码类型的部分列分量数据的转化结果表

将类型转化数据集标准化处理后，生成训练集和预测集，进一步计算训练集中每个样本的衰减权重。当初始权重为1，不同的衰减系数下的时间衰减函数如附图2所示，衰减系数越大，函数值削弱的越快，通过调整衰减系数，匹配数据更新的频率，当数据更替的较快时，使用较大的衰减系数。

训练集中每个样本的衰减权重得到后，利用特征选择方法训练极限梯度增强XGBoost的多分类器，一次分类器训练完成后得到的部分特征的相对重要性，如附图3所示，其中特征已按相对重要性的大小从高到低进行排序。

本发明设计了两个实施例分别验证标准化后的数据集的可用性和训练完成的分类器的数据分类的性能。同时考虑数据集正负样本的不平衡，常用的评价指标准确率、召回率和F1_score都无法衡量模型的真实性能。本发明采用AUC这个对样本不平衡不敏感的指标作为训练和测试的主要标准，并设计了一种类似于召回率的指标，P_50％，50％表示只看预测概率得分高的前50％的样本，观察这前一半样本在所有正样本中召回正样本的概率，公式如下。

其中，P_50％表示前一半预测概率得分高的样本中包含的正样本占数据集中所有正样本的百分比，n表示前一半预测概率得分高的样本包含的正样本数量，N表示数据集中所有正样本数量。P_50％的最低值是0.5，因为随机取一半数据，其中含有的正样本占总正样本数量的一半。

实施例1.多种机器学习方法验证数据集的可用性。

本发明将由五个月份逾期客户数据组成的标准化后的数据集以7:3的比例随机分为训练集和测试集，采用逻辑回归和其他三种集成学习方法，包括随机森林、GBDT和XGBoost分别在相同的训练集上进行分类器的训练。通过调整四类方法的参数后，本发明在相同的测试集上评价模型的性能，四种方法的训练集和测试集指标结果如表4所示。

表4.四种方法的训练集和测试集的指标结果表

在训练方面，逻辑回归比其他三类集成学习方法拥有更快的训练速度，XGBoost比随机森林和GBDT稍快。在训练集的AUC指标上，GBDT对训练集有更好的拟合能力，XGBoost次之。

在测试方面，四种方法训练出来的模型有着类似的性能，AUC值都稍高于73％，与训练集的AUC相比，GBDT显然比其他三种方法过拟合了，因为训练集的AUC值远大于测试集的。同时四种方法的P_50％也都在83％左右，XGBoost和随机森林比其他两种方法稍高。

实施例1证明本发明构建的数据集有着良好的稳定性和可用性，能够被广泛的机器学习方法适用且容易训练出比较好的模型。

实施例2.带和未带衰减权重训练出来的分类器的性能对比

以下进行两组、带和未带衰减权重训练出来的分类器的性能对比。对比方案1将一至三月份的客户数据作为训练集，四月份的客户数据作为测试集；对比方案2将一至四月份的客户数据作为训练集，五月份的客户数据作为测试集。两组对比方案采用的训练集和测试集概要信息如表5所示。在配置权重衰减函数的参数时，对比方案1的训练集中一、二、三月份的样本的t_k的取值分别为2、1、0，对比方案2的训练集中一、二、三、四月份的样本的t_k的取值分别为3、2、1、0。

表5.两组对比方案的训练集和测试集概要信息一览表

两组对比方案，都采用XGBoost进行训练，带与未带衰减权重的分类器在训练时的区别是包装成XGBoost的DMatrix数据集格式时，带衰减权重的分类器需要加入数据集样本权重。训练时将训练集以7:3的比例随机划分训练集和验证集。对比方案1和对比方案2的训练集、验证集和测试集的指标结果分部如表6和表7所示。

分析以上两组对比方案，在训练集上带和未带衰减权重的分类器的AUC结果都比较接近，对比方案1在0.75左右，对比方案2在0.768左右，但在验证集AUC和测试集的AUC和P_50％等指标上，两组方案的带衰减权重的分类器的结果都要高于未带衰减权重的分类器的，也就是说通过增加了样本的衰减权重，本发明训练出的分类器的泛化能力更好。

表6.对比方案1的训练集、验证集和测试集的指标结果表

	带衰减权重	未带衰减权重
			训练集AUC	0.753	0.756
验证集AUC	0.745	0.744
			测试集AUC	0.774	0.773
测试集P<sub>50％</sub>	0.85579	0.850095

表7.对比方案2的训练集、验证集和测试集的指标结果表

	带衰减权重	未带衰减权重
			训练集AUC	0.76865	0.76862
验证集AUC	0.75704	0.755443
			测试集AUC	0.70213	0.70017
测试集P<sub>50％</sub>	0.776163	0.770349

进一步分析两组对比方案的测试集P_50％的差距为何达到0.07。两组对比方案的训练集和测试集的正样本占总样本的比例(下面简称为正样本比例)，两组对比方案的训练集的正样本比例都在0.019以上，而在测试集上对比方案1的正样本比例较之对比方案2的高了有近0.006，对比方案1的训练集和测试集的正样本比例的差在0.0017左右，而对比方案2的测试集中的正样本比例远低于训练集的，低了0.007左右，测试集和训练集正样本比例的差异造成了分类器结果的差异。

由于本发明获取的数据集来源于真实的业务场景，业务场景是会随时间而不定变化的，这也就要求分类器能够适应这种经常变化的业务场景。

实施例2证明了带衰减权重的分类器比不带的具有更好的稳定性及分类准确性，能够在复杂多变的业务场景下适应数据的变化，提高数据分类的准确性。

Claims

1.一种基于衰减权重的数据分类方法，其特征在于，生成类型转化数据集，计算训练集中每个样本的衰减权重，利用特征选择方法训练极限梯度增强XGBoost的多分类器，该方法的步骤包括如下：

(1)获取训练样本和预测样本：

(2)清洗数据：

(2b)去除数据集中全部为空值或超过90％为空值的列分量；

(2c)去除数据集中取值全部相同的列分量；

(2d)去除数据集中冗余的列分量；

(2e)去除数据集中数据无法数值化或离散化的列分量；

(3)生成类型转化数据集：

(4)标准化处理：

(5)生成训练集和预测集：

(6)计算训练集中每个样本的衰减权重：

(6b)利用时间衰减公式，计算每个样本的衰减权重；

(7)利用特征选择方法训练极限梯度增强XGBoost的多分类器：

(8)对预测集中每个样本进行分类：

(8a)剔除预测集中与从训练集中剔除的列向量对应的列向量；

2.根据权利要求1所述的基于衰减权重的数据分类方法，其特征在于：步骤(3b)中所述类型转化法的步骤如下：

第一步，将每个划分为定性类型的列分量中的所有元素组成取值集合，若取值集合中所有元素的排列有序时，将所有元素映射到【0,N-1】的离散空间上；若取值集合中的所有元素的排列无序时，则将取值集合中的所有元素采用独热one-hot编码转化为长度为N的向量，其中，N表示取值集合的模；

第二步，将每个划分为客户地址类型的列分量中的所有元素，按行政区划提取城市名后将其转化为对应的城市等级集合，将城市等级集合中的所有元素按照{一线，二线，三线，四线，五线，六线}组成取值集合，将取值集合的所有元素映射到【0，1，2，3，4，5】的离散空间上；

第三步，用每个划分为日期类型的列分量中的每个元素减去当前日期，得到天数差和月数差，若划分为日期类型的列分量多于2个，则将每个列分量中的所有元素的天数差组成一个向量，将所有的列分量的天数差向量组成一个集合，将集合中的元素两两求差，得到个数值向量；将每个列分量中的所有元素的月数差组成一个向量，将所有的列分量的月数差向量组成一个集合，将集合中的元素两两求差，得到个数值向量，其中，M表示划分为日期类型的列分量的总数；

3.根据权利要求1所述的基于衰减权重的数据分类方法，其特征在于：步骤(4)中所述零-均值标准化公式如下：

4.根据权利要求1所述的基于衰减权重的数据分类方法，其特征在于：步骤(6b)中所述时间衰减公式如下：