CN111859057B

CN111859057B - 数据特征处理方法及数据特征处理装置

Info

Publication number: CN111859057B
Application number: CN202010998380.8A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 刘辉; 陶帅; 潘峻; 张涛
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-04
Anticipated expiration: 2040-09-22
Also published as: US20220091818A1; CN111859057A

Abstract

本发明提供的数据特征处理方法及数据特征处理装置，首先对多组业务数据进行排序得到业务数据排序序列并确定出跨时间验证集以及建模样本数据以采用预设分类器建立识别模型。其次根据识别模型及其增益指标计算业务数据的数据特征的特征重要性数值并以建模样本数据为基准计算相关性系数矩阵。然后根据相关性系数矩阵确定模型待选特征。最后将模型待选特征分批次导入预设分类器以确定模型基准性能数据。如此，能够依据特征重要性数值排序剔除高相关特征，能够减少模型建立过程中的运算时间和内存需求，降低模型复杂度以方便模型的实际运用与后期维护，结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。

Description

数据特征处理方法及数据特征处理装置

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据特征处理方法及数据特征处理装置。

背景技术

在对业务数据进行分析识别时，为了提高分析识别的准确性，需要借助识别模型实现对业务数据的分析识别。在对识别模型进行训练时，特征数据的筛选是确保识别模型的识别准确性以及运行性能的关键。然而在实际应用中，现有的对特征数据进行筛选的方法会导致识别模型的预测准确性差，并且会导致识别模型在运行时耗费计算机设备的大量运行时间以及占用计算机设备的存储空间。

发明内容

为了改善上述问题，本发明提供了一种数据特征处理方法及数据特征处理装置。

第一方面，提供了一种数据特征处理方法，应用于数据处理服务器，所述方法包括：

获取多组业务数据；其中，每组业务数据包括n个数据特征，n为正整数；

按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列；确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据；以所述建模样本数据对应的数据特征为模型特征，采用预设分类器建立识别模型；其中，所述第一设定比例和所述第二设定比例的和值为一；

根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值，以所述建模样本数据为基准，计算所述n个数据特征中各个数据特征的相关性系数矩阵；其中，所述相关性系数矩阵为n*n矩阵；

从所述相关性系数矩阵中确定出多个目标集合；其中，不同的目标集合之间不存在重复的元素；

删除每个目标集合中具有最大特征重要性数值的数据特征，并将每个目标集合中的剩余的数据特征合并为一个特征集合，将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除，得到模型待选特征；其中，所述特征集合中的数据特征为m个，所述模型待选特征为n-m个，m为小于n的正整数；

将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值；判断所述差值是否符合预设条件；在所述差值符合所述预设条件时，从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据；根据所述差值以及所述第二性能指标数据确定模型基准性能数据；

将所述自动化模型特征以及所述模型基准性能数据进行关联存储。

可选地，从所述相关性系数矩阵中确定出多个目标集合，包括：

从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合；

将具有相同元素的第一集合进行合并以得到多个目标集合。

可选地，将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值，包括：

将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列；

将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据；将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据；其中，x为正整数；

计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。

可选地，判断所述差值是否符合预设条件，包括：

判断所述差值是否大于设定阈值；

若所述差值大于所述设定阈值，则判定所述差值不符合所述预设条件；

若所述差值小于等于所述设定阈值，则判定所述差值符合所述预设条件。

可选地，根据所述差值以及所述第二性能指标数据确定模型基准性能数据，包括：

计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据；

将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。

可选地，所述方法还包括：

在所述差值不符合所述预设条件时，将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据；

计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。

第二方面，提供一种数据特征处理装置，应用于数据处理服务器，所述装置包括：

数据获取模块，用于获取多组业务数据；其中，每组业务数据包括n个数据特征，n为正整数；

模型建立模块，用于按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列；确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据；以所述建模样本数据对应的数据特征为模型特征，采用预设分类器建立识别模型；其中，所述第一设定比例和所述第二设定比例的和值为一；

矩阵计算模块，用于根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值，以所述建模样本数据为基准，计算所述n个数据特征中各个数据特征的相关性系数矩阵；其中，所述相关性系数矩阵为n*n矩阵；

集合确定模块，用于从所述相关性系数矩阵中确定出多个目标集合；其中，不同的目标集合之间不存在重复的元素；

特征剔除模块，用于删除每个目标集合中具有最大特征重要性数值的数据特征，并将每个目标集合中的剩余的数据特征合并为一个特征集合，将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除，得到模型待选特征；其中，所述特征集合中的数据特征为m个，所述模型待选特征为n-m个，m为小于n的正整数；

数据计算模块，用于将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值；判断所述差值是否符合预设条件；在所述差值符合所述预设条件时，从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据；根据所述差值以及所述第二性能指标数据确定模型基准性能数据；

关联存储模块，用于将所述自动化模型特征以及所述模型基准性能数据进行关联存储。

可选地，

所述集合确定模块，具体用于：从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合；将具有相同元素的第一集合进行合并以得到多个目标集合；

所述数据计算模块，具体用于：将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列；将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据；将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据；其中，x为正整数；计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。

可选地，

所述数据计算模块，进一步用于：

判断所述差值是否大于设定阈值；

若所述差值小于等于所述设定阈值，则判定所述差值符合所述预设条件；

所述数据计算模块，进一步用于：

可选地，所述数据计算模块，还用于：

有益效果

本发明实施例所提供的数据特征处理方法及数据特征处理装置：

首先按照业务数据的获取时刻的先后顺序对获取到的多组业务数据进行排序得到业务数据排序序列并确定出跨时间验证集以及建模样本数据，以根据建模样本数据对应的数据特征为模型特征采用预设分类器建立识别模型；

其次根据所述识别模型及其增益指标计算业务数据的数据特征的特征重要性数值并以建模样本数据为基准计算相关性系数矩阵；

然后根据相关性系数矩阵确定模型待选特征；

最后将模型待选特征分批次导入预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值并在差值符合预设条件时，从模型待选特征中确定出自动化模型特征并计算识别模型在跨时间验证集上的第二性能指标数据，进而根据差值以及第二性能指标数据确定模型基准性能数据。

如此，能够依据特征重要性数值排序剔除高相关特征，不仅能够减少模型建立过程中的运算时间和内存需求，降低模型复杂度以方便模型的实际运用与后期维护，而且让特征的选择更加合理。此外，能够结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种数据特征处理方法的流程图。

图2为本发明实施例所提供的一种数据特征处理装置的功能模块框图。

图3为本发明实施例所提供的一种数据处理服务器的硬件结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

发明人对现有的特征数据筛选方法进行分析之后发现，现有的特征数据筛选方法的主要步骤如下。

（1）根据终端应用软件或网页获取的用户数据（N维特征）并输入到模型环境，且设定特征对AUC增益的最低阈值。

（2）以XGBoost算法为基础，采用交叉验证技术划分5折训练集与测试集，分别计算以N个特征作为入模特征时，所确立的N个模型在5折交叉验证的测试集上的N个平均AUC值。选择平均AUC值最高的特征作为第一个确定的模型特。

（3）再次重新计算步骤（2）中剩下的N-1个特征中的每一个特征与步骤二中确定的1个特征（即2个模型特征）分别在5折交叉验证的测试集上平均AUC值。分别计算这N-1个平均AUC值减去步骤二中最高的平均AUC值，得到N-1个AUC差值，选择AUC差值最大的模型中的2个模型特征作为第二轮确定的模型特征（这两个特征中有一个是步骤二中确定的）。依次循环，直到在第m轮计算中，AUC差值的最高值小于初始输入的阈值0.005，结束计算，前面m-1轮计算确定的m-1个特征即为最终确定的特征，并保存为特征列表。

（4）输出步骤（3）中保存的特征列表。

然而，上述步骤会存在以下技术问题：

A.上述步骤对计算资源消耗巨大。详细地，上述步骤每确定一个特征之前都需要重新计算未被确定的所有特征n-m分别加入到已被确定的m个特征后，所建立的模型（此时模型有m+1个特征）在5折验证集上的平均AUC值与上一轮最高的平均AUC值的差值，由此选择最高差值对应的特征作为模型特征，这一过程要重复多轮，这对于样本量较大或者特征个数较多的情况，需要消耗巨大的计算与存储资源，严重影响使用便捷性。

B.上述步骤完全依赖测试集上AUC来确定变量，这不仅导致每次选特征前都需要先对剩下的变量分别建立模型才能确定一个特征的巨大资源消耗，而且使得所选特征只基于AUC这一个维度，没有结合算法本身的特点。

为改善上述技术问题，本发明提供了数据特征处理方法及数据特征处理装置。请首先参阅图1，提供了一种数据特征处理方法的流程示意图，所述方法应用于数据处理服务器，具体可以包括以下步骤所描述的内容。

步骤S11，获取多组业务数据。

在本实施例中，每组业务数据包括n个数据特征，n为正整数。例如，以信贷风控领域为例：通过终端设备的应用软件或网页获取用户自行填写的信息及合规的互联网金融用户属性数据，包括合规的互联网金融用户的还款意愿数据和还款能力类数据。还款意愿类数据主要用于判断欺诈风险，如：身份造假、黑产团伙、老赖团伙、中介欺诈和信用黑名单洗白等。还款能力类数据如：消费行为数据、交易行为数据、出行行为数据和多重申请数据等。

步骤S12，按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列；确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据；以所述建模样本数据对应的数据特征为模型特征，采用预设分类器建立识别模型。

在本实施例中，所述第一设定比例和所述第二设定比例的和值为一，具体地，第一设定比例可以为20%，第二设定比例可以为80%。跨时间验证集指按照时间维度选择最新时间的样本作为跨时间验证集，训练集测试集由于随机划分使得两个数据集丧失了与原始数据集相同的时间分布，而跨时间验证集则保证了分布与真实环境一致，一般用于建模完成后验证模型性能的过程。

进一步地，建模样本数据可以作为划分5折交叉验证的训练集与测试集的基础。5折交叉验证的算法逻辑是对建模样本进行5次随机训练集测试集的划分，每次均是80%训练集，20%测试集，在每次划分后均建立一个模型并计算该模型在对应的测试集上的AUC，最后对计算的5个AUC值取平均数，即为5折交叉验证的测试集AUC值。

此外，预设分类器可以基于XGBoost算法及其默认参数确定。

步骤S13，根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值，以所述建模样本数据为基准，计算所述n个数据特征中各个数据特征的相关性系数矩阵。

在本实施例中，所述相关性系数矩阵可以为n*n矩阵。数据特征包括互联网金融用户的还款意愿类特征，比如是否身份造假、是否为高逾期风险客群，还包括还款能力类特征，比如收入水平、消费行为、出行行为等特征，因变量为还款行为类特征，本发明中以第1期逾期天数是否超过10天作为因变量。

在本实施例中，增益指标意味着特征对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献。与其他特征相比，此度量值的较高值意味着它对于生成预测更为重要。特征重要性数值的具体计算方式为数据特征在整个树群作为分裂节点的信息增益之和后除以该数据特征出现的频次。

在本实施例中，相关性系数矩阵可以是spearman相关性系数矩阵，具体计算方法为利用python中的corr（‘spearman’）进行计算。

步骤S14，从所述相关性系数矩阵中确定出多个目标集合。

在本实施例中，不同的目标集合之间不存在重复的元素。

步骤S15，删除每个目标集合中具有最大特征重要性数值的数据特征，并将每个目标集合中的剩余的数据特征合并为一个特征集合，将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除，得到模型待选特征。

在本实施例中，所述特征集合中的数据特征为m个，所述模型待选特征为n-m个，m为小于n的正整数。

步骤S16，将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值；判断所述差值是否符合预设条件；在所述差值符合所述预设条件时，从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据；根据所述差值以及所述第二性能指标数据确定模型基准性能数据。

步骤S17，将所述自动化模型特征以及所述模型基准性能数据进行关联存储。

可以理解，通过上述步骤S11-步骤S17，能够依据特征重要性数值排序剔除高相关特征，不仅能够减少模型建立过程中的运算时间和内存需求，降低模型复杂度以方便模型的实际运用与后期维护，而且让特征的选择更加合理。此外，能够结合特征重要性与模型性能两个维度在保证模型性能的情况下极大降低模型运算的资源消耗。

在一种可替换的实施方式中，步骤S14所描述的从所述相关性系数矩阵中确定出多个目标集合，具体可以包括以下子步骤：从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合；将具有相同元素的第一集合进行合并以得到多个目标集合。

例如，将相关性系数矩阵中相关性系数大于0.8且小于1对应的行列名称建立一个集合，即（行名称，列名称），最终得到y个小集合，即有y对变量相关性大于0.8。这y个小集合中如果有元素相同，则合并有相同元素的集合并对合并后的集合去除重复项。最终得到z个大集合（这z个集合相互之间没有任何重复元素）。比如集合1（var1，var3），集合2（var3，var8），集合3（var4，var5），集合4（var4，var9），集合5（var4，var6），则需要合并为两个大集合（var1，var3，var8），（var4，var5，var6，var9），且最终合并后的两个大集合相互之间没有重复元素。

进一步地，步骤S16所描述的将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值，具体可以包括以下子步骤S1611-子步骤S1613所描述的内容。

步骤S1611，将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列。

步骤S1612，将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据；将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据；其中，x为正整数。

步骤S1613，计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。

在本实施例中，设定验证方式可以是5折交叉验证，x的取值可以为5。

在上述基础上，步骤S16所描述的判断所述差值是否符合预设条件具体包括：判断所述差值是否大于设定阈值；若所述差值大于所述设定阈值，则判定所述差值不符合所述预设条件；若所述差值小于等于所述设定阈值，则判定所述差值符合所述预设条件。

进一步地，步骤S16所描述的根据所述差值以及所述第二性能指标数据确定模型基准性能数据，具体可以包括以下步骤S1621和步骤S1622所描述的内容。

步骤S1621，计算所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数据。

步骤S1622，将所述预设分类器在设定验证方式下训练集上的x个模型待选特征对应的第三性能指标数、所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据以及所述第二性能指标数据确定为所述模型基准性能数据。

在步骤S16的基础上，在所述差值不符合所述预设条件时，将所述序列中的前3x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的3x个模型待选特征对应的第一性能指标数据。计算所述3x个模型待选特征对应的第一性能指标数据与所述2x个模型待选特征对应的第一性能指标数据之间的差值并返回执行判断所述差值是否符合预设条件的步骤。

下面以一具体示例来说明步骤S16的实现过程。

以XGBoost算法及其默认参数为分类器，以建模样本数据为基准，将模型待选特征根据特征重要性数值从高到低排序。将第1至第5个模型待选特征加入分类器，计算分类器在5折交叉验证时测试集上的平均AUC值a1，得到第1个平均AUC值；再将第1-10个特征加入分类器，计算分类器在5折交叉验证时测试集上的平均AUC值a2，并判断a2-a1是否大于平均AUC差值的阈值0.005，若大于，则继续将第1-15个特征加入分类器，依次类推，最终当第k次平均AUC值减去第k-1次平均AUC值的差额小于步骤一输入的0.005时，终止运算，并将第k-1次模型的特征作为自动化模型特征，保存为列表文件，同时计算模型在跨时间样本上的AUC作为后续建模调参的依据，并将第k-1次的训练集AUC均值、测试集AUC均值、跨时间样本上的AUC值分别保存为模型基准性能。

可以理解，所述x个模型待选特征对应的第一性能指标数据对应a1，所述2x个模型待选特征对应的第一性能指标数据对应a2，所述3x个模型待选特征对应的第一性能指标数据对应a3，以此类推。

基于上述同样的发明构思，请结合参阅图2，提供了一种数据特征处理装置200，应用于数据处理服务器，所述装置包括：

数据获取模块210，用于获取多组业务数据；其中，每组业务数据包括n个数据特征，n为正整数；

模型建立模块220，用于按照业务数据的获取时刻由近到远的顺序对所述多组业务数据进行排序得到业务数据排序序列；确定排序靠前的第一设定比例的业务数据作为跨时间验证集并确定排序靠后的第二设定比例的业务数据作为建模样本数据；以所述建模样本数据对应的数据特征为模型特征，采用预设分类器建立识别模型；其中，所述第一设定比例和所述第二设定比例的和值为一；

矩阵计算模块230，用于根据所述识别模型及其增益指标计算所述n个数据特征的特征重要性数值，以所述建模样本数据为基准，计算所述n个数据特征中各个数据特征的相关性系数矩阵；其中，所述相关性系数矩阵为n*n矩阵；

集合确定模块240，用于从所述相关性系数矩阵中确定出多个目标集合；其中，不同的目标集合之间不存在重复的元素；

特征剔除模块250，用于删除每个目标集合中具有最大特征重要性数值的数据特征，并将每个目标集合中的剩余的数据特征合并为一个特征集合，将所述n个数据特征中与所述特征集合中的数据特征相同的数据特征剔除，得到模型待选特征；其中，所述特征集合中的数据特征为m个，所述模型待选特征为n-m个，m为小于n的正整数；

数据计算模块260，用于将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值；判断所述差值是否符合预设条件；在所述差值符合所述预设条件时，从所述模型待选特征中确定出自动化模型特征并计算所述识别模型在所述跨时间验证集上的第二性能指标数据；根据所述差值以及所述第二性能指标数据确定模型基准性能数据；

关联存储模块270，用于将所述自动化模型特征以及所述模型基准性能数据进行关联存储。

可选地，所述集合确定模块240，具体用于：从所述相关性系数矩阵中选取出相关性系数位于设定数值区间内的行名称和列名称并建立多个第一集合；将具有相同元素的第一集合进行合并以得到多个目标集合；

所述数据计算模块260，具体用于：将所述模型待选特征按照特征重要性数值由高到低的顺序进行排序得到模型待选特征序列；将所述序列中的前x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的x个模型待选特征对应的第一性能指标数据；将所述序列中的前2x个模型待选特征导入所述预设分类器并计算所述预设分类器在设定验证方式下测试集上的2x个模型待选特征对应的第一性能指标数据；其中，x为正整数；计算所述2x个模型待选特征对应的第一性能指标数据与所述x个模型待选特征对应的第一性能指标数据之间的差值。

可选地，所述数据计算模块260，进一步用于：

判断所述差值是否大于设定阈值；

所述数据计算模块，进一步用于：

可选地，所述数据计算模块260，还用于：

关于上述功能模块的描述请参阅对图1所示的方法的说明，在此不作赘述。

在上述基础上，请结合参阅图3，提供了一种数据处理服务器300的硬件结构示意图，所述数据处理服务器300包括互相之间通信的处理器310和存储器320，所述处理器310通过从所述存储器320中调取计算机程序，并运行所述计算机程序实现如图1所示的方法。

综上，本发明实施例所提供的数据特征处理方法及数据特征处理装置，首先按照业务数据的获取时刻的先后顺序对获取到的多组业务数据进行排序得到业务数据排序序列并确定出跨时间验证集以及建模样本数据，以根据建模样本数据对应的数据特征为模型特征采用预设分类器建立识别模型。其次根据所述识别模型及其增益指标计算业务数据的数据特征的特征重要性数值并以建模样本数据为基准计算相关性系数矩阵。然后根据相关性系数矩阵确定模型待选特征。最后将模型待选特征分批次导入预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值并在差值符合预设条件时，从模型待选特征中确定出自动化模型特征并计算识别模型在跨时间验证集上的第二性能指标数据，进而根据差值以及第二性能指标数据确定模型基准性能数据。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据特征处理方法，其特征在于，应用于数据处理服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，从所述相关性系数矩阵中确定出多个目标集合，包括：

将具有相同元素的第一集合进行合并以得到多个目标集合。

3.根据权利要求1所述的方法，其特征在于，将所述模型待选特征按照特征重要性数值由高到低的顺序分批次导入所述预设分类器，获取预设分类器计算出的相邻两个第一性能指标数据的差值，包括：

4.根据权利要求3所述的方法，其特征在于，判断所述差值是否符合预设条件，包括：

判断所述差值是否大于设定阈值；

5.根据权利要求4所述的方法，其特征在于，根据所述差值以及所述第二性能指标数据确定模型基准性能数据，包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.一种数据特征处理装置，其特征在于，应用于数据处理服务器，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求8所述的装置，其特征在于，

所述数据计算模块，进一步用于：

判断所述差值是否大于设定阈值；

10.根据权利要求9所述的装置，其特征在于，所述数据计算模块，还用于：