CN105786860A

CN105786860A - 一种数据建模中的数据处理方法及装置

Info

Publication number: CN105786860A
Application number: CN201410814222.7A
Authority: CN
Inventors: 李辰; 谭卫国; 汪芳山
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-12-23
Filing date: 2014-12-23
Publication date: 2016-07-20
Anticipated expiration: 2034-12-23
Also published as: WO2016101628A1; CN105786860B; EP3223170A4; EP3223170A1; US10606862B2; US20170300546A1

Abstract

本发明公开了一种数据建模中的数据处理方法及装置，用以解决现有技术中，原始数据的预处理流程存在的计算量大，计算时间长，浪费计算资源，降低工作效率的问题。该方法为：根据预设的数据处理类别标识对应的数据转换函数，对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；确定扩展特征集中每个特征的相关性系数；选择相关性系数符合设定条件的特征作为重要特征，在扩展特征集中筛选出重要特征对应的数据列。这样，避免通过穷举数据预处理方法进行数据建模造成的消耗时间长，计算量大的问题，提高了计算效率，提高了自动化数据建模的灵活性和适应性。

Description

一种数据建模中的数据处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据建模中的数据处理方法及装置。

背景技术

数据挖掘是数据库知识发现中的其中一个步骤，是从大量数据中寻找隐藏的关系提取出有价值的信息。通常，数据挖掘中会结合数据库技术、统计学、在线分析处理、机器学习领域的方法和技术，从不同的角度对数据进行处理。

数据挖掘的具体流程包括以下步骤：业务理解、数据理解、数据准备、建立模型、模型评估以及模型部署。

在数据准备过程中，需要将获取的原始数据进行预处理。原始数据为保存在数据库或者数据仓库中的宽表数据，参阅表1所示，原始数据包括缺失值(如李XX的年龄)、异常值(张XX的年龄和通话时长)，还包括连续值(年龄列、套餐费列、通话时长列)和离散值(性别、地区、是否离网)，原始数据中的每一列称为一个特征，在实际应用中，可以根据训练不同的需要，选择不同的特征作为目标特征。

表1原始数据表

在针对原始数据的特征进行预处理过程中，包括缺失值填充、异常值处理、连续值标准化、连续值离散化、离散值合并操作等方法。

数据准备过程中，对原始数据进行预处理是数据挖掘、数据建模流程中非常重要的步骤，预处理可以将原始数据转化为适合数据建模算法的训练数据集，更为重要的是，预处理的结果直接影响数据挖掘和数据建模的效果。然而在传统数据挖掘中，数据准备通常是由数据挖掘领域专家进行，不仅对建模人员的技术要求高，而且预处理过程需要人工参与，效率较低，耗时长，且对数据预处理的流程不具有复用性。

目前，通常采用网格搜索进行原始数据预处理，在使用网格搜索进行数据预处理时，需要设置所有预处理的方法以及每个方法的参数配置，如在连续值离散化具体包括等宽分箱、等深分箱、等频率分箱等方法，等宽分箱方法的参数可以为10，50或100等；根据不同的预处理方法以及参数值的不同，划分为一系列网格，每个网格对应一种预处理方法的组合，称为一个预处理方案；依次对每个网格中的点进行计算；分别将每次计算输出的数据结果作为训练数据进行模型训练，训练完成后，对模型的效果进行评估，生成对应每个网格的评价指标，筛选出评价指标最优的网格对应的结果为最终结果。

采用网格搜索需要穷举所有可行的预处理方案，并对每个方案的预处理结果进行建模，得到最终的数据预处理方案。显然，对原始数据进行预处理的方法很多，每个方法可能对应不同的参数值，因此，组合生成的预处理方案较多，复杂度和数量成指数关系，计算量大，并且评估每一个预处理方案的时候均需要进行完整的数据建模流程，数据建模流程计算时间长，重复建模计算量大，增加了计算机的运行负载，浪费计算资源，降低了计算机的工作效率。

发明内容

本发明实施例提供一种数据建模中的数据处理方法及装置，用以解决现有技术中原始数据预处理流程存在的计算时间长，计算量大，增加计算机运行负载，浪费计算资源，降低计算机工作效率的问题。

本发明实施例提供的具体技术方案如下：

第一方面，一种数据建模中的数据处理方法，包括：

读取原始数据以及预设的多个数据处理类别标识，其中，所述原始数据中的每一个数据列均对应一个特征；

根据各个数据处理类别标识分别对应的数据转换函数，对所述原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；

确定所述扩展特征集中每个特征的相关性系数；

选择相关性系数符合设定条件的特征作为重要特征；

在所述扩展特征集中筛选出所述重要特征对应的数据列。

结合第一方面，在第一种可能的实现方式中，对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列，包括：

根据所述任一特征对应的数据列，在所述多个数据处理类别标识中，筛选出与所述任一特征相对应的目标数据处理类别标识；

分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对所述任一特征对应的数据列进行数据转换，生成所述每一个目标数据处理类别标识对应的扩展特征；

将所有目标数据处理类别标识对应的扩展特征作为所述任一特征的扩展特征列。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，根据所述任一特征对应的数据列，在所述多个数据处理类别标识中，筛选出与所述任一特征相对应的目标数据处理类别，包括：

根据所述任一特征对应的数据列，确定所述任一特征的数据类型，在所述多个数据处理类别标识中，筛选出与所述数据类型相对应的目标数据处理类别标识，其中，所述数据类型包括离散类型、连续类型；或/和

根据所述任一特征对应的数据列，确定所述任一特征的数据缺陷类型，在所述多个数据处理类别标识中，筛选出与所述数据缺陷类型相对应的目标数据处理类别标识，其中，所述数据缺陷类型包括缺失值、异常值。

结合第一方面或第一方面的以上任一种可能的实现方式，在第三种可能的实现方式中，将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集，包括：

将所述原始数据中的所有特征对应的扩展特征列进行组合，并对组合后的扩展特征列中的每个数据列进行独热one-hot编码，生成扩展特征集。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，对组合后的扩展特征列中的每个数据列进行one-hot编码，生成扩展特征集后，还包括：

对所述扩展特征集中的任意两个数据列进行逻辑与运算，得到新的数据列添加至扩展特征集。

结合第一方面或第一方面的以上任一种可能的实现方式，在第五种可能的是实现方式中，确定所述扩展特征集中每个特征的相关性系数，包括：

获取目标正则化系数，基于所述目标正则化系数对所述扩展特征集进行逻辑回归训练，得到对应的目标逻辑回归函数；

根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，获取目标正则化系数，包括：

获取预设的目标正则化系数；或

获取预设的多个正则化系数，基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数。

结合第一方面中的第六种可能的实现方式，在第七种可能的实现方式中，基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数，具体包括：

分别根据预设的多个正则化系数中的每个正则化系数，对所述扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数；根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数；或者

分别根据预设的多个正则化系数中的每个正则化系数，对所述扩展特征集进行线性支持向量机运算，得到对应的支持向量函数；根据每个正则化系数对应的支持向量函数，确定目标正则化系数。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，分别根据预设的多个正则化系数中的每个正则化系数，对所述扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数，包括：

对所述扩展特征集按照设定比例进行抽样，得到训练集；

分别根据预设的所述多个正则化系数中的每个正则化系数，对所述训练集进行逻辑回归训练，得到对应的逻辑回归函数。

结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数，包括：

将所述扩展特征集中除训练集以外的数据作为验证集；

在所述验证集中的所有特征中确定目标特征；

分别计算每一个正则化系数对应的逻辑回归函数针对所述验证集中目标特征的准确系数；

筛选出对应的准确系数最高的逻辑回归函数，并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。

结合第一方面的第九种可能的实现方式，在第十种可能的实现方式中，当目标特征为分类特征时，所述准确系数为以下任意一项：准确率、召回率、F值，以及处于受试者工作特征曲线下方的面积AUC；当目标特征为连续特征时，所述准确系数为平均误差平方和的倒数。

结合第一方面中的第五至第十中任一种可能的实现方式，在第十一种可能的实现方式中，根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数，包括：

将所述目标逻辑回归函数中每个特征对应的权重，作为所述每个特征对应的相关性系数。

结合第一方面的或第一方面的以上任一种可能的实现方式，在第十二种可能的实现方式中，选择相关性系数符合设定条件的特征作为重要特征，包括：

选择相关性系数大于设定相关性系数阈值的特征作为重要特征；或

按照相关性系数从大到小对每个特征进行排序，选择前设定个数的特征作为重要特征。

第二方面，一种数据建模中的数据处理装置，包括：

读取单元，用于读取原始数据以及预设的多个数据处理类别标识，其中，所述原始数据中的每一个数据列均对应一个特征；

处理单元，用于根据各个数据处理类别标识分别对应的数据转换函数，对所述原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；

确定单元，用于确定所述扩展特征集中每个特征的相关性系数；

第一选择单元，用于选择相关性系数符合设定条件的特征作为重要特征；

第二选择单元，用于在所述扩展特征集中筛选出所述重要特征对应的数据列。

结合第二方面，在第一种可能的实现方式中，所述处理单元在对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列时，具体用于：

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述处理单元在根据所述任一特征对应的数据列，在所述多个数据处理类别标识中，筛选出与所述任一特征相对应的目标数据处理类别时，具体用于：

结合第二方面或第二方面的以上任一种可能的实现方式，在第三种可能的实现方式中，所述处理单元在将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集时，具体用于：

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述处理单元在对组合后的扩展特征列中的每个数据列进行one-hot编码，生成扩展特征集后，还用于：

结合第二方面或第二方面的以上任一种可能的实现方式，在第五种可能的是实现方式中，所述确定单元，具体用于：

结合第二方面的第五种可能的实现方式，在第六种可能的实现方式中，所述确定单元在获取目标正则化系数时，具体用于：

获取预设的目标正则化系数；或

结合第二方面中的第六种可能的实现方式，在第七种可能的实现方式中，所述确定单元在基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数时，具体用于：

结合第二方面的第七种可能的实现方式，在第八种可能的实现方式中，所述确定单元在分别根据预设的多个正则化系数中的每个正则化系数，对所述扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数时，具体用于：

对所述扩展特征集按照设定比例进行抽样，得到训练集；

结合第二方面的第八种可能的实现方式，在第九种可能的实现方式中，所述确定单元在根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数时，具体用于：

将所述扩展特征集中除训练集以外的数据作为验证集；

在所述验证集中的所有特征中确定目标特征；

结合第二方面的第九种可能的实现方式，在第十种可能的实现方式中，当目标特征为分类特征时，所述准确系数为以下任意一项：准确率、召回率、F值，以及处于受试者工作特征曲线下方的面积AUC；当目标特征为连续特征时，所述准确系数为平均误差平方和的倒数。

结合第二方面中的第五至第十中任一种可能的实现方式，在第十一种可能的实现方式中，所述确定单元在根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数时，具体用于：

结合第二方面的或第二方面的以上任一种可能的实现方式，在第十二种可能的实现方式中，所述第一选择单元，具体用于：

采用本发明技术方案，通过根据预设的数据处理类别标识对应的数据转换函数，对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；确定扩展特征集中每个特征的相关性系数；选择相关性系数符合设定条件的特征作为重要特征，在扩展特征集中筛选出重要特征对应的数据列。通过扩展特征的方式降低了评估多种数据预处理方法的计算量，避免进行通过穷举数据预处理方法进行数据建模造成的消耗时间长，计算量大的问题，提高了计算效率，通过相关性排序选择重要特征，可以控制特征的数量，减少了数据建模时的输入数据量，以及计算机的计算量，也使数据预处理结果适应多种数据建模算法，提高了自动化数据建模的灵活性和适应性。

附图说明

图1为本发明实施例提供的一种终端设备结构示意图；

图2为本发明实施例提供的一种数据建模中的数据处理方法的具体流程图；

图3为本发明实施例提供的一种数据建模中的数据处理装置的结构示意图。

具体实施方式

采用本发明提供的数据建模中的数据处理方法，通过根据预设的数据处理类别标识对应的数据转换函数，对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；确定扩展特征集中每个特征的相关性系数；选择相关性系数符合设定条件的特征作为重要特征，在扩展特征集中筛选出重要特征对应的数据列。通过扩展特征的方式降低了评估多种数据预处理方法的计算量，避免进行通过穷举数据预处理方法进行数据建模造成的消耗时间长，计算量大的问题，提高了计算效率，通过相关性排序选择重要特征，可以控制特征的数量，减少了数据建模时的输入数据量，以及计算机的计算量，也使数据预处理结果适应多种数据建模算法，提高了自动化数据建模的灵活性和适应性。

本发明实施例提供了一种数据建模中的数据处理方法，应用于实现数据建模和数据挖掘的各种终端设备，如计算机、服务器等。下面结合附图对本发明优选的实施方式进行详细说明。

本发明实施例提供了一种实现数据建模中的数据处理方法的终端设备，该终端为携带各类应用的计算机等设备。参阅图1所示，该设备包括：收发器101、处理器102、总线103以及存储器104，其中：

收发器101、处理器102以及存储器104通过总线103相互连接；总线103可以是外设部件互连标准(peripheralcomponentinterconnect，简称PCI)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

收发器101用于获取原始数据，并将最后数据处理得到的结果——重要特征对应的数据列输出等。

处理器102用于实现本发明实施例图2所示的数据建模中的数据处理方法，包括：

读取原始数据以及预设的多个数据处理类别标识，其中，原始数据中的每一个数据列均对应一个特征；

根据各个数据处理类别标识分别对应的数据转换函数，对原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；

确定扩展特征集中每个特征的相关性系数；

选择相关性系数符合设定条件的特征作为重要特征；

在扩展特征集中筛选出重要特征对应的数据列。

可选的，对原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列，包括：

根据该任一特征对应的数据列，在多个数据处理类别标识中，筛选出与该任一特征相对应的目标数据处理类别标识；

分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对该任一特征对应的数据列进行数据转换，生成每一个目标数据处理类别标识对应的扩展特征；

将所有目标数据处理类别标识对应的扩展特征作为该任一特征的扩展特征列。

可选的，根据该任一特征对应的数据列，在多个数据处理类别标识中，筛选出与该任一特征相对应的目标数据处理类别，包括：

根据该任一特征对应的数据列，确定该任一特征的数据类型，在多个数据处理类别标识中，筛选出与数据类型相对应的目标数据处理类别标识，其中，数据类型包括离散类型、连续类型；或/和

根据该任一特征对应的数据列，确定该任一特征的数据缺陷类型，在多个数据处理类别标识中，筛选出与数据缺陷类型相对应的目标数据处理类别标识，其中，数据缺陷类型包括缺失值、异常值。

可选的，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集，包括：

将原始数据中的所有特征对应的扩展特征列进行组合，并对组合后的扩展特征列中的每个数据列进行独热one-hot编码，生成扩展特征集。

可选的，对组合后的扩展特征列中的每个数据列进行one-hot编码，生成扩展特征集后，还包括：

对扩展特征集中的任意两个数据列进行逻辑与运算，得到新的数据列添加至扩展特征集。

可选的，确定扩展特征集中每个特征的相关性系数，包括：

获取目标正则化系数，基于目标正则化系数对扩展特征集进行逻辑回归训练，得到对应的目标逻辑回归函数；

根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数。

可选的，获取目标正则化系数，包括：

获取预设的目标正则化系数；或

可选的，基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数，具体包括：

分别根据预设的多个正则化系数中的每个正则化系数，对扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数；根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数；或者

分别根据预设的多个正则化系数中的每个正则化系数，对扩展特征集进行线性支持向量机运算，得到对应的支持向量函数；根据每个正则化系数对应的支持向量函数，确定目标正则化系数。

可选的，分别根据预设的多个正则化系数中的每个正则化系数，对扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数，包括：

对扩展特征集按照设定比例进行抽样，得到训练集；

分别根据预设的多个正则化系数中的每个正则化系数，对训练集进行逻辑回归训练，得到对应的逻辑回归函数。

可选的，根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数，包括：

将扩展特征集中除训练集以外的数据作为验证集；

在验证集中的所有特征中确定目标特征；

分别计算每一个正则化系数对应的逻辑回归函数针对验证集中目标特征的准确系数；

可选的，当目标特征为分类特征时，准确系数为以下任意一项：准确率、召回率、F值，以及处于受试者工作特征曲线下方的面积AUC；当目标特征为连续特征时，准确系数为平均误差平方和的倒数。

可选的，根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数，包括：

将目标逻辑回归函数中每个特征对应的权重，作为每个特征对应的相关性系数。

可选的，选择相关性系数符合设定条件的特征作为重要特征，包括：

该终端设备100还包括存储器104，用于存放程序，数据处理类别标识和对应的数据转换函数、原始数据以及原始数据生成的扩展特征集等。具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。存储器104可能包含随机存取存储器(randomaccessmemory，RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。处理器102执行存储器104所存放的应用程序，实现如上数据建模中的数据处理方法。

参阅图2所示，本发明实施例提供的一种数据建模中的数据处理方法的具体处理流程包括：

步骤201：读取原始数据以及预设的多个数据处理类别标识，其中，原始数据中的每一个数据列均对应一个特征。

具体的，在执行步骤201时，可以从本地的数据库或数据仓库中读取原始数据，或者直接从服务器或其他存储设备中读取原始数据，原始数据为如表1中的宽表数据，其中每一个数据列均对应一个特征。

预设的多个数据处理类别标识保存在预处理方法知识库中，每一个数据处理类别标识对应一个转换函数，即包含具体参数的预处理方法，如参数为10的等宽分箱，或参数为50的等宽分箱，或缺失值填充为近邻填充。

步骤202：根据各个数据处理类别标识分别对应的数据转换函数，对原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将该原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集。

具体的，对原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列，包括：

其中，根据该任一特征对应的数据列，在多个数据处理类别标识中，筛选出与该任一特征相对应的目标数据处理类别，包括：

根据该任一特征对应的数据列，确定该任一特征的数据类型，在多个数据处理类别标识中，筛选出与该数据类型相对应的目标数据处理类别标识，其中，数据类型包括离散类型、连续类型；或/和

根据该任一特征对应的数据列，确定该任一特征的数据缺陷类型，在多个数据处理类别标识中，筛选出与该数据缺陷类型相对应的目标数据处理类别标识，其中，数据缺陷类型包括缺失值、异常值。

例如，确定该任一特征——收入，对应的数据为连续值，且确定该特征中有缺失值，则根据该特征的数据类型，确定对应的目标数据处理类别标识包括：连续值标准化中参数取值为10、50和100等宽分箱，以及参数取值为50和100的等深分箱，还包括缺失值填充的近邻填充和众数填充，因此，该特征对应目标数据处理类别标识包括7个；

分别根据确定的每个目标数据处理类别标识对应的数据转化函数对该特征的对应的数据进行转换，生成对应的扩展特征；其中，每个扩展特征对应的数据列数量不同，例如，近邻填充和众数填充，对应的扩展特征为一个数据列，而对于等宽分箱和等深分箱，生成的数据列根据拆分的箱的个数不同而不同。

将所有目标数据处理类别标识对应的扩展特征作为该特征的扩展特征列，因此，原始数据中的该特征为一个数据列，根据7个转换函数转换为7个不同的扩展特征，这7个扩展特征称为该特征的扩展特征列。

对原始数据中的每个特征对应的数据进行数据转换均生成对应的扩展特征列，这些扩展特征列组合称为扩展特征集。

具体的，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集，包括：

对组合后的扩展特征列中的每个数据列进行one-hot编码，每个数据的取值变为0或1，使生成的扩展特征集的数据取值进行简化，提高对扩展特征集的处理速度。

在得到扩展特征集后，还包括：

对该扩展特征集中的任意两个数据列进行逻辑与运算，得到新的数据列添加至扩展特征集。

将one-hot编码后的两个数据列进行逻辑与运算，得到高阶的扩展特征，再将该高阶的扩展特征添加至扩展特征集，这样，可以准确地计算两个特征的相关性。

步骤203：确定扩展特征集中每个特征的相关性系数。

具体的，执行步骤203包括以下步骤：

获取目标正则化系数，对该扩展特征集进行逻辑回归训练，得到对应的目标逻辑回归函数；

根据目标逻辑回归函数确定该扩展特征集中每个特征的相关性系数。

具体的，获取目标正则化系数，包括以下两种方式：

第一种方式：获取预设的目标正则化系数；

第二种方式：获取预设的多个正则化系数，基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数。

具体的，在第二种方式中，基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数，包括两种方法：

第一种方法：分别根据预设的多个正则化系数中的每个正则化系数，对该扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数；再根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数；

第二种方法：分别根据预设的多个正则化系数中的每个正则化系数，对该扩展特征集进行线性支持向量机运算，得到对应的支持向量函数；根据每个正则化系数对应的支持向量函数，确定目标正则化系数。

在第一种方法中，分别根据预设的多个正则化系数中的每个正则化系数，对该扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数，包括：

对该扩展特征集按照设定比例进行抽样，得到训练集；

分别根据预设的多个正则化系数中的每个正则化系数，对该训练集进行逻辑回归训练，得到对应的逻辑回归函数。

对扩展特征集进行按行随机采样，将扩展特征集按照比例分为训练集和验证集，例如常见的70：30或者80：20，本发明实施不做具体限定。分别选择预设定的多个正则化系数中的一个，例如0.01，0.05，0.1，0.2；以训练集为输入样本，针对每个lambda进行L1范数或者L2范数的逻辑回归训练，设定迭代的次数或者收敛的错误范围，进行随机梯度下降的逻辑回归迭代计算，在达到迭代次数或者收敛的错误范围时停止迭代，得到训练出的逻辑回归函数。

逻辑回归训练得到的逻辑回归函数，例如：f(x)＝0.5*“年龄20-30”+0.35*“性别男”+0.45*“地区北京”...

具体的，根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数，包括：

将扩展特征集中除训练集以外的数据作为验证集；

在该验证集中的所有特征中确定目标特征；

在第二种方法中，与第一种方法类似，分别根据预设的多个正则化系数中的每个正则化系数，对该扩展特征集进行线性支持向量机运算，得到对应的支持向量函数，包括：

对该扩展特征集按照设定比例进行抽样，得到训练集；

分别根据预设的多个正则化系数中的每个正则化系数，对该训练集进行线性支持向量机运算，得到对应的支持向量函数。

根据每个正则化系数对应的支持向量函数，确定目标正则化系数，包括：

将该扩展特征集中除训练集以外的数据作为验证集；

在该验证集中的所有特征中确定目标特征；

分别计算每一个正则化系数对应的支持向量函数针对该验证集中目标特征的准确系数；

筛选出对应的准确系数最高的支持向量函数，并将筛选出的支持向量函数对应的正则化系数作为目标正则化系数。

在第二种方法中得到的支持向量函数与第一种方法中的逻辑回归函数的结构相同，均为f(x)＝0.5*“年龄20-30”+0.35*“性别男”+0.45*“地区北京”...的形式。

其中，当目标特征为分类特征时，该准确系数为以下任意一项：准确率、召回率、F值，以及处于受试者工作特征曲线下方的面积(AreaUnderrocCurver，AUC)；当目标特征为连续特征时，该准确系数为平均误差平方和的倒数。

确定目标特征为分类特征后，分别将验证集中每行除目标特征对应的数据以外的数据带入逻辑回归函数，验证得到的结果与该目标特征对应的数据是否相同，准确率为结果相同的行数与验证集所有行数的比例；

确定目标特征未连续特征时，同样地，分别将验证集中每行出目标特征对应的数据以外的数据代入逻辑回归函数，计算验证得到的结果与目标特征对应的数据的平均误差平方和，将平均误差平方和的倒数作为准确系数。

具体的，根据该目标逻辑回归函数确定该扩展特征集中每个特征的相关性系数，包括：

将该目标逻辑回归函数中每个特征对应的权重，作为该每个特征对应的相关性系数。

步骤204：选择相关性系数符合设定条件的特征作为重要特征。

具体的，执行步骤204时包括两种方式：

第一种方式：选择相关性系数大于设定相关性系数阈值的特征作为重要特征；

第二种方式：按照相关性系数从大到小对每个特征进行排序，选择前设定个数的特征作为重要特征。

步骤205：在该扩展特征集中筛选出该重要特征对应的数据列。

基于选择的重要特征，对之前生成的扩展特征集进行过滤，只筛选出重要特征对应的数据列，作为预处理结果，然后对预处理结果进行数据建模。

根据数据挖掘流程，对经过自动化预处理的数据进行建模，可以选择多种算法，如决策树、朴素贝叶斯、神经网络、逻辑回归等；对生成的模型进行评估，计算统计量，给出模型的统计评估，最后输出最终模型，作为模型部署的计算模型。

其中，在本发明实施例提供的数据建模中的数据处理方法中，预设的预处理方法知识库中保存有对原始数据的特征进行预处理的所有预处理方法，包括缺失值填充、异常值处理、连续值标准化、连续值离散化、离散值合并等各种预处理方法。每个方法的对应多个参数取值，则该方法对应多个数据处理类别标识或转换函数，其中，

缺失值填充通常包括近邻填充、中值填充、众数填充等方法，如对已知用户年龄和职业，但是缺失收入的数据进行填充，包括：近邻填充，将其他职业相同，且年龄相近的收入进行平均，作为该用户的收入；中值填充，将所有其他用户的收入求平均值，作为该用户的收入；众数填充，将所有人中出现最多的收入值，作为该用户的收入。

异常值处理，通常为对异常值丢弃或修改，在进行缺失值填充，填充方法如上，此处不再赘述。

连续值标准化为一种对连续型数据数值的转换方法，目的是将所有数值的取值范围统一到设定的区间内。常见的连续值标准化的方法有标准分数(Z值)和min-max方法。其中，标准分数的计算公式是z＝(x-平均值)/标准差，经过转换的数值平均值为0；min-max方法的计算公式是x-min/(max-min)，经过转换的数值取值范围为[0,1]。

连续值离散化是将数值转化为一系列离散的取值范围，目的是减少取值个数以减少计算量，以及提高相近数值的相关性。常见的离散化方法有等宽分箱、等深分箱、等频率分箱等方法。例如，假设用户的收入是取值范围[0,100000]的变量，所有用户可能会有10000种不同的取值，为了降低计算复杂度，通常将用户收入进行离散化，分成10-100个箱(取值范围)以降低计算复杂度，然后对其进行计算。其中，等宽分箱中每个箱(区间)大小相同，例如将[0,100000]分成100个箱，则第一个箱是[0,1000)，第二个箱是[1000,2000)，以此类推，每个箱的大小为100000/100＝1000；如果分成50个箱，则第一个箱是[0,2000)，第二个箱是[2000,4000)；等深分箱则使每个箱中的取值个数相等，例如指定100个箱，则从小到大进行分箱，使第一个箱中有100个值，第二个箱中也有100个值，依次类推。等频率分箱和等深分箱类似，但是指定每个箱中取值的个数而不是分箱个数，例如指定每个箱中有200个值，则最后一共生成50个箱。显然，不同的连续值离散化效果不一样，因此，从多种多种分箱方式且多种参数的预处理方法中中选择最佳的方法，是数据准备阶段需要处理的重要问题。

离散值合并可以将许多离散的取值进行合并，目的是减少取值个数以减少计算量，以及提高相近取值的相关性。常见的合并方法有基于知识的合并、基于频率的合并等方法。其中，基于知识的合并，例如，假设用户的地区以城市为单位，例如广州市、深圳市，则可以基于现有的中国地理知识，将所有属于广东省的进行合并，生成以省为单位的变量；基于频率的合并可以根据离散值出现的频率，将类似频率的进行合并，比如出现10000次以上的作为一类，5000-10000次的作为一类，1000-5000的作为一类。

表2原始数据表

以表2中的原始数据为例，使用以上本发明实施例提供的数据建模中的数据处理方法对表2中的原始数据进行处理，具体流程包括：

获取原始数据表2，以及所有预设的多个数据处理类别标识。

根据原始数据表2，确定对应的数据处理类别标识，即对特征“通话时长”的缺失值进行填充，选择中值填充，对特征“年龄”进行参数为10的等宽分箱，若年龄跨度为1-50，则生成5个特征——“年龄1-10”、“年龄11-20”、“年龄21-30”、“年龄31-40”以及“年龄41-50”。

根据所述数据处理类别标识对应的数据转换函数，对所述原始数据中的每个特征进行转换，生成对应的扩展特征列，在本实施例中，仅分别对原始数据中的特征“通话时长”和特征“年龄”进行数据转换，生成的对应的扩展特征列，如表3和表4所示。

表3“通话时长”对应的扩展特征列

通话时长
	150
450
	300
…

表4“年龄”对应的扩展特征列

将原始数据中的所有特征对应的扩展特征列进行组合生成组合后的扩展特征列，如表5所示：

表5组合后的扩展特征列

对组合后的扩展特征列进行one-hot编码，生成扩展特征集，本发明实施例中，仅以对年龄的各个特征进行编码说明，其它特征不在赘述，如表6所示：

表6one-hot编码后的扩展特征集

对扩展特征集进行按行随机采样，按照比例分为训练集和验证集，分别根据预设的多个正则化系数中的每个正则化系数，如0.01，0.05，0.1，0.2，对训练集进行逻辑回归训练，得到对应的逻辑回归函数。

确定目标特征，如“地区”或“套餐费”，分别计算每一个正则化系数对应的逻辑回归函数针对验证集中目标特征的准确系数，若目标特征为“地区”，属于分类特征，则该准确系数为准确率；若目标特征为“套餐费”，属于连续特征，则该准确系数为平均误差平方和的倒数。

选择得到的准确系数最高的逻辑回归函数，将该逻辑回归函数对应的正则化系数作为目标正则化系数，如0.1。

根据获取的目标正则化系数0.1，对整个扩展特征集进行逻辑回归训练，得到对应的目标逻辑回归函数，如，f(x)＝0.5*“年龄21-30”+0.35*“性别男”+0.45*“地区北京”+0.05*“年龄1-10”...

根据该目标逻辑回归函数，确定扩展特征及中每个特征的相关性系数，即将目标逻辑回归函数中每个特征对应的权重，作为对应的相关性系数，并根据相关性系数的取值从大到小排序，如表7所示：

表7每个特征以及对应的相关性系数

选择相关性系数符合设定条件的特征作为重要特征，可以包括以下两种方式：

第一种方式：选择相关性系数大于设定相关性系数阈值(如0.3)的特征作为重要特征；

第二种方式：按照相关性系数从大到小对每个特征进行排序，选择前设定个数(如3)的特征作为重要特征。

通过以上两种方式，可以确定重要特征为“年龄21-30”、“地区北京”、“性别男”。

在扩展特征集中筛选出重要特征——“年龄21-30”、“地区北京”、“性别男”对应的数据列，作为最终的数据处理结果，如表8所示。

表8数据处理结果

根据数据挖掘的流程，对数据处理结果进行数据建模，得到最终的数据模型。

基于以上实施例，本发明还提供了一种数据建模中的数据处理装置，参阅图3所示，该装置包括：

读取单元301，用于读取原始数据以及预设的多个数据处理类别标识，其中，原始数据中的每一个数据列均对应一个特征；

处理单元302，用于根据各个数据处理类别标识分别对应的数据转换函数，对原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；

确定单元303，用于确定扩展特征集中每个特征的相关性系数；

第一选择单元304，用于选择相关性系数符合设定条件的特征作为重要特征；

第二选择单元305，用于在扩展特征集中筛选出重要特征对应的数据列。

处理单元302在对原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列时，具体用于：

处理单元302在根据该任一特征对应的数据列，在多个数据处理类别标识中，筛选出与该任一特征相对应的目标数据处理类别时，具体用于：

处理单元302在将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集时，具体用于：

处理单元302在对组合后的扩展特征列中的每个数据列进行one-hot编码，生成扩展特征集后，还用于：

确定单元303，具体用于：

确定单元303在获取目标正则化系数时，具体用于：

获取预设的目标正则化系数；或

确定单元303在基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数时，具体用于：

确定单元303在分别根据预设的多个正则化系数中的每个正则化系数，对扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数时，具体用于：

对扩展特征集按照设定比例进行抽样，得到训练集；

确定单元303在根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数时，具体用于：

将扩展特征集中除训练集以外的数据作为验证集；

在验证集中的所有特征中确定目标特征；

确定单元303在根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数时，具体用于：

第一选择单元304，具体用于：

综上所述，通过本发明实施例中提供的一种数据建模中的数据处理方法及装置，该方法通过根据预设的数据处理类别标识对应的数据转换函数，对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列，将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集；确定扩展特征集中每个特征的相关性系数；选择相关性系数符合设定条件的特征作为重要特征，在扩展特征集中筛选出重要特征对应的数据列。通过扩展特征的方式降低了评估多种数据预处理方法的计算量，避免进行通过穷举数据预处理方法进行数据建模造成的消耗时间长，计算量大的问题，提高了计算效率，通过相关性排序选择重要特征，可以控制特征的数量，减少了数据建模时的输入数据量，以及计算机的计算量，也使数据预处理结果适应多种数据建模算法，提高了自动化数据建模的灵活性和适应性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据建模中的数据处理方法，其特征在于，包括：

确定所述扩展特征集中每个特征的相关性系数；

选择相关性系数符合设定条件的特征作为重要特征；

在所述扩展特征集中筛选出所述重要特征对应的数据列。

2.如权利要求1所述的方法，其特征在于，对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列，包括：

3.如权利要求2所述的方法，其特征在于，根据所述任一特征对应的数据列，在所述多个数据处理类别标识中，筛选出与所述任一特征相对应的目标数据处理类别，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集，包括：

5.如权利要求4所述的方法，其特征在于，对组合后的扩展特征列中的每个数据列进行one-hot编码，生成扩展特征集后，还包括：

6.如权利要求1-5任一项所述的方法，其特征在于，确定所述扩展特征集中每个特征的相关性系数，包括：

7.如权利要求6所述的方法，其特征在于，获取目标正则化系数，包括：

获取预设的目标正则化系数；或

8.如权利要求7所述的方法，其特征在于，基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数，具体包括：

9.如权利要求8所述的方法，其特征在于，分别根据预设的多个正则化系数中的每个正则化系数，对所述扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数，包括：

对所述扩展特征集按照设定比例进行抽样，得到训练集；

10.如权利要求9所述的方法，其特征在于，根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数，包括：

将所述扩展特征集中除训练集以外的数据作为验证集；

在所述验证集中的所有特征中确定目标特征；

11.如权利要求10所述的方法，其特征在于，当目标特征为分类特征时，所述准确系数为以下任意一项：准确率、召回率、F值，以及处于受试者工作特征曲线下方的面积AUC；当目标特征为连续特征时，所述准确系数为平均误差平方和的倒数。

12.如权利要求6-11任一项所述的方法，其特征在于，根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数，包括：

13.如权利要求1-12任一项所述的方法，其特征在于，选择相关性系数符合设定条件的特征作为重要特征，包括：

14.一种数据建模中的数据处理装置，其特征在于，包括：

15.如权利要求14所述的装置，其特征在于，所述处理单元在对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列时，具体用于：

16.如权利要求15所述的装置，其特征在于，所述处理单元在根据所述任一特征对应的数据列，在所述多个数据处理类别标识中，筛选出与所述任一特征相对应的目标数据处理类别时，具体用于：

17.如权利要求14-16任一项所述的装置，其特征在于，所述处理单元在将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集时，具体用于：

18.如权利要求17所述的装置，其特征在于，所述处理单元在对组合后的扩展特征列中的每个数据列进行one-hot编码，生成扩展特征集后，还用于：

19.如权利要求14-18任一项所述的装置，其特征在于，所述确定单元，具体用于：

20.如权利要求19所述的装置，其特征在于，所述确定单元在获取目标正则化系数时，具体用于：

获取预设的目标正则化系数；或

21.如权利要求20所述的装置，其特征在于，所述确定单元在基于扩展特征集，在预设的多个正则化系数中筛选出目标正则化系数时，具体用于：

22.如权利要求21所述的装置，其特征在于，所述确定单元在分别根据预设的多个正则化系数中的每个正则化系数，对所述扩展特征集进行逻辑回归训练，得到对应的逻辑回归函数时，具体用于：

对所述扩展特征集按照设定比例进行抽样，得到训练集；

23.如权利要求22所述的装置，其特征在于，所述确定单元在根据每个正则化系数对应的逻辑回归函数，确定目标正则化系数时，具体用于：

将所述扩展特征集中除训练集以外的数据作为验证集；

在所述验证集中的所有特征中确定目标特征；

24.如权利要求23所述的装置，其特征在于，当目标特征为分类特征时，所述准确系数为以下任意一项：准确率、召回率、F值，以及处于受试者工作特征曲线下方的面积AUC；当目标特征为连续特征时，所述准确系数为平均误差平方和的倒数。

25.如权利要求19-24任一项所述的装置，其特征在于，所述确定单元在根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数时，具体用于：

26.如权利要求14-25任一项所述的装置，其特征在于，所述第一选择单元，具体用于：