CN113297185A

CN113297185A - 一种特征衍生方法及装置

Info

Publication number: CN113297185A
Application number: CN202010111049.XA
Authority: CN
Inventors: 周子旭
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2021-08-24

Abstract

本发明提供了一种特征衍生方法及装置，涉及人工智能技术领域。该特征衍生方法，包括：对输入数据进行预处理，得到原始数据；根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征；根据所述第一数据特征，采用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征。上述方案，可以保证获取较为优质的衍生特征，以方便进行模型训练。

Description

一种特征衍生方法及装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种特征衍生方法及装置。

背景技术

随着数据信息时代的快速发展，各行业逐渐通过人工智能技术对不同的应用场景进行建模，其主要方式是通过对输入数据进行收集，预处理、进行一定的数据分析经验和规则生成多维度特征，然后将特征数据输入到特定的机器学习模型中，最终得到符合建模要求的目标数据。

数据特征的质量对于机器学习模型的结果至关重要，其中衍生特征的挖掘和计算是模型有效预测的关键因素，衍生特征是指用已有的数据通过符合目标应用场景的规则生成新的特征数据。数据信息快速发展的时代，各种场景数据呈爆炸式增加，生产数据进行衍生特征变换时，对服务器资源的要求也不断提高，然而项目中计算资源是有限的，计算成本必须可控，传统的全量衍生特征计算方式无法满足项目快速迭代的需求；即使目前部分增量衍生特征计算可实现，但其衍生特征的维度和质量，以及计算过程的效率也很低，对人工经验的依赖也很大。

发明内容

本发明实施例提供一种特征衍生方法及装置，以解决现有的衍生特征计算方式无法保证获取优质的衍生特征的问题。

为了解决上述技术问题，本发明实施例提供一种特征衍生方法，包括：

对输入数据进行预处理，得到原始数据；

根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征；

根据所述第一数据特征，采用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征。

可选地，所述对输入数据进行预处理，得到原始数据，包括：

对输入数据进行数据分析和清洗；

将清洗后的输入数据统一数据类型，进行归一化处理，得到原始数据。

进一步地，所述对输入数据进行数据分析和清洗，包括：

对输入数据进行趋势分析以及数据特征列数的统计，并对每一列的数据进行异常值和缺失值处理。

进一步地，所述将清洗后的输入数据统一数据类型，进行归一化处理，得到原始数据，包括：

当所述输入数据为离散型数据时，对离散型数据进行数据编码，当所述输入数据为连续型数据时，对连续型数据进行离散化数据处理，并对离散化数据处理后的数据进行数据编码，将进行数据编码后的特征数据确定为原始数据。

可选地，所述根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征，包括：

获取归一化处理后的数据特征的相关性系数；

根据所述相关性系数，进行数据特征排序；

在数据特征排序结果中选择确定第一数据特征。

可选地，所述根据所述第一数据特征，利用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征，包括：

利用交叉特征方式，对所述第一数据特征中的数据特征进行组合，得到组合特征；

将所述组合特征与采用第一方式获取的衍生特征进行整合，得到第一衍生特征；

利用逻辑回归和逐域递归方式，以预处理后的输入数据为基础，逐项从第一衍生特征中进行选择，并进行逻辑回归计算验证，得到获取接受者操作特性曲线下与坐标轴围成的面积AUC评判分数；

根据预设AUC阈值，进行第一衍生特征和输入数据的选择，生成输入数据的衍生特征。

具体地，所述特征衍生方法应用于工业生产领域。

本发明实施例还提供一种特征衍生装置，包括：

处理模块，用于对输入数据进行预处理，得到原始数据；

第一获取模块，用于根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征；

第二获取模块，用于根据所述第一数据特征，采用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征。

本发明实施例还提供一种特征衍生装置，包括收发机和处理器；

所述处理器，用于：

对输入数据进行预处理，得到原始数据；

本发明实施例还提供一种特征衍生装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的特征衍生方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的特征衍生方法中的步骤。

本发明的有益效果是：

上述方案，通过对输入数据进行预处理，得到原始数据，根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征，根据所述第一数据特征，采用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征，可以保证获取较为优质的衍生特征，以方便进行模型训练。

附图说明

图1表示传统机器学习模型建模的示意图；

图2表示本发明实施例的特征衍生方法的流程示意图；

图3表示特征组合的示意图；

图4表示本发明实施例的具体流程示意图；

图5表示本发明实施例的特征衍生装置的模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

传统机器学习模型建模中，输入有N个月的数据，通过对每个月的数据进行衍生特征计算，完成特征工程后，输入至机器学习模型框架中来训练，预测，得到输出数据，以满足所需要求的建模。传统的衍生特征计算方式是：对N个月的数据进行全量运算，其中会使用不同的函数公式，例如计算某列特征的均值，均方差，均方误差等，过程如图1所示。

本发明针对现有的衍生特征计算方式无法保证获取优质的衍生特征的问题，提供一种特征衍生方法及装置。

如图2所示，本发明实施例的特征衍生方法，包括：

步骤21，对输入数据进行预处理，得到原始数据；

步骤22，根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征；

步骤23，根据所述第一数据特征，采用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征。

需要说明的是，本发明实施例通过采用逻辑回归和逐域递归方式进行特征筛选，得到高质量的衍生特征数量扩展，为后续的模型训练提供准确的数据特征，保证模型训练的有效性。

下面对本发明实施例的具体实现方式进行详细说明如下。

具体地，步骤21的实现方式为：

步骤211，对输入数据进行数据分析和清洗；

具体地，此步骤的实现方式为：对输入数据进行趋势分析以及数据特征列数的统计，并对每一列的数据进行异常值和缺失值处理。

需要说明的是，此种处理方式能够达到对输入数据的数据清洗，保证数据的基本质量。

步骤212，将清洗后的输入数据统一数据类型，进行归一化处理，得到原始数据；

具体地，此步骤的实现方式为：当所述输入数据为离散型数据时，对离散型数据进行数据编码，当所述输入数据为连续型数据时，对连续型数据进行离散化数据处理，并对离散化数据处理后的数据进行数据编码，将进行数据编码后的特征数据确定为原始数据。

需要说明的是，此步骤是对符合应用场景的输入数据(该输入数据可以是月粒度数据、时粒度数据、分粒度数据等)进行数值类型判别，如果是离散型数据，直接进行one-hot数据编码(即一位有效数据编码)，如果是连续型数据，先进行离散化数据处理，再进行one-hot数据编码，通过数据编码，便完成了数据的归一化处理，将归一化处理后的数据进行合并，形成以用户(ID)为键值的数据字典，以此得到原始数据以方便进行后续进一步地处理。

在获取到原始数据后，便是利用原始数据进行数据特征分析排序，具体地，步骤22的实现方式为：

步骤221，获取归一化处理后的数据特征的相关性系数；

需要说明的是，此步骤主要是利用相关性系数计算方式，即皮尔逊系数计算方式，获取原始数据(即归一化后的输入数据)的相关性系数，也就是获取每两个数据特征之间相关性。

具体地，皮尔逊系数计算公式如下：

其中，r_xy为皮尔逊相关系数数值；X为特征一的数值；Y为特征二的数值；n的取值范围为1至数据特征数；r_xy的取值范围为(-1，1)。

步骤222，根据所述相关性系数，进行数据特征排序；

步骤223，在数据特征排序结果中选择确定第一数据特征；

需要说明的是，此处的排序通常是按照相关性系数从大到小的原则，对数据特征进行排序，在排序完成后，根据排序结果选择排序靠前的若干个数据特征作为进行特征衍生的基础。

具体地，相关性的处理流程主要为：

1、当数据特征不是很多的情况下，根据已计算出的所有原始特征的相关性系数，进行降序排列，制定好判断的阈值，以此来选择相关性较高的特征进行衍生特征计算；

2、当数据特征繁多，多至几百种的原始特征字段，当进行完相关系数排序后，如取一定范围的数据特征进行衍生特征计算，会导致衍生特征的种类多样性以及可挖掘性受到一定限制，因此进行随机抽取一定范围的特征数据进行下一步衍生特征计算，会保证特征工程的强泛化能力；

3、通过上述2步进行衍生特征相关性计算排序并进行数据特征选择，确保需要衍生特征有一定的可衍生计算性，保证了衍生特征的质量和有效可扩展数量，而不是盲目粗粒度的计算所有的数据特征计算。

在确定得到第一数据特征后，便需要根据第一数据特征进行衍生特征的获取，具体地，步骤23的实现方式为：

步骤231，利用交叉特征方式，对所述第一数据特征中的数据特征进行组合，得到组合特征；

此步骤是利用交叉特征技术，对上一步选择的第一数据特征进行组合，具体如图3所示的示意图，通过将两个或多个输入特征相乘，如将特征A和特征B相乘，得到特征AB，也可以将特征A，B，C，D相乘，得到新的特征组合ABCD，通过特征组合的方式，可以达到扩展线性模型的有效训练集的目的，有利于挖掘更多有价值的隐形特征信息。

步骤232，将所述组合特征与采用第一方式获取的衍生特征进行整合，得到第一衍生特征；

需要说明的是，该第一方式获取的衍生特征指的是通过传统方式获取的衍生特征，即通过统计学方式得到的衍生特征。

步骤233，利用逻辑回归(LR)和逐域递归(SMGBD)方式，以预处理后的输入数据为基础，逐项从第一衍生特征中进行选择，并进行逻辑回归计算验证，得到获取接受者操作特性曲线下与坐标轴围成的面积(AUC)评判分数；

需要说明的是，因通过对特征进行整合得到的衍生特征可能数量较多，若统一对这些特征进行一次性处理可能会造成计算复杂度加大，本发明中采用逐域递归的方式，对这些特征分批进行处理，可以降低计算复杂度，通过此种方式并利用逻辑回归算法得到每一个衍生特征的AUC评判分数，此AUC评判分数用来实现对衍生特征的选择。

具体地，LR计算公式如下：

其中，P(y＝1|x)为模型输入x分类为1的概率；s(w^Tx)为输入x以及相应的权重乘积；x为输入特征值；y为分类标签值；w^T为输入x的所有权重矩阵；x_s为上一步的输入x的值；

为上一步输入x的权重值；

为本步输入权重值；x_c为本步输入x的值；b_sum为偏置向量和。

步骤234，根据预设AUC阈值，进行第一衍生特征和输入数据的选择，生成输入数据的衍生特征；

需要说明的是，该AUC阈值为预先设定的，AUC值作为评价模型训练的关键指标，可以快速判断模型学习训练的效果，AUC值范围为(0，1)，一般预设为0.85，模型训练AUC得分在0.85之上表示模型学习训练效果很好，通过预设AUC阈值，结合上一步得到的AUC评判分数，进行第一衍生特征和输入数据的选择，生成输入数据的衍生特征，为了方便模型训练的需要，本发明实施例中通常将从第一衍生特征和输入数据中选择的特征合并成机器学习需要的宽表结构的数据。

进一步需要说明的是，本发明实施例的特征衍生方法应用于工业生产领域，在工业生产领域，当产品数据被统计收集后，利用人工智能技术进行应用分析，这些训练数据(上述得到的衍生特征即为此处的训练数据)用于机器学习模型训练，用以得到不同产品对象的特征和关键信息的挖掘，弥补传统人工校验以及分析的不足。但是这里的训练数据中有很多不利于模型训练学习的特征，并对最终的分析结果产生了干扰，导致训练后的模型在实际进行分析预测时准确率并不高。经过本发明实施例的方法对训练数据处理后，并将这些优化筛选扩充后的数据放入模型中训练分析，准确率有了明显提升。

综上可知，本发明实施例，首先会根据数据的特点进行分析，对输入数据进行预处理，在衍生特征计算时，不再全量粗粒度的进行计算，而是通过上述过程，进行评估筛选组合的三维迭代方式计算，达到特征数量的有效选择和扩充(本发明实施例可以理解是对于训练数据的优化处理，包括：挑选优质数据，再将优质的数据进行一定组合达到扩充优质数据的目的。需要注意的是：本发明主要关注的是对于训练数据的预处理，而非对于模型的训练或利用模型进行结果分析)，实现本发明实施例的衍生特征生成模型的主要模块组成如图4所示。

模型分析数据、清洗数据后，进入衍生数据类型评估模块，评估特征数据在类型上是否需要进行类型转化，归一化，处理完数据类型后，进入衍生数据相关性评估模块，对所有归一化后的特征数据进行相关度评估，根据相关度的重要性，进行特征数据的排序筛选，组合生成新的衍生特征，以及在衍生特征数据计算评估模块利用逻辑回归(LR)算法和逐域递归逻辑算法进行最终的衍生特征筛选评估。

当原始特征数据和新增的衍生特征数据合成宽表数据结构后，输入至机器学习框架中进行训练预测，完成建模任务。

需要说明的是，本发明实施例具有如下有益效果：

1、利用高效率的LR和逐域递归计算技术进行衍生特征的筛选，得到高质量的衍生特征数量扩展，有利于传统机器学习；

2、根据高效的相关性计算得出的特征排序，便于特征的筛选和交叉特征的应用，有更强的实用性和有效性；

3、根据不同的数据特点，对数据类型的分类判断和归一化操作，可实现数据特征有效利用，避免不同类型特征和不同量级特征的因素干扰训练预测效果。

如图5所示，本发明实施例的特征衍生装置50，包括：

处理模块51，用于对输入数据进行预处理，得到原始数据；

第一获取模块52，用于根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征；

第二获取模块53，用于根据所述第一数据特征，采用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征。

可选地，所述处理模块51，包括：

第一处理单元，用于对输入数据进行数据分析和清洗；

第二处理单元，用于将清洗后的输入数据统一数据类型，进行归一化处理，得到原始数据。

进一步地，所述第一处理单元，用于：

进一步地，所述第二处理单元，用于：

可选地，所述第一获取模块52，包括：

第一获取单元，用于获取归一化处理后的数据特征的相关性系数；

排序单元，用于根据所述相关性系数，进行数据特征排序；

确定单元，用于在数据特征排序结果中选择确定第一数据特征。

可选地，所述第二获取模块53，包括：

组合单元，用于利用交叉特征方式，对所述第一数据特征中的数据特征进行组合，得到组合特征；

整合单元，用于将所述组合特征与采用第一方式获取的衍生特征进行整合，得到第一衍生特征；

第二获取单元，用于利用逻辑回归和逐域递归方式，以预处理后的输入数据为基础，逐项从第一衍生特征中进行选择，并进行逻辑回归计算验证，得到获取接受者操作特性曲线下与坐标轴围成的面积AUC评判分数；

生成单元，用于根据预设AUC阈值，进行第一衍生特征和输入数据的选择，生成输入数据的衍生特征。

具体地，所述特征衍生装置50实现的特征衍生方法应用于工业生产领域。

需要说明的是，本发明实施例提供的特征衍生装置是能够执行上述特征衍生方法的装置，则上述特征衍生方法实施例中的所有实现方式均适用于该装置，且均能达到相同或相似的有益效果。

所述处理器，用于：

对输入数据进行预处理，得到原始数据；

可选地，所述处理器执行对输入数据进行预处理，得到原始数据时，用于实现：

对输入数据进行数据分析和清洗；

进一步地，所述处理器执行对输入数据进行数据分析和清洗时，用于实现：

进一步地，所述处理器执行将清洗后的输入数据统一数据类型，进行归一化处理，得到原始数据时，用于实现：

可选地，所述处理器执行根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征时，用于实现：

获取归一化处理后的数据特征的相关性系数；

根据所述相关性系数，进行数据特征排序；

在数据特征排序结果中选择确定第一数据特征。

可选地，所述处理器执行根据所述第一数据特征，利用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征时，用于实现：

具体地，所述特征衍生装置实现特征衍生方法应用于工业生产领域。

本发明实施例还提供一种特征衍生装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的特征衍生方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的特征衍生方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种特征衍生方法，其特征在于，包括：

对输入数据进行预处理，得到原始数据；

2.根据权利要求1所述的特征衍生方法，其特征在于，所述对输入数据进行预处理，得到原始数据，包括：

对输入数据进行数据分析和清洗；

3.根据权利要求2所述的特征衍生方法，其特征在于，所述对输入数据进行数据分析和清洗，包括：

4.根据权利要求2所述的特征衍生方法，其特征在于，所述将清洗后的输入数据统一数据类型，进行归一化处理，得到原始数据，包括：

5.根据权利要求1所述的特征衍生方法，其特征在于，所述根据所述原始数据，进行衍生数据相关性评估，获取第一数据特征，包括：

获取归一化处理后的数据特征的相关性系数；

根据所述相关性系数，进行数据特征排序；

在数据特征排序结果中选择确定第一数据特征。

6.根据权利要求1所述的特征衍生方法，其特征在于，所述根据所述第一数据特征，利用逻辑回归和逐域递归方式，进行数据特征选择，获取衍生特征，包括：

7.根据权利要求1所述的特征衍生方法，其特征在于，所述特征衍生方法应用于工业生产领域。

8.一种特征衍生装置，其特征在于，包括：

处理模块，用于对输入数据进行预处理，得到原始数据；

9.一种特征衍生装置，其特征在于，包括收发机和处理器；

所述处理器，用于：

对输入数据进行预处理，得到原始数据；

10.一种特征衍生装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的特征衍生方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的特征衍生方法中的步骤。