CN114429166A

CN114429166A - 数据的高维特征获取方法、装置、设备及计算机存储介质

Info

Publication number: CN114429166A
Application number: CN202011182603.XA
Authority: CN
Inventors: 彭依校; 张玉; 张泽; 余韦
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-05-03
Anticipated expiration: 2040-10-29
Also published as: CN114429166B

Abstract

本申请提供了一种数据的高维特征获取方法、装置、设备及计算机存储介质。该数据的高维特征获取方法，获取原始数据；对原始数据进行预处理，得到处理后的数据；对处理后的数据进行独热编码，得到第一特征；基于机器学习算法，利用处理后的数据，生成第二特征；将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到高维特征。根据本申请实施例，能够获取准确率高、特征区分显著的高维特征。

Description

数据的高维特征获取方法、装置、设备及计算机存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及一种数据的高维特征获取方法、装置、电子设备及计算机存储介质。

背景技术

机器学习则是探索数据的常用方法，在机器学习过程中，特征工程就是将数据转换为能更好地表示潜在问题的特征，最大限度的从原始特征提取更多信息以供机器学习使用，进一步提升机器学习算法的性能。现有技术中，使用对特征进行独热编码后采用pca算法实现降维，其中在执行独热编码的过程中，还可以对所述特征进行特征交叉；通过执行共线性选择和特征重要性选择对所述特征进行筛选后进行模型构建。pca算法解释其含义往往具有一定的模糊性，不如原始样本完整，贡献率小的主成分往往可能含有对样本差异的重要区分信息，故此会影响整体分类结果。此外，针对两个或多个特征通过对它们进行加减乘除来生成新的合成特征，此类特征并不一定能够反映出特征间的隐性规律，由此筛选后的大量特征用于机器学习算法时，重要特征可能面临被其他非重要特征掩盖的问题。

采用现有技术中的方案，采用人为经验对数值型特征进行分段编码或者对特征进行pca降维，可能会丢失部分信息，在生成交叉项特征时，多数采用枚举方法，花费大量的计算资源进行计算，耗时也较长，且可能会产生较多无效特征；对筛选后的特征直接构建模型，在大多机器学习中，其他非重要特征可能会掩盖重要特征，造成模型分类不够准确的问题；生成后的全量特征仅能供机器学习算法，无法达到一定量级适用于深度学习算法。

因此，如何获取准确率高、特征区分显著的高维特征是本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供一种数据的高维特征获取方法、装置、电子设备及计算机存储介质，能够获取准确率高、特征区分显著的高维特征。

第一方面，本申请实施例提供一种数据的高维特征获取方法，包括：

获取原始数据；

对原始数据进行预处理，得到处理后的数据；

对处理后的数据进行独热编码，得到第一特征；

基于机器学习算法，利用处理后的数据，生成第二特征；

将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；

在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到高维特征。

可选的，对原始数据进行预处理，得到处理后的数据，包括：

对原始数据的异常值和缺失值进行删除、众数填充及清洗中的至少一种，得到处理后的数据。

可选的，对处理后的数据进行独热编码，得到第一特征，包括：

利用至少一个属性寄存器分别对处理后的数据的各个属性进行编码，得到第一特征。

可选的，将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值，包括：

将第一特征和第二特征合并，并利用随机森林算法确定合并后的特征的重要度；

判断各个合并后的特征的重要度是否满足预设重要度阈值。

第二方面，本申请实施例提供了一种数据的高维特征获取装置，包括：

获取模块，用于获取原始数据；

预处理模块，用于对原始数据进行预处理，得到处理后的数据；

编码模块，用于对处理后的数据进行独热编码，得到第一特征；

生成模块，用于基于机器学习算法，利用处理后的数据，生成第二特征；

合并模块，用于将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；

复制扩充模块，用于在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到高维特征。

可选的，预处理模块，包括：

预处理单元，用于对原始数据的异常值和缺失值进行删除、众数填充及清洗中的至少一种，得到处理后的数据。

可选的，编码模块，包括：

编码单元，用于利用至少一个属性寄存器分别对处理后的数据的各个属性进行编码，得到第一特征。

可选的，合并模块，包括：

合并单元，用于将第一特征和第二特征合并，并利用随机森林算法确定合并后的特征的重要度；

判断单元，用于判断各个合并后的特征的重要度是否满足预设重要度阈值。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如第一方面所示的数据的高维特征获取方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面所示的数据的高维特征获取方法。

本申请实施例的数据的高维特征获取方法、装置、电子设备及计算机存储介质，能够获取准确率高、特征区分显著的高维特征。该数据的高维特征获取方法，包括：获取原始数据；对原始数据进行预处理，得到处理后的数据；对处理后的数据进行独热编码，得到第一特征；基于机器学习算法，利用处理后的数据，生成第二特征；将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到准确率高、特征区分显著的高维特征。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的数据的高维特征获取方法的流程示意图；

图2是本申请另一个实施例提供的数据的高维特征获取方法的流程示意图；

图3是本申请一个实施例提供的数据的高维特征获取装置的结构示意图；

图4是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种高维特征获取方法、装置、电子设备及计算机存储介质。下面首先对本申请实施例所提供的数据的高维特征获取方法进行介绍。

图1示出了本申请一个实施例提供的数据的高维特征获取方法的流程示意图。如图1所示，该数据的高维特征获取方法，包括：

S101、获取原始数据；

S102、对原始数据进行预处理，得到处理后的数据；

在一个实施例中，对原始数据进行预处理，得到处理后的数据，包括：

S103、对处理后的数据进行独热编码，得到第一特征；

在一个实施例中，对处理后的数据进行独热编码，得到第一特征，包括：利用至少一个属性寄存器分别对处理后的数据的各个属性进行编码，得到第一特征。

S104、基于机器学习算法，利用处理后的数据，生成第二特征；

S105、将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；

在一个实施例中，将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值，包括：将第一特征和第二特征合并，并利用随机森林算法确定合并后的特征的重要度；判断各个合并后的特征的重要度是否满足预设重要度阈值。

S106、在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到高维特征。

该数据的高维特征获取方法，包括：获取原始数据；对原始数据进行预处理，得到处理后的数据；对处理后的数据进行独热编码，得到第一特征；基于机器学习算法，利用处理后的数据，生成第二特征；将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到准确率高、特征区分显著的高维特征。

下面以一个具体实施例对上述技术方案进行说明。

本申请另一个实施例提供的数据的高维特征获取方法的流程，可参见图2。具体实施方式如下：

独热编码(one-hot编码)特征模块：

1)非数值型变量处理：

对异常值、缺失值进行删除及众数填充，去除无效数据，而后使用独热编码对非数值型变量进行编码，使用i位属性寄存器来对特征的i个属性进行编码，每个属性都将成为一个独立的特征，故此部分变量将全部变成扩充为哑变量。

2)数值型变量处理：

清洗异常值，使用众数进行空值及异常值替换，使用独热编码对数值型变量进行编码，使用i位数值寄存器来对特征的i个数值进行编码，此时数值型变量也将变成稀疏矩阵，实现扩充特征的作用。

机器学习算法特征生成模块：

(1)adaboost新特征生成子模块：

(a)将数据集S分成两份，记做S1、S2。

(b)将S1作为训练集，利用adaboost对训练集训练模型，S2作为预测集，利用adaboost对S2进行预测，得到S2样本的概率。

(c)将取概率大于等于0.5的置为1，小于0.5置为0。当AUC大于0.6时，则保存模型。

(d)将上述模型用于预测全量样本，取概率大于等于0.5的置为1，小于0.5置为0，置为新特征。

(2)LR新特征生成子模块：

同adaboost新特征生成子模块，使用训练后LR模型预测的全量样本，取概率大于等于0.5的置为1，小于0.5置为0，置为新特征，此处不再赘述。

交叉项特征模块：

FM分解机是在线性回归的基础上加上了交叉特征，通过学习交叉特征的权重从而得到每个交叉特征的重要性，从而引入交叉项特征。

(1)在线性回归加入二特征组合：

其中，n为特征个数，xi为第i个特征的值，w0，wi，wij是模型参数。

(2)引入矩阵分解，对于所有的二次项参数wij可以组成一个对称阵W，然后进行分解成以上形式，其中V的第j列便是第j维特征的隐向量，也就是说每个wij＝<vi,vj>。其中<>则表示两个向量的点积。

(3)将二次项简化后：

此处k表示隐向量的维数，f表示第vj个隐向量的第f个元素。

(4)初始化w，采用logit loss损失函数。

(5)FM里面的参数w和v更新通过随机梯度下降SGD的方法寻得w最优解。

(6)将w最优解作为交叉项特征的值，从而引入二阶特征。

权重筛选及扩充特征模块：

(1)对各个模块所获得的特征进行随机森林训练得到每个特征重要度。

(2)过滤重要度小于0.001的特征。

(3)特征重要度最小的特征设为1个变量，其他特征按照特征重要度/min(特征重要度)倍复制特征列数。

下面为一个具体示例。

(1)为实现特惠日充值潜在用户识别，利用12月份的数据构建模型，用1月份的数据测试各个方案的效果。其中特惠日充值潜在用户原始特征共55个，利用原始特征训练模型效果不佳。

(2)不同特征工程方法：

第一种方法：对12月的数据采用人工经验筛选及采用统计方法和对连续型数据按阈值分段后进行编码处理，扩充特征，将获得的特征及原有特征采用相关性及重要度检测，相关性较大的两个特征中选取一个，去除重要度较小的特征，使用GBDT算法对获得的特征进行训练。

第二种方法：采用本实施例中的高维特征工程算法。具体过程如下：

(a)对数据进行预处理，对全量特征进行one-hot编码，全部置为哑变量。

(b)利用adaboost及LR算法预测样本生成标签置为新特征。

(c)利用FM算法计算得到交叉项特征。

(d)将上述特征做RF重要度检查，去除重要度小的特征，其他特征按照重要度复制扩充特征列。

(3)建模评估：

使用上述两种方法处理后的数据通过GBDT算法进行训练，并对1月份的数据进行预测，通过对比验证，发现本实施例相对于第一种方法的效果较好。

表1两种特征工程方案得到的各评估指标

本实施例在T+1月充值用户和T+1月未充值用户识别的查准和查全率都有明显的提升。

此外，基于本实施例的高维特征工程，使用深度学习算法——DNN与机器学习算法——GBDT进行训练后比对分析如下：

表2两种算法方案得到的各评估指标

本实施例用于深度学习算法较用于机器学习算法，T+1月充值用户和T+1月未充值用户识别的查准和查全率都有明显的提升。

与现有技术相比，本实施例具有以下的技术优点：

准确率高。本实施例对数值型及非数值型特征进行异常值及缺失值处理后，采用one-hot编码对特征进行编码，使用i位属性寄存器来对特征的i个属性或者i个数值进行编码，生成高维的稀疏矩阵，后续采用FM算法生成交叉项特征，保证了信息完整性的同时，又充分挖掘了特征间潜在的关联性，继而提高模型准确率。

特征区分度显著。本实施例对特征进行重要度以倍乘方式提升重要特征在高维特征里显著性，解决了在机器学习算法中重要特征被非重要特征掩盖导致模型效果不佳的问题。

适用于深度学习。本实施例中特征工程方法生成的特征，不仅适用于机器学习算法，且适用于深度学习算法。

图3是本申请一个实施例提供的数据的高维特征获取装置的结构示意图，该数据的高维特征获取装置，包括：

获取模块301，用于获取原始数据；

预处理模块302，用于对原始数据进行预处理，得到处理后的数据；

编码模块303，用于对处理后的数据进行独热编码，得到第一特征；

生成模块304，用于基于机器学习算法，利用处理后的数据，生成第二特征；

合并模块305，用于将第一特征和第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；

复制扩充模块306，用于在确定满足预设重要度阈值的情况下，复制扩充合并后的特征得到高维特征。

在一个实施例中，预处理模块302，包括：

在一个实施例中，编码模块303，包括：

在一个实施例中，合并模块305，包括：

图3所示装置中的各个模块/单元具有实现图1中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

图4示出了本申请实施例提供的电子设备的结构示意图。

电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在电子设备的内部或外部。在特定实施例中，存储器402可以是非易失性固态存储器。

在一个实例中，存储器402可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种数据的高维特征获取方法。

在一个示例中，电子设备还可包括通信接口403和总线410。其中，如图4所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据的高维特征获取方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种数据的高维特征获取方法，其特征在于，包括：

获取原始数据；

对原始数据进行预处理，得到处理后的数据；

对所述处理后的数据进行独热编码，得到第一特征；

基于机器学习算法，利用所述处理后的数据，生成第二特征；

将所述第一特征和所述第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；

在确定满足所述预设重要度阈值的情况下，复制扩充所述合并后的特征得到高维特征。

2.根据权利要求1所述的数据的高维特征获取方法，其特征在于，所述对原始数据进行预处理，得到处理后的数据，包括：

对所述原始数据的异常值和缺失值进行删除、众数填充及清洗中的至少一种，得到所述处理后的数据。

3.根据权利要求1所述的数据的高维特征获取方法，其特征在于，所述对所述处理后的数据进行独热编码，得到第一特征，包括：

利用至少一个属性寄存器分别对所述处理后的数据的各个属性进行编码，得到所述第一特征。

4.根据权利要求1所述的数据的高维特征获取方法，其特征在于，所述将所述第一特征和所述第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值，包括：

将所述第一特征和所述第二特征合并，并利用随机森林算法确定合并后的特征的重要度；

判断各个合并后的特征的重要度是否满足所述预设重要度阈值。

5.一种数据的高维特征获取装置，其特征在于，包括：

获取模块，用于获取原始数据；

编码模块，用于对所述处理后的数据进行独热编码，得到第一特征；

生成模块，用于基于机器学习算法，利用所述处理后的数据，生成第二特征；

合并模块，用于将所述第一特征和所述第二特征合并，并判断合并后的特征的重要度是否满足预设重要度阈值；

复制扩充模块，用于在确定满足所述预设重要度阈值的情况下，复制扩充所述合并后的特征得到高维特征。

6.根据权利要求5所述的数据的高维特征获取装置，其特征在于，所述预处理模块，包括：

预处理单元，用于对所述原始数据的异常值和缺失值进行删除、众数填充及清洗中的至少一种，得到所述处理后的数据。

7.根据权利要求5所述的数据的高维特征获取装置，其特征在于，所述编码模块，包括：

编码单元，用于利用至少一个属性寄存器分别对所述处理后的数据的各个属性进行编码，得到所述第一特征。

8.根据权利要求5所述的数据的高维特征获取装置，其特征在于，所述合并模块，包括：

合并单元，用于将所述第一特征和所述第二特征合并，并利用随机森林算法确定合并后的特征的重要度；

判断单元，用于判断各个合并后的特征的重要度是否满足所述预设重要度阈值。

9.一种电子设备，其特征在于，所述电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的数据的高维特征获取方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的数据的高维特征获取方法。