CN111582325B - 一种基于自动特征编码的多阶特征组合方法 - Google Patents

一种基于自动特征编码的多阶特征组合方法 Download PDF

Info

Publication number
CN111582325B
CN111582325B CN202010312421.3A CN202010312421A CN111582325B CN 111582325 B CN111582325 B CN 111582325B CN 202010312421 A CN202010312421 A CN 202010312421A CN 111582325 B CN111582325 B CN 111582325B
Authority
CN
China
Prior art keywords
feature
features
combination
training set
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010312421.3A
Other languages
English (en)
Other versions
CN111582325A (zh
Inventor
董守斌
钟振远
胡金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010312421.3A priority Critical patent/CN111582325B/zh
Publication of CN111582325A publication Critical patent/CN111582325A/zh
Application granted granted Critical
Publication of CN111582325B publication Critical patent/CN111582325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自动特征编码的多阶特征组合方法,包括步骤:1)对日志型数据的训练集进行预处理和数据采样;2)构建代理搜索模型对特征组进行搜索,得到评价指标最高的特征组;3)构建复合目标编码器对选中的特征组编码,得到多阶组合特征;4)对多阶组合特征进行内嵌式特征选择,保留有效特征;5)重复步骤2)‑4),最终得到完整的有效组合特征编码表;6)参照有效组合特征编码表,使用复合目标编码器对训练集和测试集转化,获得多阶特征组合训练集和测试集。本发明方法能够自动完成预处理、特征工程等一系列步骤,有助于机器学习平台节省人工成本、降低特征工程时间开销和提升预测精度。

Description

一种基于自动特征编码的多阶特征组合方法
技术领域
本发明涉及互联网数据挖掘中的自动特征工程领域,尤其是指一种基于自动特征编码的多阶特征组合方法。
背景技术
随着大数据时代的到来和人工智能在互联网的蓬勃发展,互联网中各种数据挖掘任务均开始采用数据驱动的解决方案,即以机器学习为核心方法,利用海量数据进行学习和预测。对于互联网中常见的日志型数据的数据挖掘任务来说,较重要的一个步骤是进行特征工程,特征工程很大程度决定了预测效果的上限;同时,日志型数据的特点是包含大量类别型特征和部分连续型特征。以广告点击日志为例,广告点击日志会包含如下特征:如用户特征(性别,职业,所在地等),广告特征(广告主,广告品牌等)和上下文特征(展示时间,广告位尺寸等),因此对这些特征的特征工程是该类任务的重中之重。
日志型数据的数据挖掘任务使用的传统特征工程方法以人工构造特征为主,需要从业人员通过先验知识猜测构造特征的有效性并逐个进行验证,这个过程不但需要丰富的业务知识和经验,而且需要耗费大量时间在试错之上。近年来出现了一些以构建特征表示学习模块为核心的深度学习方法,这些方法能够减少人工构造特征的需求,但是模型时间复杂度较高且没有可解释性。而使用自动特征工程框架对组合特征进行表示学习则既能保证可解释性,又能显著提升预测效果。本发明利用自动特征工程相关技术,自动搜索特定阶的特征组合,并对特征组合进行编码,构造新特征,在海量的日志型数据中挖掘出特征关系信息,生成的数据集能提高机器学习模型的预测效果,同时能增强机器学习模型的可解释性。
发明内容
本发明目的在于针对现有技术存在的不足,提出了一种基于自动特征编码的多阶特征组合方法,该方法设计完善合理,能够为日志型数据的数据挖掘部门节约大量人工成本和计算资源,将本来应该由数据分析师或特征工程师完成的人工特征工程工作变为由本发明的方法自动完成,机器学习平台只需要输入包含类别型特征和连续型特征的原始日志型数据集,本发明的方法就能自动完成预处理、特征工程等一系列步骤,并输出生成的多阶特征组合数据集和具备可解释性的有效组合特征编码表。
为实现上述目的,本发明所提供的技术方案为:一种基于自动特征编码的多阶特征组合方法,主要对日志型数据的训练集和测试集进行多阶特征组合,包括以下步骤:
1)对包含连续型特征和类别型特征的日志型数据的训练集进行预处理,再对预处理后的日志型数据的训练集进行数据采样,得到采样数据集;其中,所述预处理包括将连续型特征离散化和类别型特征降维;
2)构建代理搜索模型,对采样数据集中的所有特征组进行搜索,选择评价指标最高的特征组;
3)构建复合目标编码器,对步骤2)中选中的特征组进行编码,得到一系列的多阶组合特征;
4)对得到的一系列多阶组合特征进行内嵌式特征选择,得到一组有效组合特征,将该组有效组合特征的构造范式加入有效组合特征编码表,其中,所述有效组合特征编码表是一个包含构造范式的集合,初始为空集,用于指导复合目标编码器对日志型数据的训练集和测试集的类别型特征进行编码转化;
5)要继续搜索采样数据集中余下的特征组,即没有被选中的特征组,重复步骤2)至步骤4),直至已遍历完采样数据集的所有特征组或有效组合特征编码表中的构造范式数量达到指定阈值,则终止循环,获得完整的有效组合特征编码表并进行步骤6);
6)参照步骤5)得到的完整的有效组合特征编码表中已有的构造范式,使用复合目标编码器对预处理后的日志型数据的训练集的所有类别型特征进行编码转换,获得多阶特征组合的训练集;同样,对日志型数据的测试集进行同训练集一样的预处理,包括连续特征离散化和类别型特征的降维,然后再参照完整的有效组合特征编码表使用复合目标编码器转化,获得多阶特征组合的测试集。
在步骤1)中,对包含连续型特征和类别型特征的日志型数据的训练集进行预处理,再对预处理后的日志型数据的训练集进行数据采样,包括以下步骤:
1.1)对日志型数据的训练集中的连续型特征进行等频分桶离散化操作,即以令样本数量在各个区间分布均匀为准则,对连续型特征进行离散化,由此能够将连续型特征变为类别型特征;
1.2)对日志型数据的训练集中原有的和从连续型特征变化而来的类别型特征进行低频处理,将出现频率低于规定阈值的特征值设为同一值,以降低类别型特征的维度;
1.3)对经过预处理的日志型数据的训练集进行按特定比例随机采样操作,得到采样数据集。
所述日志型数据为广告点击日志、推荐系统日志或商品交易日志。
在步骤2)中,构建代理搜索模型,对采样数据集中的特征组进行搜索,选择评价指标最高的特征组,包括以下步骤:
2.1)采样数据集的类别型特征构成集合为
Figure BDA0002458354920000031
定义C={F1,F2,…,Fd}为一个特征组,它是一个类别型特征组成的集合,Fi表示一个类别型特征,i=1,2,...,d,d为该集合的元素数量,对
Figure BDA0002458354920000041
的所有非空子集对应的特征组构造交叉特征,特征组C的交叉特征定义为:
Figure BDA0002458354920000042
式中,
Figure BDA0002458354920000043
表示克罗内克积,T(C)是一个取值范围为{1,2,…,v}的标量,该取值范围的每一个数值表示该交叉特征所对应类别,
Figure BDA0002458354920000044
|Fi|表示类别型特征Fi的取值个数;
2.2)对每个特征组对应的交叉特征分别构造线性模型
Figure BDA0002458354920000045
Figure BDA0002458354920000046
式中,xT(C)表示样本x的交叉特征T(C)的取值,Ri表示{1,2,…,v}中的任意一个值,I(xT(C)=Ri)是一个指示函数,当等式xT(C)=Ri成立时等于1,否则等于0,γi表示模型特征权重;
2.3)对每一个构建的线性模型进行求解,使用基于统计的方法,得到权重γi的解析解如下:
γi=average(yj|I(xT(C)=Ri))
式中,average是均值函数,yj是第j个样本的标签值,average(yj|I(xT(C)=Ri))表示数据集中所有满足xT(C)=Ri的样本的标签均值,得到训练好的模型后,输出模型的评价指标值,评价指标值越大说明模型对应特征组效果越好;
2.4)将所有的特征组对应模型的评价指标值进行降序排序,选取最优的特征组。
在步骤3)中,所述复合目标编码器由目标编码层和复合层组成,它们的定义如下:
所述目标编码层是一种有监督编码运算,它的功能是对输入的一个特征组的所有非空子集对应的交叉特征进行运算,并输出目标编码,所述目标编码层作用于一个交叉特征的表达式为:
Figure BDA0002458354920000051
式中,T(C)是交叉特征,定义为:
Figure BDA0002458354920000052
式中,
Figure BDA0002458354920000053
表示克罗内克积,T(C)是一个取值范围为{1,2,...,v}的标量,该取值范围的每一个数值表示该交叉特征所对应类别,C={F1,F2,…,Fd}为一个特征组,它是一个类别型特征组成的集合,Fi表示一个类别型特征,i=1,2,...,d,d为该集合的元素数量,
Figure BDA0002458354920000054
表示样本x的交叉特征xT(C)=Ri时的编码值,Ri表示{1,2,...,v}中的任意一个值;λ是权重系数,用于调节
Figure BDA0002458354920000055
Figure BDA0002458354920000056
的比例,
Figure BDA0002458354920000057
是目标编码先验概率,表示训练集样本中标签为l的概率,
Figure BDA0002458354920000058
是目标编码后验概率,其计算方法如下:
Figure BDA0002458354920000059
式中,I是指示函数,当条件为真时等于1,否则等于0,n是训练集样本数,
Figure BDA00024583549200000510
和yj分别表示第j个样本的交叉特征T(C)的取值和标签的取值,
Figure BDA00024583549200000511
表示训练集中标签为l的样本数,
Figure BDA00024583549200000512
表示训练集中
Figure BDA00024583549200000513
的样本数,
Figure BDA00024583549200000514
表示训练集中
Figure BDA00024583549200000515
且yi=l的样本数;
所述复合层的功能是接收目标编码层输出的目标编码作为输入,使用复合转化运算将它们两两结合,得到特征组的多阶组合特征并输出,这是一种具有可解释性的构造特征,每一个多阶组合特征对应一个构造范式,即其目标编码对应的特征组和所使用的复合转化运算;其中,所述复合转化运算包括加法、减法、乘法和除法这些二目运算ψ(·,·),两个目标编码φ(Ci1)和φ(Ci2)的运算就是ψ(φ(Ci1),φ(Ci2));
将步骤2)中选中的特征组输入复合目标编码器,首先,通过复合目标编码器的目标编码层将选中特征组的所有非空子集对应的交叉特征转化为目标编码,然后再通过复合目标编码器的复合层将这些目标编码转换为一系列多阶组合特征。
在步骤4)中,所述内嵌式特征选择包括以下步骤:
4.1)将多阶组合特征输入GBDT模型进行训练;
4.2)以信息增益为准则,从训练好的模型计算每个多阶组合特征的特征重要性权重,按重要性降序排序;
4.3)用特征重要性权重阈值不低于α和保留特征数不多于β两个控制条件进行特征选择,经过特征选择的多阶组合特征为有效组合特征,将有效组合特征所对应的构造范式加入有效组合特征编码表。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明使用自动特征工程的技术替代了人工特征工程,能够节省大量的人力资源和增加工作效率,本来要由数据分析师或特征工程师完成的特征工程工作变为可以由本发明的方法自动完成,一般一个数据挖掘场景的特征工程需要耗费数日时间来完成基本的特征构造和验证,得益于代理搜索模型的高效求解,本发明能够在一天之内完成一个日志型数据集的特征构造。
2、本发明相比人工特征工程在准确性方面有一定优势,特征工程师可能存在主观上的偏差或背景知识受限等问题,在构造特征的时候不能考虑到所有的特征组合,本发明对所有的特征组合均进行尝试,可以发现一些人工没发现的新特征,结合数据驱动的特征选择方法以选择有效组合特征,避免了主观原因导致的不准确性和不稳定性。
3、相比计算复杂度较高的深度学习方法,本发明所构造的多阶特征组合数据集使得机器学习模型在保证准确率相当的情况下计算效率更高,因此预测速度更快。
4、本发明采用复合目标编码器所生成的组合特征具备可解释性良好的优点,它的构造范式显式地告诉使用者有效的特征组包含那些原始特征以及这些特征间的运算关系,这些信息有助于后续的数据分析。
附图说明
图1为本发明方法的逻辑流程图。
图2日志型数据示例图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于自动特征编码的多阶特征组合方法,主要对日志型数据的训练集和测试集进行多阶特征组合,其包括以下步骤:
1)如图2所示形式的日志型数据是一个广告点击日志数据集,对其训练集进行预处理和数据采样,包括以下步骤:
1.1)对日志型数据的训练集中的连续型特征进行等频分桶离散化操作,即以令样本数量在各个区间分布均匀为准则,对例如“用户年龄”这种连续型特征进行离散化,由此可将连续型特征变为类别型特征,如将年龄区间在10到20岁置为同一类别,将21到35岁置为同一类别等。
1.2)对日志型数据的训练集中原有的和从连续型特征变化而来的类别型特征进行低频处理,具体来说,就是出现频率低于一定阈值的特征值设为同一值,降低类别型特征的维度,例如广告位中“p67”和“p11”在数据集中出现次数均小于5次,则把他们设置为同一值。
1.3)对经过预处理的日志型数据的训练集进行按特定比例随机采样操作,得到采样数据集。
2)构建代理搜索模型,对采样数据集中的特征组进行搜索,选择评价指标最高的特征组,包括以下步骤:
2.1)采样数据集的类别型特征构成集合为
Figure BDA0002458354920000081
定义C={F1,F2,…,Fd}为一个特征组,它是一个类别型特征组成的集合,Fi表示一个类别型特征,i=1,2,...,d,d为该集合的元素数量,在图2的例子中,特征组包括{用户年龄,用户所在地}、{用户所在地,广告类别}、{广告类别,广告位}、{用户所在地,广告类别,广告位}等,对
Figure BDA0002458354920000082
的所有非空子集对应的特征组构造交叉特征,特征组C的交叉特征定义为:
Figure BDA0002458354920000083
式中,
Figure BDA0002458354920000084
表示克罗内克积,T(C)是一个取值范围为{1,2,...,v}的标量,该取值范围的每一个数值表示该交叉特征所对应类别,
Figure BDA0002458354920000085
|Fi|表示类别型特征Fi的取值个数,例如对于特征组{用户所在地,广告类别},生成的交叉特征取值包括{1,2,...,v},其中1对应US×sport,2对应US×game,3对应CN×sport,4对应CN×clothes,以此类推。
2.2)对每个特征组对应的交叉特征分别构造线性模型
Figure BDA0002458354920000086
Figure BDA0002458354920000091
式中,xT(C)表示样本x的交叉特征T(C)的取值,Ri表示{1,2,...,v}中的任意一个值,I(xT(C)=Ri)是一个指示函数,当等式xT(C)=Ri成立时等于1,否则等于0,γi表示模型特征权重。
2.3)对每一个构建的线性模型进行求解,使用基于统计的方法,得到权重γi的解析解如下:
γi=average(yj|I(xT(C)=Ri))
式中,average是均值函数,yj是第j个样本的标签值,average(yj|I(xT(C)=Ri))表示数据集中所有满足xT(C)=Ri的样本的标签均值,得到训练好的模型后,输出模型的评价指标值,评价指标值越大说明模型对应特征组效果越好。
2.4)将所有的特征组对应模型的评价指标值进行降序排序,选取最优的特征组,例如在这一步中选择了特征组{用户所在地,广告类别}。
3)构建复合目标编码器,对步骤2)中选中的特征组进行编码,得到一系列的多阶组合特征,具体如下:
所述复合目标编码器包括目标编码层和复合层,它们的定义如下:
所述目标编码层是一种有监督编码运算,它的功能是对输入的一个特征组的所有非空子集对应的交叉特征进行运算,并输出目标编码,所述目标编码层作用于一个交叉特征的表达式为:
Figure BDA0002458354920000092
式中,T(C)是交叉特征,定义为:
Figure BDA0002458354920000093
式中,
Figure BDA0002458354920000101
表示克罗内克积,T(C)是一个取值范围为{1,2,...,v}的标量,该取值范围的每一个数值表示该交叉特征所对应类别,C={F1,F2,…,Fd}为一个特征组,它是一个类别型特征组成的集合,Fi表示一个类别型特征,i=1,2,...,d,d为该集合的元素数量,
Figure BDA0002458354920000102
表示样本x的交叉特征xT(C)=Ri时的编码值,Ri表示{1,2,…,v}中的任意一个值,λ是权重系数,用于调节
Figure BDA0002458354920000103
Figure BDA0002458354920000104
的比例,
Figure BDA0002458354920000105
是目标编码先验概率,表示训练集样本中标签为l的概率,
Figure BDA0002458354920000106
是目标编码后验概率,其计算方法如下:
Figure BDA0002458354920000107
式中,I是指示函数,当条件为真时等于1,否则等于0,n是训练集样本数,
Figure BDA0002458354920000108
和yj分别表示第j个样本的交叉特征T(C)的取值和标签的取值,
Figure BDA0002458354920000109
表示训练集中标签为l的样本数,
Figure BDA00024583549200001010
表示训练集中
Figure BDA00024583549200001011
的样本数,
Figure BDA00024583549200001012
表示训练集中
Figure BDA00024583549200001013
且yi=l的样本数。
所述复合层的功能是接收目标编码层输出的目标编码作为输入,使用复合转化运算将它们两两结合,得到特征组的多阶组合特征并输出,这是一种具有可解释性的构造特征,每一个多阶组合特征对应一个构造范式,即其目标编码对应的特征组和所使用的复合转化运算;所述复合转化运算包括加法、减法、乘法和除法这些二目运算ψ(·,·),两个目标编码φ(Ci1)和φ(Ci2)的运算就是ψ(φ(Ci1),φ(Ci2))。
将步骤2)中选中的特征组输入复合目标编码器,首先,通过复合目标编码器的目标编码层将选中特征组的所有非空子集对应的交叉特征转化为目标编码,然后再通过复合目标编码器的复合层将这些目标编码转换为一系列多阶组合特征;例如,对于步骤2)选中的特征组{用户所在地,广告类别},首先目标编码层将该特征组转化为三个子集{用户所在地}、{广告类别}和{用户所在地,广告类别}的目标编码,然后复合层通过二目运算除法,使用这3个目标编码生成两个特征:
Figure BDA0002458354920000111
两个特征的含义分别为特定用户所在地中特定广告类别点击率与当地广告点击率的比例,特定用户所在地中特定广告类别点击率与该类别广告点击率的比例,它们可以反映一种复杂的组合关系,对于该特征组使用其他转化运算能得到更多的可解释特征。
4)对得到的一系列多阶组合特征进行内嵌式特征选择,得到一组有效组合特征,将该组有效组合特征的构造范式加入有效组合特征编码表,所述有效组合特征编码表是一个包含构造范式的集合,初始为空集,用于指导复合目标编码器对日志型数据的训练集和测试集的类别型特征进行编码转化;其中,所述内嵌式特征选择,包括以下步骤:
4.1)将多阶组合特征输入GBDT模型进行训练,例如GBDT模型参数可设置为:基模型为CART树,树深度4,树颗数100,学习率0.1。
4.2)以信息增益为准则,从训练好的模型计算每个多阶组合特征的特征重要性权重,按重要性降序排序。
4.3)用特征重要性权重阈值不低于α和保留特征数不多于β两个控制条件进行特征选择,经过特征选择的多阶组合特征为有效组合特征,将有效组合特征所对应的构造范式加入有效组合特征编码表;若在生成的两个多阶组合特征中,排序第一位的特征是
Figure BDA0002458354920000121
设置保留特征总数为α=1,则将该特征对应的构造范式加入有效组合特征编码表。
5)要继续搜索采样数据集中余下的特征组,即没有被选中的特征组(例如,排除步骤2)选中的特征组{用户所在地,广告类别},搜索剩余的其它特征组),重复步骤2)至步骤4),直至已遍历完采样数据集的所有特征组或有效组合特征编码表中的构造范式数量达到指定阈值,则终止循环,获得完整的有效组合特征编码表并进行步骤6)。
6)参照步骤5)得到的完整的有效组合特征编码表中已有的构造范式,使用复合目标编码器对预处理后的日志型数据的训练集的所有类别型特征进行编码转换,获得多阶特征组合的训练集;同样,对日志型数据的测试集进行同训练集一样的预处理,包括连续特征离散化和类别型特征的降维,然后再参照完整的有效组合特征编码表使用复合目标编码器转化,获得多阶特征组合的测试集。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种基于自动特征编码的多阶特征组合方法,其特征在于,主要对日志型数据的训练集和测试集进行多阶特征组合,包括以下步骤:
1)对包含连续型特征和类别型特征的日志型数据的训练集进行预处理,再对预处理后的日志型数据的训练集进行数据采样,得到采样数据集;其中,所述预处理包括将连续型特征离散化和类别型特征降维;所述日志型数据为广告点击日志、推荐系统日志或商品交易日志;
2)构建代理搜索模型,对采样数据集中的所有特征组进行搜索,选择评价指标最高的特征组,包括以下步骤:
2.1)采样数据集的类别型特征构成集合为
Figure FDA0004038407810000011
定义C={F1,F2,...,Fd}为一个特征组,它是一个类别型特征组成的集合,Fi表示一个类别型特征,i=1,2,...,d,d为该集合的元素数量,对
Figure FDA0004038407810000012
的所有非空子集对应的特征组构造交叉特征,特征组C的交叉特征定义为:
Figure FDA0004038407810000013
式中,
Figure FDA0004038407810000014
表示克罗内克积,T(C)是一个取值范围为{1,2,...,v}的标量,该取值范围的每一个数值表示该交叉特征所对应类别,
Figure FDA0004038407810000015
|Fi|表示类别型特征Fi的取值个数;
2.2)对每个特征组对应的交叉特征分别构造线性模型
Figure FDA0004038407810000017
Figure FDA0004038407810000016
式中,xT(C)表示样本x的交叉特征T(C)的取值,Ri表示{1,2,...,v}中的任意一个值,I(xT(C)=Ri)是一个指示函数,当等式xT(C)=Ri成立时等于1,否则等于0,γi表示模型特征权重;
2.3)对每一个构建的线性模型进行求解,使用基于统计的方法,得到权重γi的解析解如下:
γi=average(yj|I(xT(C)=Ri))
式中,average是均值函数,yj是第j个样本的标签值,average(yj|I(xT(C)=Ri))表示数据集中所有满足xT(C)=Ri的样本的标签均值,得到训练好的模型后,输出模型的评价指标值,评价指标值越大说明模型对应特征组效果越好;
2.4)将所有的特征组对应模型的评价指标值进行降序排序,选取最优的特征组;
3)构建复合目标编码器,对步骤2)中选中的特征组进行编码,得到一系列的多阶组合特征;
所述复合目标编码器由目标编码层和复合层组成,它们的定义如下:
所述目标编码层是一种有监督编码运算,它的功能是对输入的一个特征组的所有非空子集对应的交叉特征进行运算,并输出目标编码,所述目标编码层作用于一个交叉特征的表达式为:
Figure FDA0004038407810000021
式中,T(C)是交叉特征,定义为:
Figure FDA0004038407810000022
式中,
Figure FDA0004038407810000023
表示克罗内克积,T(C)是一个取值范围为{1,2,...,v}的标量,该取值范围的每一个数值表示该交叉特征所对应类别,C={F1,F2,...,Fd}为一个特征组,它是一个类别型特征组成的集合,Fi表示一个类别型特征,i=1,2,...,d,d为该集合的元素数量,
Figure FDA0004038407810000024
表示样本x的交叉特征xT(C)=Ri时的编码值,Ri表示{1,2,...,v}中的任意一个值;λ是权重系数,用于调节
Figure FDA0004038407810000025
Figure FDA0004038407810000026
的比例,
Figure FDA0004038407810000031
是目标编码先验概率,表示训练集样本中标签为l的概率,
Figure FDA0004038407810000032
是目标编码后验概率,其计算方法如下:
Figure FDA0004038407810000033
式中,I是指示函数,当条件为真时等于1,否则等于0,n是训练集样本数,
Figure FDA0004038407810000034
和yj分别表示第j个样本的交叉特征T(C)的取值和标签的取值,
Figure FDA0004038407810000035
表示训练集中标签为l的样本数,
Figure FDA0004038407810000036
表示训练集中
Figure FDA0004038407810000037
的样本数,
Figure FDA0004038407810000038
表示训练集中
Figure FDA0004038407810000039
且yi=l的样本数;
所述复合层的功能是接收目标编码层输出的目标编码作为输入,使用复合转化运算将它们两两结合,得到特征组的多阶组合特征并输出,这是一种具有可解释性的构造特征,每一个多阶组合特征对应一个构造范式,即其目标编码对应的特征组和所使用的复合转化运算;其中,所述复合转化运算包括加法、减法、乘法和除法这些二目运算ψ(·,·),两个目标编码φ(Ci1)和φ(Ci2)的运算就是ψ(φ(Ci1),φ(Ci2));
将步骤2)中选中的特征组输入复合目标编码器,首先,通过复合目标编码器的目标编码层将选中特征组的所有非空子集对应的交叉特征转化为目标编码,然后再通过复合目标编码器的复合层将这些目标编码转换为一系列多阶组合特征;
4)对得到的一系列多阶组合特征进行内嵌式特征选择,得到一组有效组合特征,将该组有效组合特征的构造范式加入有效组合特征编码表,其中,所述有效组合特征编码表是一个包含构造范式的集合,初始为空集,用于指导复合目标编码器对日志型数据的训练集和测试集的类别型特征进行编码转化;
所述内嵌式特征选择包括以下步骤:
4.1)将多阶组合特征输入GBDT模型进行训练;
4.2)以信息增益为准则,从训练好的模型计算每个多阶组合特征的特征重要性权重,按重要性降序排序;
4.3)用特征重要性权重阈值不低于α和保留特征数不多于β两个控制条件进行特征选择,经过特征选择的多阶组合特征为有效组合特征,将有效组合特征所对应的构造范式加入有效组合特征编码表;
5)要继续搜索采样数据集中余下的特征组,即没有被选中的特征组,重复步骤2)至步骤4),直至已遍历完采样数据集的所有特征组或有效组合特征编码表中的构造范式数量达到指定阈值,则终止循环,获得完整的有效组合特征编码表并进行步骤6);
6)参照步骤5)得到的完整的有效组合特征编码表中已有的构造范式,使用复合目标编码器对预处理后的日志型数据的训练集的所有类别型特征进行编码转换,获得多阶特征组合的训练集;同样,对日志型数据的测试集进行同训练集一样的预处理,包括连续特征离散化和类别型特征的降维,然后再参照完整的有效组合特征编码表使用复合目标编码器转化,获得多阶特征组合的测试集。
2.根据权利要求1所述的一种基于自动特征编码的多阶特征组合方法,其特征在于:在步骤1)中,对包含连续型特征和类别型特征的日志型数据的训练集进行预处理,再对预处理后的日志型数据的训练集进行数据采样,包括以下步骤:
1.1)对日志型数据的训练集中的连续型特征进行等频分桶离散化操作,即以令样本数量在各个区间分布均匀为准则,对连续型特征进行离散化,由此能够将连续型特征变为类别型特征;
1.2)对日志型数据的训练集中原有的和从连续型特征变化而来的类别型特征进行低频处理,将出现频率低于规定阈值的特征值设为同一值,以降低类别型特征的维度;
1.3)对经过预处理的日志型数据的训练集进行按特定比例随机采样操作,得到采样数据集。
CN202010312421.3A 2020-04-20 2020-04-20 一种基于自动特征编码的多阶特征组合方法 Active CN111582325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010312421.3A CN111582325B (zh) 2020-04-20 2020-04-20 一种基于自动特征编码的多阶特征组合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010312421.3A CN111582325B (zh) 2020-04-20 2020-04-20 一种基于自动特征编码的多阶特征组合方法

Publications (2)

Publication Number Publication Date
CN111582325A CN111582325A (zh) 2020-08-25
CN111582325B true CN111582325B (zh) 2023-04-07

Family

ID=72124437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010312421.3A Active CN111582325B (zh) 2020-04-20 2020-04-20 一种基于自动特征编码的多阶特征组合方法

Country Status (1)

Country Link
CN (1) CN111582325B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581177B (zh) * 2020-12-24 2023-11-07 上海数鸣人工智能科技有限公司 结合自动特征工程及残差神经网络的营销预测方法
CN112950276B (zh) * 2021-03-12 2022-03-29 华扬联众数字技术(深圳)有限公司 一种基于多阶特征组合的种子人群拓展方法
CN113220947A (zh) * 2021-05-27 2021-08-06 支付宝(杭州)信息技术有限公司 对事件特征进行编码的方法和装置
CN113537614A (zh) * 2021-07-28 2021-10-22 广东电网有限责任公司 电网工程造价预测模型的构建方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739844A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于衰减权重的数据分类方法
CN110751186A (zh) * 2019-09-26 2020-02-04 北京航空航天大学 一种基于监督式表示学习的跨项目软件缺陷预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739844A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于衰减权重的数据分类方法
CN110751186A (zh) * 2019-09-26 2020-02-04 北京航空航天大学 一种基于监督式表示学习的跨项目软件缺陷预测方法

Also Published As

Publication number Publication date
CN111582325A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582325B (zh) 一种基于自动特征编码的多阶特征组合方法
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN112000770B (zh) 面向智能问答的基于语义特征图的句子对语义匹配方法
CN113344615B (zh) 一种基于gbdt和dl融合模型的营销活动预测方法
D’Ambrosio et al. Accurate tree-based missing data imputation and data fusion within the statistical learning paradigm
CN114119057B (zh) 用户画像模型的构建系统
CN110673840A (zh) 一种基于标签图嵌入技术的自动代码生成方法及系统
CN109857457B (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
Zhang et al. PS-Tree: A piecewise symbolic regression tree
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN109633748B (zh) 一种基于改进遗传算法的地震属性优选方法
CN115062070A (zh) 一种基于问答的文本表格数据查询方法
Japa et al. A population-based hybrid approach for hyperparameter optimization of neural networks
CN113591971A (zh) 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN106600100B (zh) 一种基于加权的多种群粒子群优化的危险源原因分析方法
CN113076089B (zh) 一种基于对象类型的api补全方法
CN114610871A (zh) 基于人工智能算法的情报系统建模分析方法
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
Kishimoto et al. MHG-GNN: Combination of Molecular Hypergraph Grammar with Graph Neural Network
CN112667394A (zh) 一种计算机资源利用率优化方法
CN111459927B (zh) Cnn-lstm开发者项目推荐方法
CN113688315B (zh) 一种基于无信息损失图编码的序列推荐方法
CN112163068B (zh) 一种基于自主进化学习器的信息预测方法及系统
CN111428118B (zh) 一种检测事件可靠性的方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant