CN109657723A - 一种增强高维类别特征表达能力的方法 - Google Patents
一种增强高维类别特征表达能力的方法 Download PDFInfo
- Publication number
- CN109657723A CN109657723A CN201811566391.8A CN201811566391A CN109657723A CN 109657723 A CN109657723 A CN 109657723A CN 201811566391 A CN201811566391 A CN 201811566391A CN 109657723 A CN109657723 A CN 109657723A
- Authority
- CN
- China
- Prior art keywords
- conversion formula
- express
- attribute
- ability
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 238000010801 machine learning Methods 0.000 abstract description 5
- 239000000843 powder Substances 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种增强高维类别特征表达能力的方法,属于特征工程、机器学习算法和分类预测技术领域,解决现有技术中one‑hot编码方式和embedding策略使得特征的表达能力弱,从而造成模型的表达能力弱,且在特征类别较多的情况下,会大大加重模型参数的复杂度的问题。本发明包括构建类别变量所对应的属性转换为属性特征的转换公式;S2、将转换公式通过正则化处理得到目标转换公式;S3、将类别变量所对应的属性通过目标转换公式处理,得到最终的属性目标特征变量。本发明用于增强高维类别特征的表达能力。
Description
技术领域
一种增强高维类别特征表达能力的方法,用于增强高维类别特征,属于特征工程、机器学习算法和分类预测技术领域。
背景技术
在机器学习领域,一个深刻的共识:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程的重要性不言而喻。特征的加工,本质是是增强特征的表达能力,进一步提高模型表现。其中对于高维类别特征的处理,如何增加其特征表达能力,提高模型表现,一直是学术界和工业界研究的难点。
对于高维类别特征,一般工业界有两种比较通用的处理方式:1是one-hot编码;2是采用embedding策略。对于one-hot编码方式来说,如果类别种类过多,会导致输入向量维度过高,模型的复杂度会随特征维数呈指数级增长,显然这样不利于后续模型的训练。同样对于embedding策略来说,如果特征类别种类过多会大大加重模型的参数复杂度,即原来只需要训练1维,现在要训练L维,数据大了,消耗的内存肯定多了,训练时间就会增加,运算速度也会变慢,而且对硬件资源的要求也高了。对于这样的模型一定要使用较大的数据量来进行训练才可以达到比较好的效果,比如现有技术中,在有海量的用户浏览和点击数据情况下,推荐模型中的推荐信息和用户的编码基本采用的都是embedding策略,虽然特征的表达能力强,但是需要有大量的数据,即通过海量的数据训练深度学习模型,用里面的参数来衡量特征的表达能力。但是如果数据量并不是特别大的情况,输入特征的类别数又比较多,所以这种情况下特征的表达能力就强,就需要研究出一种方法,不管在数据多或少的情况下,既可以增加特征的表达能力,提高模型表现,又不加重模型的复杂度。
发明内容
针对上述研究的问题,本发明的目的在于提供一种增强高维类别特征表达能力的方法,解决现有技术中输入特征类别数较多时,在海量数据的情况下,会大大加重模型参数的复杂度、使得内存消耗大、训练时间长、运算速度慢且对硬件资源的要求高的问题;在数据少的情况下,特征的表达能力弱,从而造成模型表现能力弱的问题。
为了达到上述目的,本发明采用如下技术方案:
一种增强高维类别特征表达能力的方法,其特征在于,如下步骤:
S1、构建类别变量所对应的属性转换为属性特征的转换公式;
S2、将转换公式通过正则化处理得到目标转换公式;
S3、将类别变量所对应的属性通过目标转换公式处理,得到最终的属性目标特征变量。
进一步,所述步骤S1中的转换公式为:
其中,N表示有N个样本(xi,yi),i=1,2,3...N,xi表示第i个输入的类别变量,yi表示对应类别变量xi的属性,I{.}是示性函数,x(j)表示第j种属性,j=1,2,3...l,l表示属性种类个数,φj是第j种属性x(j)对应的yi的平均值,nj是取值为x(j)的属性个数。
进一步,所述步骤S2得到的目标转换公式为:
其中,λ(nj)是一个取值在[0,1]范围的函数,k和f是根据实际应用定义的超参数。
本发明同现有技术相比,其有益效果表现在:
一、本发明的目标编码方法,是将输入的类别变量所对应的属性进行一对一的转化,在海量数据的情况下,并不增强模型的复杂度,不会消耗过多的内存、训练时间不会增长、运算速度也不会变慢且不用改变硬件资源,在数据少的情况下,属性特征的表达能力强,还会提升模型表现能力;
二、本发明的目标编码方法,将输入的类别变量所对应的属性进行转化后,得到的属性目标特征变量可以获得比输入的类别变量更好的特征表达能力;
三、本发明的目标编码方法,转化后得到的属性目标特征变量可以有效防止模型的过拟合,提高模型表现。
附图说明
图1是本发明中经过实施例1处理前后的auc结果对比图;
图2是本发明中经过实施例2中方案一、方案二、方案三处理的auc结果对比图;
图3是本发明中经过实施例2中方案一处理后的示意图;
图4是本发明中经过实施例2中方案三处理后的示意图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种增强高维类别特征表达能力的方法,如下步骤:
S1、构建类别变量所对应的属性转换为属性特征的转换公式;
转换公式为:
其中,N表示有N个样本(xi,yi),i=1,2,3...N,xi表示第i个输入的类别变量,yi表示对应类别变量xi的属性,I{.}是示性函数,x(j)表示第j种属性,j=1,2,3...l,l表示属性种类个数,φj是第j种属性x(j)对应的yi的平均值,nj是取值为x(j)的属性个数。
S2、将转换公式通过正则化处理得到目标转换公式;
目标转换公式为:
其中,λ(nj)是一个取值在[0,1]范围的函数,k和f是根据实际应用定义的超参数。
S3、将类别变量所对应的属性通过目标转换公式处理,得到最终的属性目标特征变量。
其中,k和f都是提前需要确定的超参数。可以看出,当ni→∞,λ(n)→1。而当ni→-∞,λ(n)→0。通过选取合适的k和f,就可以将原来的类别变量x转化为属性目标特征变量φ,而转化后的属性目标特征变量φ较原来的类别变量x具有更好的特征表达能力,且可以提高模型表现。
实施例1
本实例的数据源来自kaggle竞赛平台的Porto Seguro’s Safe DriverPrediction。
具体链接如下:https://www.kaggle.com/c/porto-seguro-safe-driver-prediction,因采用的数据量有些大,单类别变量所对应的属性种类特别多,下述只给出了单类别变量名称,所以本实施例并未提供具体数据(在链接中可以找到),若需要提供,我方可单独提供。
所采用的单类别变量为:“ps_ind_02_cat”、“ps_ind_04_cat”、“ps_ind_05_cat”、“ps_car_01_cat”、“ps_car_02_cat”、“ps_car_03_cat”、“ps_car_04_cat”、“ps_car_05_cat”、“ps_car_06_cat”、“ps_car_07_cat”、“ps_car_08_cat”、“ps_car_09_cat”、“ps_car_10_cat”和“ps_car_11_cat”,上述变量也是公开的表示方式,为本领域知晓的含义。
采用本发明中的目标转换公式进行处理时,先确定k=1,f=1。
竞赛要求参赛者根据汽车保单持有人的数据建立机器学习模型,分析该持有人是否会在次年提出索赔。为说明本发明的目标编码方法(target encoding)带来的特征增强效果,特对其中14个类别变量进行分析,如图1所示,展示了单类别变量经过前后5折CV(5折交叉验证(cross validation))平均auc的评估结果,
从图1中可以看出,在5折CV平均auc的评估结果下,原始类别变量经过目标转换公式后均有不同程度的提高,最高的类别变量auc提高了6个百分点,这是一个非常大的提升,由此可见,本发明中的方法确实可以增强原特征的表达能力。
实施例2
为进一步说明,本发明的处理后的属性目标特征变量能提高模型表现,具体如下:
数据源来自:Lending Club(a US peer-to-peer lending company)客户借贷的数据,目的是预测申请人的“好坏”,链接如下:
https://raw.githubusercontent.com/h2oai/app-consumer-loan/master/data/loan.csv,因采用的数据量有些大,单类别变量所对应的属性种类特别多,下述只给出了单类别变量名称,所以本实施例并未提供具体数据(在链接中可以找到),若需要提供,我方可单独提供。
采用本发明中的目标转换公式主要针对类别变量“addr_state”进行处理,从而观测gbdt模型的处理前后表现,评估准则为测试集上的auc。其中,训练集和测试集是以0.75∶0.25的比例将样本随机划分而成进行处理。
所采用的类别变量为:“addr_state”、“term”、“int_rate”、“purpose”、“annual_inc”、“revol_util”、“loan_amnt”、“dti”、“emp_length”、“longest_credit_length”,addr_state为地址所在的州、term为贷款期数、int_rate为初始利率、purpose为贷款目的、annual_inc为年收入、revol_util为信用卡的“杠杆”、loan_amnt为贷款金额、dti:月度还款比列、emp_length为工作年限、longest_credit_length为使用信用卡年限。
采用本发明中的目标转换公式进行处理时,先确定k=1,f=1。
如图2所示,方案一:未作任何处理,原始类别变量(No addr_state TargetEncoding,即没有采用本发明)直接进行模型预测(即未采用本发明对类别变量进行处理),测试集上的auc为0.7198658,此时如图3显示“addr_state”的重要性最高。
方案二:去掉“addr_state”这个类别变量直接进行模型预测(即未采用本发明对类别变量进行处理),测试集auc为0.7230537,高于方案一。对比可知:gbdt模型很有可能在addr_state这个特征过拟合了。
方案三:将“addr_state”这个类别变量通过本发明的目标转换公式(targetencoding)转化后,测试集auc为0.7254448明显高于方案一中未做转换的数据,且经过本发明编码处理后的特征TargetEncode_addr_state(即通过本发明处理后的“addr_state”)重要性不再是第一,而是第8,如图4所示。所示经过本发明处理后的类别变量不仅可以防止过拟合,还能提高模型表现。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。
Claims (3)
1.一种增强高维类别特征表达能力的方法,其特征在于,如下步骤:
S1、构建类别变量所对应的属性转换为属性特征的转换公式;
S2、将转换公式通过正则化处理得到目标转换公式;
S3、将类别变量所对应的属性通过目标转换公式处理,得到最终的属性目标特征变量。
2.根据权利要求1所述的一种增强高维类别特征表达能力的方法,其特征在于,所述步骤S1中的转换公式为:
其中,N表示有N个样本(xi,yi),i=1,2,3...N,xi表示第i个输入的类别变量,yi表示对应类别变量xi的目标值,I{·}是示性函数,x(j)表示第j种属性,j=1,2,3...l,,表示属性种类个数,φj是第j种属性x(j)对应的yi的平均值,nj是取值为x(j)的属性个数。
3.根据权利要求2所述的一种增强高维类别特征表达能力的方法,其特征在于,所述步骤S2得到的目标转换公式为:
其中,λ(nj)是一个取值在[0,1]范围的函数,k和f是根据实际应用定义的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566391.8A CN109657723A (zh) | 2018-12-20 | 2018-12-20 | 一种增强高维类别特征表达能力的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566391.8A CN109657723A (zh) | 2018-12-20 | 2018-12-20 | 一种增强高维类别特征表达能力的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109657723A true CN109657723A (zh) | 2019-04-19 |
Family
ID=66115478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811566391.8A Pending CN109657723A (zh) | 2018-12-20 | 2018-12-20 | 一种增强高维类别特征表达能力的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657723A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254020A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 基于特征权重的全局k-均值聚类方法 |
JP2013140494A (ja) * | 2012-01-05 | 2013-07-18 | Kddi Corp | 高次元の特徴ベクトルを検索する検索装置及びプログラム |
CN104820711A (zh) * | 2015-05-19 | 2015-08-05 | 深圳久凌软件技术有限公司 | 复杂场景下对人形目标的视频检索方法 |
CN106778804A (zh) * | 2016-11-18 | 2017-05-31 | 天津大学 | 基于类别属性迁移学习的零样本图像分类方法 |
CN107229948A (zh) * | 2017-05-19 | 2017-10-03 | 四川新网银行股份有限公司 | 一种基于用户问题预测模型的减小线上客户流失的方法 |
CN107909298A (zh) * | 2017-12-11 | 2018-04-13 | 四川新网银行股份有限公司 | 一种基于指数算法的互金企业评价方法 |
CN107992726A (zh) * | 2017-11-29 | 2018-05-04 | 北京安华金和科技有限公司 | 一种基于伪行伪列的水印处理和数据溯源方法 |
CN107992727A (zh) * | 2017-12-11 | 2018-05-04 | 北京安华金和科技有限公司 | 一种基于原有数据变形实现的水印处理和数据溯源方法 |
CN108875815A (zh) * | 2018-06-04 | 2018-11-23 | 深圳市研信小额贷款有限公司 | 特征工程变量确定方法及装置 |
-
2018
- 2018-12-20 CN CN201811566391.8A patent/CN109657723A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254020A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 基于特征权重的全局k-均值聚类方法 |
JP2013140494A (ja) * | 2012-01-05 | 2013-07-18 | Kddi Corp | 高次元の特徴ベクトルを検索する検索装置及びプログラム |
CN104820711A (zh) * | 2015-05-19 | 2015-08-05 | 深圳久凌软件技术有限公司 | 复杂场景下对人形目标的视频检索方法 |
CN106778804A (zh) * | 2016-11-18 | 2017-05-31 | 天津大学 | 基于类别属性迁移学习的零样本图像分类方法 |
CN107229948A (zh) * | 2017-05-19 | 2017-10-03 | 四川新网银行股份有限公司 | 一种基于用户问题预测模型的减小线上客户流失的方法 |
CN107992726A (zh) * | 2017-11-29 | 2018-05-04 | 北京安华金和科技有限公司 | 一种基于伪行伪列的水印处理和数据溯源方法 |
CN107909298A (zh) * | 2017-12-11 | 2018-04-13 | 四川新网银行股份有限公司 | 一种基于指数算法的互金企业评价方法 |
CN107992727A (zh) * | 2017-12-11 | 2018-05-04 | 北京安华金和科技有限公司 | 一种基于原有数据变形实现的水印处理和数据溯源方法 |
CN108875815A (zh) * | 2018-06-04 | 2018-11-23 | 深圳市研信小额贷款有限公司 | 特征工程变量确定方法及装置 |
Non-Patent Citations (4)
Title |
---|
张碧月: "基于RF和APSOLSSVM的两阶段信用评估研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 * |
杨凯等: "基于扩展级联原始位置敏感散列的快速影像特征匹配", 《计算机工程》 * |
陈祥凤 等: "度量学习改进语义自编码零样本分类算法", 《北京邮电大学学报》 * |
马宏伟等: "协同过滤推荐算法综述", 《小型微型计算机系统》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107784312B (zh) | 机器学习模型训练方法及装置 | |
TWI789345B (zh) | 機器學習模型的建模方法及裝置 | |
Chen et al. | Credit risk Evaluation by hybrid data mining technique | |
WO2017143921A1 (zh) | 一种多重抽样模型训练方法及装置 | |
CN110909984B (zh) | 业务数据处理模型训练方法、业务数据处理方法及装置 | |
CN106960358A (zh) | 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统 | |
CN103514566A (zh) | 一种风险控制系统及方法 | |
CN103106535B (zh) | 一种基于神经网络解决协同过滤推荐数据稀疏性的方法 | |
CN110751557A (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
CN110414780A (zh) | 一种基于生成对抗网络的金融交易负样本生成方法 | |
US20140222737A1 (en) | System and Method for Developing Proxy Models | |
CN104318515B (zh) | 基于nnia进化算法的高光谱图像波段降维方法 | |
CN104463673A (zh) | 一种基于支持向量机的p2p网络贷款风险评估模型 | |
CN111178656A (zh) | 信用模型训练方法、信用评分方法、装置及电子设备 | |
Hou et al. | A robust Markowitz mean-variance portfolio selection model with an intractable claim | |
Xu et al. | No‐reference stereoscopic image quality assessment based on saliency‐guided binocular feature consolidation | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
CN108931815B (zh) | 一种岩性的分级识别方法 | |
CN111639688A (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
CN114004530B (zh) | 基于排序支撑向量机的企业电力信用分建模方法及系统 | |
CN104778951A (zh) | 语音增强的方法和装置 | |
CN106919808A (zh) | 基于变步长最小均方误差自适应滤波器的基因识别系统 | |
CN109657723A (zh) | 一种增强高维类别特征表达能力的方法 | |
CN104881532A (zh) | 一种基于稳健性的卷筒产品平台设计方法 | |
CN103337034A (zh) | 基于蒙特卡洛-灰色预测混合算法的股票价格预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190419 |
|
RJ01 | Rejection of invention patent application after publication |