CN112380216A - 一种基于交叉的自动特征生成方法 - Google Patents

一种基于交叉的自动特征生成方法 Download PDF

Info

Publication number
CN112380216A
CN112380216A CN202011285312.3A CN202011285312A CN112380216A CN 112380216 A CN112380216 A CN 112380216A CN 202011285312 A CN202011285312 A CN 202011285312A CN 112380216 A CN112380216 A CN 112380216A
Authority
CN
China
Prior art keywords
features
data
generated
feature
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011285312.3A
Other languages
English (en)
Other versions
CN112380216B (zh
Inventor
周楚杰
杨帆
黄馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rongqiniu Information Technology Co ltd
Original Assignee
Beijing Rongqiniu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rongqiniu Information Technology Co ltd filed Critical Beijing Rongqiniu Information Technology Co ltd
Priority to CN202011285312.3A priority Critical patent/CN112380216B/zh
Publication of CN112380216A publication Critical patent/CN112380216A/zh
Application granted granted Critical
Publication of CN112380216B publication Critical patent/CN112380216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种基于交叉的自动特征生成方法,包括:S1,对于待处理的数据表,按照数据表中的数据的类型进行分箱并转换二值特征;S2,对于生成的所述二值特征进行迭代特征交叉,生成交叉特征,包括:S21,基于所述二值特征,计算多个特征评价指标;S22,根据指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k;S23,从生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个;S24,将k个二值特征和n个交叉特征两两进行交叉运算,生成新的交叉特征;S25,从新生成的交叉特征中挑选m个保留,作为本轮迭代生成的交叉特征。本发明的方法大幅度提高使用人员特征开发效率。

Description

一种基于交叉的自动特征生成方法
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种基于交叉的自动特征生成方法。
背景技术
随着海量数据的出现,人们倾向于使用机器学习技术建立模型解决实际问题。训练机器学习模型的基本过程主要包括:1)明确建模目标,收集可用数据;2)特征生成,特征选择;3)建立模型;4)评估模型效果。在上述过程中,特征生成过程非常重要,特征生成的好坏决定了模型的上限。
目前,特征生成方法有如下几种:
1)人工特征生成
技术人员经过底层数据的清洗、筛选、特征逻辑的设计,开发特征计算代码等过程,来开发特征。这需要花费技术人员大量的时间。
2)半自动特征生成
现有的机器学习平台,可基于图形界面的交互方式来完成特征生成流程。流程主要为:技术人员指定特征生成逻辑,并手动输入到平台中,平台根据用户指定特征生成逻辑进行计算,生成特征。不需技术人员开发代码,但需技术人员对业务和数据有深刻的理解,特征效果取决于技术人员的业务经验,且当面对大量的数据时,仍需要花费大量的时间。
发明内容
针对背景技术中的问题,本发明的目的是:a)针对每个样本仅有一条记录的结构化数据表提出一种自动特征构建方法。b)由于每个样本仅有一条数据记录,导致每个样本可使用数据信息较少,因此提出使用交叉算法,提取不同字段之间的组合信息,提升特征效果,挖掘有效信息。
为此本发明提出一种基于交叉的自动特征生成方法,包括:
S1,对于待处理的数据表,按照数据表中的数据的类型进行分箱并转换二值特征;
S2,对于生成的所述二值特征进行迭代特征交叉,生成交叉特征,其中,在生成交叉特征的迭代过程中,进行特征筛选,包括:
S21,基于步骤S1生成的二值特征,计算多个特征评价指标;
S22,根据指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m,交叉特征数量n,待交叉特征数量k;
S23,从步骤S1中生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个;
S24,将k个二值特征和n个交叉特征两两进行交叉运算,支持且和或交叉算子,生成新的交叉特征;
S25,从新生成的交叉特征中挑选m个保留,作为本轮迭代生成的交叉特征。
本发明的方法解决了每个样本只有一条数据的数据表场景下的特征生成任务,提高了使用人员效率。
本发明的有益效果包括:
1)对于每个样本只有一条数据的数据表特征生成任务实现全流程自动化,只需根据用户设定的数据表之间关联关系,即可开始特征生成任务,用户无需了解数据情况。
2)支持用户选择多张数据表,可生成多张数据表交叉特征,特征维度更丰富,信息提取更全面。
3)自动判断每个字段的数据类型,并给出每个字段的分析报告,指导用户选择有效的字段,并可根据正确的字段类型自动选择特征生成方法。
4)根据数据存储方式自动选择数据筛选方案,高效准确的筛选出指定数据有效期内的全部数据。
5)根据是否有目标变量自动选择卡方、等频、等距等分箱方法,搜索最优分割点,并可支持用户指定分箱方式。
6)使用多种评价指标评估交叉特征效果,从特征效果和信息覆盖度综合筛选特征,保证特征的效果和信息覆盖度。
附图说明
为了更容易理解本发明,将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式,不应认为对本发明保护范围的限制。
图1为本发明的方法的一个实施例的流程图。
图2为本发明的方法的另一个实施例的流程图。
具体实施方式
下面参照附图描述本发明的实施方式,其中相同的部件用相同的附图标记表示。在不冲突的情况下,下述的实施例及实施例中的技术特征可以相互组合。
如图1所示,本发明的方法包括步骤S1。在步骤S1中,分析被选择的所有数据表,判断每个字段的数据类型(其中数据类型包括字符型,字符分类型,数值分类型,整型,浮点型,时间类型,布尔型),并给出每个字段的分析报告。
其中,根据数据类型,可以选择合适的分箱方法和可用的特征生成算子,来提升特征效果。所述分析报告可以用来指导用户选择使用字段。分析报告包括常用的统计分析指标,例如最大值,最小值,方差,均值等,以及关于数据情况的分析,例如是否包含中文,取值个数,覆盖率,零值率等。并根据以上内容自动给出字段是否建议选用。用户也可自由调整使用字段和字段类型。
再次参照图1,本发明的方法还包括步骤S2。在步骤S2中,根据用户选择的关联关系(即用户指定一张表跟另一张表使用某一主键进行关联)。用户配置好关联关系后,生成表关系拓扑图,供用户确认配置是否正确。算法根据关联关系,从样本表开始依次关联所有数据表。关联过程中,可以根据筛选条件(例如数据生成时间、样本时间以及数据有效期)筛选有效记录,最终形成一张完整的数据表,该数据表包含用户选择的所有字段,供特征生成使用。
优选地,每次关联数据表之前,根据该表数据的筛选条件(例如数据生成时间、样本时间以及用户设置的数据有效期)来筛选数据,仅使用满足某些条件的数据,以保证数据的有效性。例如,只选择数据生成时间在(样本时间-数据有效期)之间的数据,保证数据的有效性。
优选地,对于筛选后的数据,根据数据类型对每列数据挑选适用的异常值处理方法,进行异常值和空值处理,提高数据可用性。包括:
1),判断异常记录:对于数值型字段,使用异常值检测算法筛选异常值,对于分类型字段,占比极小的类别认为是异常值。
2),异常记录处理:根据预先设置的异常值处理方法替换异常值数据,处理方法包括:删除、填充。
再次参照图1,本发明的方法还包括步骤S3。在步骤S3中,对于处理好的数据,按照判断的类型自动进行分箱并转换二值特征(例如取值为0/1)。
更具体地,步骤S3包括:
S31,对于每列数据使用至少一种分箱方法,进行分箱计算,分箱完成后,根据分箱效果选择最优分割点。
S32,根据最优分割点分割数据,转换为二值特征。例如,以等宽分箱为例:假设连续特征的取值区间为[0,100],分两个箱子,则分箱宽度为50,取值为60的连续特征对应于第二个箱子,因此转换成的二值特征组为[0,1]。
再次参照图1,本发明的方法还包括步骤S4。
在步骤S4中,基于步骤S3中生成的二值特征迭代进行特征交叉,生成交叉特征。其中,在生成交叉特征的迭代过程中,进行特征筛选。特征筛选指的是,根据多种评价指标从多维度评价特征效果,权衡特征效果和信息覆盖度,选择特征进行下一轮迭代交叉,进行特征筛选是为了防止特征维度爆炸。
更具体地,步骤S4包括:
S41,基于步骤S3生成的二值特征,计算多个特征评价指标,通过多种评价指标从多维度评价特征效果。
S42,根据用户指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m,交叉特征数量n,待交叉特征数量k。m,n,k计算过程如下:
1)根据原始字段数量推断每轮迭代可生成特征数量。
2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量,每轮分配特征数量递减。
3)取步骤1和步骤2中的较小值为本轮预期生成特征数量m。
4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量,确定交叉特征数量n,待交叉特征数量k,保证n*k大于m且与m数量相近。
S43,从步骤S3中生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个。其中,第一次迭代时均从步骤S3中生成的二值特征中挑选,挑选交叉和待交叉特征时,抽取特征效果最好的特征的同时加入随机抽取特征,兼顾特征效果和信息覆盖度。
S44,将k个二值特征和n个交叉特征两两进行交叉运算,支持且和或交叉算子,生成新的交叉特征。
S45,从新生成的交叉特征中挑选效果最好的m个保留,作为本轮迭代生成的交叉特征。
再次参照图1-2,本发明的方法还包括步骤S5。在步骤S5中,判断停止迭代条件是否满足:迭代次数达到用户指定迭代次数,或者新生成的特征无法继续交叉(交叉生成特征覆盖率均过低,同组特征不交叉,强相关特征组不交叉)。如果满足,则迭代完成所生成的组合特征即为该任务最终生成特征。如果不满足,则返回到步骤S4。
根据本发明的方法,能够基于数据表自动生成特征,既降低了特征生成的门槛,提高了特征工程的易用性,又提高了特征工程的效率。
经过对比测试,本发明使用方案与人工特征开发相比能大幅度较少使用人员工作量,提高特征开发效率,并且特征效果接近或优于人工开发特征。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种基于交叉的自动特征生成方法,其特征在于,包括:
S1,对于待处理的数据表,按照数据表中的数据的类型进行分箱并转换二值特征;
S2,对于生成的所述二值特征迭代进行特征交叉,生成交叉特征,其中,在生成交叉特征的迭代过程中,进行特征筛选,包括:
S21,基于步骤S1生成的二值特征,计算多个特征评价指标;
S22,根据指定的特征生成数量和迭代轮数,计算每轮需保留的特征数量m、交叉特征数量n和待交叉特征数量k;
S23,从步骤S1中生成的二值特征中挑选k个,从上一次迭代生成的交叉特征中挑选n个;
S24,将k个二值特征和n个交叉特征两两进行交叉运算,支持且和或交叉算子,生成新的交叉特征;
S25,从新生成的交叉特征中挑选m个保留,作为本轮迭代生成的交叉特征。
2.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,还包括:
S3,判断停止迭代条件是否满足:迭代次数达到用户指定迭代次数,或者新生成的特征无法继续交叉,如果满足,则迭代完成所生成的组合特征即为该任务最终生成特征,如果不满足,则返回到步骤S2。
3.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,
在步骤S23中,第一次迭代时均从步骤S1中生成的二值特征中挑选,挑选交叉和待交叉特征时,抽取特征效果最好的特征的同时加入随机抽取特征。
4.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,步骤S1包括:
S13,对于数据表的每列数据使用至少一种分箱方法,进行分箱计算,分箱完成后,根据分箱效果选择最优分割点;
S23,根据最优分割点分割数据,转换为二值特征。
5.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:
对分析被选择的所有数据表,判断每个字段的数据类型,并给出每个字段的分析报告。
6.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,在进行步骤S1之前,还包括:
根据选择的关联关系,依次关联所有数据表。
7.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,还包括:对于筛选后的数据,根据数据类型对每列数据挑选异常值处理方法,进行异常值和空值处理,包括:
1)判断异常记录:对于数值型字段,使用异常值检测算法筛选异常值,对于分类型字段,占比小的类别认为是异常值;
2)异常记录处理:根据预先设置的异常值处理方法替换异常值数据,处理方法包括:删除和填充。
8.根据权利要求4所述的基于交叉的自动特征生成方法,其特征在于,
在S13中,根据每个字段的数据类型来选择分箱方法。
9.根据权利要求6所述的基于交叉的自动特征生成方法,其特征在于,
在关联过程中,根据筛选条件筛选有效记录,形成一张数据表,供特征生成使用。
10.根据权利要求1所述的基于交叉的自动特征生成方法,其特征在于,通过如下方法计算特征数量m,交叉特征数量n,待交叉特征数量k:
1)根据原始字段数量推断每轮迭代可生成特征数量;
2)根据指定特征数量和迭代轮数计算每轮预期生成特征数量,每轮分配特征数量递减;
3)取步骤1)和步骤2)中的较小值为本轮预期生成特征数量m;
4)根据特征数量m和原始字段数量以及上一次迭代生成特征数量,确定交叉特征数量n和待交叉特征数量k,保证n*k大于m且与m数量相近。
CN202011285312.3A 2020-11-17 2020-11-17 一种基于交叉的自动特征生成方法 Active CN112380216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285312.3A CN112380216B (zh) 2020-11-17 2020-11-17 一种基于交叉的自动特征生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285312.3A CN112380216B (zh) 2020-11-17 2020-11-17 一种基于交叉的自动特征生成方法

Publications (2)

Publication Number Publication Date
CN112380216A true CN112380216A (zh) 2021-02-19
CN112380216B CN112380216B (zh) 2023-07-28

Family

ID=74585656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285312.3A Active CN112380216B (zh) 2020-11-17 2020-11-17 一种基于交叉的自动特征生成方法

Country Status (1)

Country Link
CN (1) CN112380216B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理系统及自动建模方法
CN110610506A (zh) * 2019-09-17 2019-12-24 北京中环易达设施园艺科技有限公司 一种基于图像处理技术的姬松茸子实体生长参数检测方法
CN110807150A (zh) * 2019-10-14 2020-02-18 腾讯科技(深圳)有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN110956272A (zh) * 2019-11-01 2020-04-03 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN110956277A (zh) * 2019-11-27 2020-04-03 深圳市魔数智擎人工智能有限公司 一种交互式的迭代建模系统及方法
CN111127385A (zh) * 2019-06-06 2020-05-08 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN111368147A (zh) * 2020-02-25 2020-07-03 支付宝(杭州)信息技术有限公司 图特征处理的方法及装置
US20200265273A1 (en) * 2019-02-15 2020-08-20 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理系统及自动建模方法
US20200265273A1 (en) * 2019-02-15 2020-08-20 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data
CN111127385A (zh) * 2019-06-06 2020-05-08 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN110610506A (zh) * 2019-09-17 2019-12-24 北京中环易达设施园艺科技有限公司 一种基于图像处理技术的姬松茸子实体生长参数检测方法
CN110807150A (zh) * 2019-10-14 2020-02-18 腾讯科技(深圳)有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN110956272A (zh) * 2019-11-01 2020-04-03 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN110956277A (zh) * 2019-11-27 2020-04-03 深圳市魔数智擎人工智能有限公司 一种交互式的迭代建模系统及方法
CN111368147A (zh) * 2020-02-25 2020-07-03 支付宝(杭州)信息技术有限公司 图特征处理的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANGJUN ZHAO ET AL.: "Cross-Weighted Centroid with Application to the Extraction of Affine Invariants", 《2011 FOURTH INTERNATIONAL CONFERENCE ON INFORMATION AND COMPUTING》, pages 126 - 129 *
张明锦 等: "基于数据分箱的CARS方法用于基因表达谱的特征筛选", 《计算机与应用化学》, vol. 32, no. 8, pages 1004 - 1006 *

Also Published As

Publication number Publication date
CN112380216B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
KR101130524B1 (ko) 목표 변수를 위한 데이터 전망 자동 생성
US8170894B2 (en) Method of identifying innovations possessing business disrupting properties
CN110263230B (zh) 一种基于密度聚类的数据清洗方法及装置
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN105786860A (zh) 一种数据建模中的数据处理方法及装置
CN110263827A (zh) 基于交易规律识别的异常交易检测方法及装置
CN110287219B (zh) 一种数据处理方法及系统
CN108491226A (zh) 基于集群缩放的Spark配置参数自动调优方法
CN104885101A (zh) 包括表征选择的不确定度的基于不完备描述对新总体成员的相似成员的自动选择
JP2012073812A (ja) データ分析支援システム及び方法
CN112434032B (zh) 一种自动特征生成系统和方法
Van Westen Use of weights of evidence modeling for landslide susceptibility mapping
CN112380216A (zh) 一种基于交叉的自动特征生成方法
CN112416800A (zh) 智能合约的测试方法、装置、设备及存储介质
CN117114116A (zh) 一种基于机器学习的根因分析方法、介质和设备
CN116775741A (zh) 一种工程竣工决算的审计方法及相关装置
CN107957944B (zh) 面向用户数据覆盖率的测试用例自动生成方法
CN112380215A (zh) 一种基于交叉聚合的自动特征生成方法
CN110377741A (zh) 文本分类方法、智能终端及计算机可读存储介质
KR102425013B1 (ko) 검색량 분석과 다중회귀 분석을 이용한 탄소 배출권 가격 예측 시스템 및 그것에 의해 수행되는 탄소 배출권 가격 예측 방법
CN115759250A (zh) 归因分析方法、装置、电子设备以及存储介质
CN114881521A (zh) 业务评估方法、装置、电子设备以及存储介质
CN112667617A (zh) 一种基于自然语言的可视化数据清洗系统及方法
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
CN104899859A (zh) 自动选择用于地震分析的滤波器参数

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant