CN110781978A - 一种用于机器学习的特征处理方法和系统 - Google Patents

一种用于机器学习的特征处理方法和系统 Download PDF

Info

Publication number
CN110781978A
CN110781978A CN201911065763.3A CN201911065763A CN110781978A CN 110781978 A CN110781978 A CN 110781978A CN 201911065763 A CN201911065763 A CN 201911065763A CN 110781978 A CN110781978 A CN 110781978A
Authority
CN
China
Prior art keywords
feature
candidate
population
individual
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911065763.3A
Other languages
English (en)
Inventor
马健
钟文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911065763.3A priority Critical patent/CN110781978A/zh
Publication of CN110781978A publication Critical patent/CN110781978A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本实施例之一涉及一种用于机器学习的特征处理方法和系统。所述方法包括:从基础特征集中获取多个候选特征以及从基础算子集中获取多个候选算子,将所述多个候选特征和多个候选算子组成多个初始特征组合;将所述多个初始特征组合作为遗传规划算法的初始种群,采用遗传规划算法对所述初始种群进行遗传操作,得到优化后的目标种群;基于所述优化后的目标种群得到目标特征组合,所述目标特征组合用基础特征和基础算子的计算结果来表示;其中基础特征属于基础特征集,基础算子属于基础算子集;将所述目标特征组合作为机器学习的一个特征参与机器学习的运算。

Description

一种用于机器学习的特征处理方法和系统
技术领域
本说明书实施例涉及人工智能领域,特别涉及一种用于机器学习的特征处理方法和系统。
背景技术
特征是所有机器学习模型的基础,好的特征对模型的效果起到至关重要的作用。单个特征的表达能力往往有限,将多个特征进行组合可以提高表达能力。特征挖掘本身是一项较为繁琐的工作,通过人工挖掘得到的特征组合往往只有3-4阶,其他的一些自动挖掘特征组合的方法得到的特征组合为隐式特征组合,这样的特征组合与目标变量之间的关系非常隐蔽,可解释性较低,或者,得到的特征组合为半显式特征组合,这样的特征组合与目标变量之间的关系虽然不像隐式特征组合那样隐蔽,但其表达能力有限。
因此,希望能提供一种能够有效挖掘显式特征组合的方法和系统。
发明内容
本说明书中实施例提供一种用于机器学习的特征处理方法,包括:从基础特征集中获取多个候选特征以及从基础算子集中获取多个候选算子,将所述多个候选特征和多个候选算子组成多个初始特征组合;将所述多个初始特征组合作为遗传规划算法的多个初始种群,采用遗传规划算法对所述多个初始种群进行遗传操作,得到优化后的目标种群;基于所述优化后的目标种群得到目标特征组合,所述目标特征组合用基础特征和基础算子的计算结果来表示;其中基础特征属于基础特征集,基础算子属于基础算子集;将所述目标特征组合作为机器学习的一个特征参与机器学习的运算。
本说明书实施例提供一种用于机器学习的特征处理系统,包括:获取模块,用于从基础特征集中获取多个候选特征以及从基础算子集中获取多个候选算子;初始特征组合生成模块,用于将所述多个候选特征和多个候选算子组成多个初始特征组合;遗传规划模块,用于将所述多个初始特征组合作为遗传规划算法的初始种群,采用遗传规划算法对所述初始种群进行遗传操作,得到优化后的目标种群;目标特征组合确定模块,用于基于所述优化后的目标种群得到目标特征组合,所述目标特征组合用基础特征和基础算子的计算结果来表示;其中基础特征属于基础特征集,基础算子属于基础算子集;所述目标特征组合能够作为机器学习的一个特征参与机器学习的运算。
本说明书实施例提供一种用于机器学习的特征处理装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如上所述的特征处理方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1为根据本说明书一些实施例所示的特征处理方法的示例性流程图;
图2为根据本说明书一些实施例所示的示例性树编码形式的特征树;
图3为根据本说明书一些实施例所示的通过遗传规划算法确定目标种群的示例性流程图;
图4为根据本说明书一些实施例所示的基因交叉的一个示意图;
图5为根据本说明书一些实施例所示的基因突变的一个示意图;以及
图6为根据本申请一些实施例所示的特征处理系统的示例性框图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书实施例涉及一种特征处理方法和系统。所述方法通过遗传规划算法有效挖掘显式特征组合,即根据不同的单个特征生成一个复杂的特征组合参与机器学习过程。所生成的特征组合为符号回归的形式,可以直观反映各特征对业务的影响,具有较高的可解释性,且形式多样,具有较强的表达能力。
图1是根据本说明书一些实施例所示的特征处理方法的示例性流程图。该流程100可以由图6所示的特征处理系统执行。该流程100包括:
步骤110,获取多个候选特征和多个候选算子,将所述多个候选特征和多个候选算子组成多个初始特征组合。步骤110可以由图6所示特征处理系统600中的获取模块610和初始特征组合生成模块620执行。
在一些实施例中,候选特征可以从基础特征集中获取。候选特征可以由人工根据经验确定。仅作为示例,现希望通过机器学习确定老用户可能带来多少新用户(以下也称为“拉新”),需要根据老用户的属性确定用于机器学习的特征组合,基础特征集中可包括各种与老用户属性相关的特征,从中选取的候选特征可以包括用户所在年龄段对金额的敏感度、用户所在城市对金额的敏感度、用户所在省份对金额的敏感度、用户性别对金额的敏感度等。
在一些实施例中,候选算子可以从基础算子集中获取。候选算子也可以由人工根据经验确定。基础算子集中可以包括各种类型的算子。例如,可以包括:算术运算符,如+、-、*、/等;超越函数,如sin、cos、log、exp等;布尔运算符,如AND、OR、NOT等;条件表达式,如If-then-else、Switch-case等;循环表达式,如Do-until、While-do、For-do等;控制转移说明语句,如Go to、Call、Jump等;变量赋值函数,如a=1、Read、Write等。仅作为示例,本实施例中选用的候选算子可以包括+、-、*、/、^、ln、least、greatest等中的一种或以上任意组合,其中least表示不小于,如least(p,q)表示取p、q中较小的数值,greatest表示不大于,如greatest(p,q)表示取p、q中较大的数值。
在一些实施例中,除了候选特征和候选算子外,还可以获取候选终止符。终止符可以是常量,或者,也可以从候选特征中确定终止符。
在一些实施例中,可以采用树编码编码所述候选特征和所述候选算子得到候选特征树(也称为编码树),作为初始特征组合,其中,所述候选特征树的叶子节点为候选特征,非叶子节点为候选算子。图2为根据本说明书一些实施例所示的示例性树编码形式的特征树,其中叶子节点x1、x2、x3和x4表示特征,非叶子节点ln、*、^、/表示算子。在一些实施例中,初始特征组合可以通过将候选特征和候选算子组成符号回归方程得到。符号回归方程为由候选特征和候选算子组成的函数关系式。如图2所示的特征树表示的符号回归方程为:ln(x1)*(x2^(x3/x4))。
在一些实施例中,可以随机生成多个初始特征组合。具体地,在生成每个个体时,可以先根据候选特征和候选算子随机构造一个函数作为根节点。一般地,如果该函数有z个变量,则从该节点发出z条分支。然后,对于每条从节点发出的分支,从候选特征和候选终止符中随机选出一个作为该条分支的尾节点,其中,如果选出的是候选特征,则重复执行上述过程,如果选出的是候选终止符,则其所在的分支就终止生长。随机生成的方法包括但不限于控制最大深度法、控制节点数法、混合法。其中控制最大深度法生成的编码树,每个叶子的深度(即叶子节点距离根节点的层次)不得超过最大给定深度。控制节点数法生成的编码树在节点达到规定数目后停止生长。混合法即一部分个体通过控制最大深度法生成,一部分个体通过控制节点数法生成。需要注意的是,尽管以上描述了随机生成初始特征组合的方法,但在另一些实施例中,也可以人工指定初始特征组合。在一些实施例中,可以根据业务内容生成初始特征组合。例如在上文提到的“拉新”场景下,可以根据经验初步确定可能有用的特征以及各特征的重要性,指定初始特征组合。
步骤120,将所述多个初始特征组合作为遗传规划算法的初始种群,采用遗传规划算法对所述初始种群进行选择和遗传操作,得到优化后的目标种群。步骤120可以由图6所示特征处理系统600中的遗传规划模块630执行。
遗传规划算法(Genetic Programming,GP)是一种最优化算法,主要思路是模拟人类繁殖遗传过程,通过生成种群,种群中的个体之间基因进行复制、交叉、变异来实现种群进化,优胜劣汰,从而获取最优个体。在得到初始种群后,需要评估种群中每个个体(即每个特征组合)的适应度。例如,图2所示的特征组合是初始种群中的一个个体,需要对其进行适应度评估。可以采用各种适应度度量,包括但不限于原始适应度、标准适应度、调和适应度、归一化适应度等。原始适应度是个体适应度自然描述的一种度量,对于不同问题,原始适应度有时越大越好,有时越小越好。例如,在预测问题中,原始适应度可以表现为预测值和实际值的偏差,偏差越小,原始适应度越高;在分类问题中,原始适应度可以表现为正确分类的次数,次数越大,原始适应度越高。标准适应度是为了统一原始适应度有时越大越好,有时越小越好而产生的,标准适应度总是表现为越小适应度越好,标准适应度可以按照以下公式计算:
s(i,t)=rmax-r(i,t) (1)
其中,s(i,t)为第t代第i个个体的标准适应度,r(i,t)为第t代第i个个体的原始适应度,rmax为原始适应度能达到的最大值。以图2所示特征组合代表的个体为例,其真实的原始适应度为r,原始适应度所能达到的最大值为rmax,则其标准适应度为s=rmax-r。
调和适应度根据标准适应度计算得到,其计算公式如下:
Figure BDA0002259287970000051
其中,a(i,t)为第t代第i个个体的调和适应度,s(i,t)为第t代第i个个体的标准适应度。当标准适应度接近于0时,调和适应度具有扩大标准适应度微小差别的好处。以图2所示特征组合代表的个体为例,其标准适应度为s,则其调和适应度为
Figure BDA0002259287970000052
归一适应度根据调和适应度计算得到,其计算公式如下:
Figure BDA0002259287970000053
其中,n(i,t)为第t代第i个个体的归一化适应度,a(i,t)为第t代第i个个体的调和适应度,M为种群中的个体数目。还是以图2所示特征组合代表的个体为例,其调和适应度为a,所在种群中的个体数目为M,则其归一适应度为
Figure BDA0002259287970000054
通过评估适应度,可以从多个种群中确定出适应度最优的至少一个个体,然后对最优的个体进行遗传操作,最终得到目标种群。遗传操作可以包括基因复制、基因交叉、基因变异等。例如,对图2所示个体进行基因复制,可以在进化后的下一轮种群中保留该个体。有关通过遗传规划算法优化初始种群并得到目标种群的更多内容请参见图3、图4、图5及其描述,此处不再赘述。
步骤130,基于所述优化后的目标种群得到目标特征组合。步骤130可以由图6所示特征处理系统600中的目标特征组合确定模块640执行。根据上文描述,目标种群可以是一个由目标特征和目标算子组成的树编码形式的特征树。目标特征组合可以通过将目标特征和目标算子组成符号回归方程得到。
步骤140,将所述目标特征组合作为机器学习的一个特征参与机器学习的运算。通过以上方法得到的特征组合为显式特征组合,可解释性高,与实际业务的结合更紧密,甚至可以用来指导业务。还是以用于确定老用户可能带来多少新用户的机器学习模型为例,最终得到的用于机器学习的特征组合可以是:
(cv_sensitive_agerange+1.6*cv_sensitive_maxcity+0.3*cv_sensitive_gender+0.4*cv_sensitive_ma xprov)^least(invite_num_last_14d,5)*least(click_num_last_3d,20) (4)
其中,cv_sensitive_agerange反映用户所在年龄段对金额的敏感度、cv_sensitive_maxcity反映用户所在城市对金额的敏感度、cv_sensitive_gender反映用户所属性别对金额的敏感度、cv_sensitive_maxprov反映用户所在省份对金额的敏感度,least(invite_num_last_14d,5)表示取过去14天用户的拉新人数和5中的较大值,least(click_num_last_3d,20)表示取过去3天用户的拉新页面点击数和20中的较大值。对该特征组合进行解释,可以看出,对于过去两周拉新人数比较少(少于5人)的用户,用户所在群体(年龄段、城市、性别、省份)对金额的敏感度越高、过去两周用户的拉新人数越多和/或过去三天用户的拉新页面点击次数越多,表明用户越可能拉新更多的人。
应当注意的是,上述有关流程100的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程100进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图3是根据本说明书一些实施例所示的通过遗传规划算法确定目标种群的示例性流程图。该流程300包括:
步骤310,确定多个初始特征组合作为遗传规划算法的初始种群。
概步骤与步骤110和120类似,此处不再赘述。
步骤320,对种群进行评估,确定适应度最优的至少一个个体。
在一些实施例中,可以通过评估个体与样本标签的相关性来评估个体的适应度。例如,可以从样本中提取目标特征,并采用各个体对应的特征组合计算得到特征值,样本标签可以预先标记,例如可以通过人工标记的方式生成,然后根据所述特征值与样本标签计算个体与样本标签之间的相关系数。本实施例中可以采用各种相关系数来衡量种群与样本标签之间的相关性,例如,相关于皮尔逊(Pearson)相关系数、斯皮尔曼(Spearman)相关系数、肯德尔(Kendall)相关系数等。个体与样本标签的相关性越高,表明个体的适应度越好。
在一些实施例中,个体对应的特征组合可以用于二元分类模型,则可以通过评估个体的接收者操作特性(Receiver Operating Characteristic,ROC)曲线的曲线下面积(Area Under Curve,AUC)来评估个体的适应度。ROC曲线可以反映模型的准确度,具体地,ROC曲线的纵轴为模型的真正率(指模型正确判断为正样本的数量占实际正样本数量的比值),横轴为假正率(指模型错误判断为正样本的数量占实际负样本数量的比值),ROC曲线下面的面积AUC可以作为衡量模型准确度的指标,AUC越大,模型的准确度越高,模型所采用的特征组合对应的个体的适应度越好。
在一些实施例中,可以通过评估个体应用于不同地区数据得到的结果的差异来评估个体的适应度。可以理解,一个好的个体应该可以适用于不同地区,因此可以通过评估同一个体应用于不同地区数据得到的结果的差异来评估个体的适应度。在一些实施例中,可以计算个体适用于不同地区数据得到的结果的方差来评估种群的适应度。具体地,方差越小,表明个体适用于不同地区数据得到的结果差异越小,个体的适应度越好。
以上用于评估个体适应度的方法可以单独使用,也可以结合使用确定个体的综合适应度。在一些实施例中,当结合使用以上方法评估个体的综合适应度时,可以为通过各方法得到的适应度确定一个权重,再对各方法得到的适应度进行加权求和,得到个体的综合适应度。
步骤330,对所述适应度最优的至少一个个体进行遗传操作,得到新的种群。
适应度是指个体对环境的适应程度,在本申请的遗传规划算法中,适应度反映个体(即特征组合)正确表达现实业务场景的能力。在一些实施例中,可以按照适应度由高到低对个体进行排序,选出适应度最高的N个个体,其中N为大于等于1的整数。再对选出的个体进行遗传操作。遗传是指根据当前种群(也称为父代种群)生成新的种群(也称为后代种群)。遗传操作可以包括基因复制、基因交叉、基因变异等。基因复制可以直接将父代种群中个体复制作为后代种群的个体。基因交叉可以将两个父代个体的部分组成部分相互交换,形成两个新的后代个体,基因交叉的手段包括但不限于子树交叉、自身交叉、模块交叉等。
图4为根据本说明书一些实施例所示的基因交叉的一个示意图,其中402和404为两个父代个体,每个个体代表一个特征组合,分别选取两个父代个体中的一部分4020和4040进行交叉,生成后代个体406和408,两个后代个体中的组成部分4060和4080为从父代个体中交叉得来的。
基因变异可以随机选定父代个体及其上的一个节点作为突变点,改变突变点处的特征或算子,基因突变的手段包括但不限于点突变、排列突变、主从突变、扩张突变、收缩突变等。点突变是指仅突变点处发生突变,突变点下面的子树仍保持不变。排列突变是指将突变点以下直接下属的特征交换排列顺序。主从突变是指将突变点以下的分支子树作为一个独立的后代个体。扩张突变是指将父代个体的某一子树插入到另一父代个体的叶子中,扩张成一颗更大的树作为后代个体。收缩突变与扩张突变相反,是指在随机选定父代个体的突变点及其下属分支子树后,删除该子树,用随机选出的终止符代替突变点,所生成的后代个体的深度小于父代个体的深度。
图5为根据本说明书一些实施例所示的基因突变的一个示意图,其中502为父代个体,5020为突变点,该突变点的运算符-发生突变后变成least,得到后代个体504。
在遗传过程中,基因复制不改变种群的结果,基因交叉主要改变种群的整体结构,基因突变主要改变种群的局部结构。在一些实施例中,可以预先设置执行基因复制、基因交叉和基因变异操作的比例。例如,可以设置基因复制的比例为5%、基因交叉的比例为65%、基因变异的比例为30%。每完成一轮遗传操作得到新的种群后,便执行步骤340。
步骤340,判断是否满足终止条件。响应于不满足终止条件,返回步骤320;否则执行步骤350。在一些实施例中,终止条件可以是达到了设定的进化代数。在另一些实施例中,终止条件可以是最新一轮进化所确定的种群中有种群的适应度达到了设定值。
步骤350,得到目标种群。可以从目标种群中选择适当个体作为目标特征组合,例如可以选择目标种群中适应度最高的个体作为目标特征组合。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例如,除了选取适应度最优的父代个体进行遗传操作外,也可以采用其他策略选取合适的父代个体进行遗传操作,例如可以采用精英策略保留父代种群中适应度最优的个体,再采用轮盘赌策略、锦标赛策略进行。圆盘策略采用圆盘的一个区域表示一个个体的适应度占种群中所有个体适应度综合的比例,圆盘中每进行一次选择,产生一个位于0到1之间的随机数,根据随机数的大小,落入圆盘的相应区域,确定相应的个体。锦标赛策略每次从随机选择的M个个体中选出最优的N个个体作为后代种群。
图6为根据本申请一些实施例所示的特征处理系统的示例性框图。该系统600包括:获取模块610、初始特征组合生成模块620、遗传规划模块630、目标特征组合确定模块640。
获取模块610用于获取候选特征和候选算子。在一些实施例中,候选特征可以从基础特征集中获取,候选算子可以从基础算子集中获取。在一些实施例中,获取模块610还可以获取候选终止符。
初始特征组合生成模块620用于生成初始特征组合。在一些实施例中,初始特征组合生成模块620可以采用树编码编码所述候选特征和所述候选算子得到候选特征树,作为初始特征组合。在一些实施例中,初始特征组合生成模块620可以随机生成初始特征组合。在另一些实施例中,初始特征组合生成模块620可以接收人工指定生成初始特征组合。
遗传规划模块630用于采用遗传规划算法确定目标种群。遗传规划模块630可以将多个初始特征组合作为初始种群,采用遗传规划算法对初始种群进行选择和遗传操作,得到优化后的目标种群。遗传规划模块630可以评估种群中每个个体的适应度,从中选出适应度最优的个体,对其进行基因复制、基于交互、基因变异等操作,得到由新的个体组成的新种群,然后再对新种群的个体进行适应度评估,如此往复,直到满足终止条件时可得到目标种群。
目标特征组合确定模块640用于确定目标特征组合。目标特征组合确定模块640可以从目标种群中选择适当个体作为目标特征组合,例如可以选择目标种群中适应度最高的个体作为目标特征组合。
应当理解,图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于特征处理系统600及其模块的描述,仅为描述方便,并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,图6中披露的获取模块610、初始特征组合生成模块620、遗传规划模块630、目标特征组合确定模块640可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,在一些实施例中,获取模块610和初始特征组合生成模块620可以合并为一个模块。诸如此类的变形,均在本申请的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过遗传规划算法进行显式特征组合的挖掘,所确定的特征组合为符号回归方程形式的显式特征组合,可解释性高,能够指导业务;(2)确定的特征组合为高阶特征,可应用的场景多,规则表达能力强。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (21)

1.一种用于机器学习的特征处理方法,包括:
从基础特征集中获取多个候选特征以及从基础算子集中获取多个候选算子,将所述多个候选特征和多个候选算子组成多个初始特征组合;
将所述多个初始特征组合作为遗传规划算法的初始种群,采用遗传规划算法对所述初始种群进行遗传操作,得到优化后的目标种群;
基于所述优化后的目标种群得到目标特征组合,所述目标特征组合用基础特征和基础算子的计算结果来表示;其中基础特征属于所述基础特征集,基础算子属于所述基础算子集;
将所述目标特征组合作为机器学习的一个特征参与机器学习的运算。
2.根据权利要求1所述的方法,所述方法还包括采用树编码编码所述候选特征和所述候选算子得到候选特征树,将所述候选特征树作为遗传规划算法的初始种群;
其中,所述候选特征树的叶子节点为候选特征,非叶子节点为候选算子。
3.根据权利要求1所述的方法,所述多个初始特征组合作为所述初始种群中的多个个体,所述将所述多个初始特征组合作为遗传规划算法的初始种群,采用遗传规划算法对所述初始种群进行遗传操作,得到优化后的目标种群,包括:
评估种群中每个个体的适应度,确定适应度最优的至少一个个体;
对所述适应度最优的至少一个个体进行遗传操作,得到新的种群;
判断是否满足终止条件,如果不满足,则返回评估每个个体的适应度的步骤;如果满足,则得到目标种群。
4.根据权利要求3所述的方法,所述遗传操作包括以下至少一种:
将个体中的候选特征和候选算子作为基因进行基因交叉、基因变异和基因复制。
5.根据权利要求3所述的方法,所述评估每个个体的适应度,包括评估以下至少一项:
个体与样本标签的相关性;
个体的接收者操作特性曲线的曲线下面积;
个体应用于不同地区数据得到的结果的方差。
6.根据权利要求3所述的方法,所述终止条件包括以下至少一个:
达到设定进化轮次;
最新一轮进化所确定的适应度最优的至少一个个体的适应度达到设定阈值。
7.根据权利要求1所述的方法,所述候选算子包括以下至少一个:+、-、*、/、^、ln、least和greatest。
8.根据权利要求1所述的方法,所述初始种群与业务内容相关。
9.根据权利要求1所述的方法,所述特征组合对应符号回归方程。
10.根据权利要求1所述的方法,所述多个候选特征为与老用户拉动新用户有关的特征;
所述多个初始特征组合和所述目标特征组合为与老用户拉动新用户有关的特征组合;
所述将所述目标特征组合作为机器学习的一个特征参与机器学习的运算,包括:通过机器学习处理所述目标特征组合,预测老用户带来的新用户数量。
11.一种用于机器学习的特征处理系统,所述系统包括:
获取模块,用于从基础特征集中获取多个候选特征以及从基础算子集中获取多个候选算子;
初始特征组合生成模块,用于将所述多个候选特征和多个候选算子组成多个初始特征组合;
遗传规划模块,用于将所述多个初始特征组合作为遗传规划算法的初始种群,采用遗传规划算法对所述初始种群进行遗传操作,得到优化后的目标种群;
目标特征组合确定模块,用于基于所述优化后的目标种群得到目标特征组合,所述目标特征组合用基础特征和基础算子的计算结果来表示;其中基础特征属于所述基础特征集,基础算子属于所述基础算子集;所述目标特征组合能够作为机器学习的一个特征参与机器学习的运算。
12.根据权利要求11所述的系统,所述初始特征组合生成模块还用于采用树编码编码所述候选特征和所述候选算子得到候选特征树,将所述候选特征树作为遗传规划算法的初始种群;其中,所述候选特征树的叶子节点为候选特征,非叶子节点为候选算子。
13.根据权利要求11所述的系统,所述多个初始特征组合作为所述初始种群中的多个个体,所述遗传规划模块还用于:
评估种群中每个个体的适应度,确定适应度最优的至少一个个体;
对所述适应度最优的至少一个个体进行遗传操作,得到新的种群;
判断是否满足终止条件,如果不满足,则返回评估每个个体的适应度的步骤;如果满足,则得到目标种群。
14.根据权利要求13所述的系统,所述遗传规划模块还用于将个体中的候选特征和候选算子作为基因进行基因交叉、基因变异和基因复制。
15.根据权利要求13所述的系统,所述遗传规划模块还用于通过评估以下至少一项来评估每个个体的适应度:
个体与样本标签的相关性;
个体的接收者操作特性曲线的曲线下面积;
个体应用于不同地区数据得到的结果的方差。
16.根据权利要求13所述的系统,所述终止条件包括以下至少一个:
达到设定进化轮次;
最新一轮进化所确定的适应度最优的至少一个个体的适应度达到设定阈值。
17.根据权利要求11所述的系统,所述候选算子包括以下至少一个:+、-、*、/、^、ln、least和greatest。
18.根据权利要求11所述的系统,所述初始种群与业务内容相关。
19.根据权利要求11所述的系统,所述特征组合对应符号回归方程。
20.根据权利要求11所述的系统,所述多个候选特征为与老用户拉动新用户有关的特征;
所述多个初始特征组合和所述目标特征组合为与老用户拉动新用户有关的特征组合;
所述将所述目标特征组合作为机器学习的一个特征参与机器学习的运算,包括:通过机器学习处理所述目标特征组合,预测老用户带来的新用户数量。
21.一种用于机器学习的特征处理装置,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1~10中任一项所述的特征处理方法。
CN201911065763.3A 2019-11-04 2019-11-04 一种用于机器学习的特征处理方法和系统 Pending CN110781978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911065763.3A CN110781978A (zh) 2019-11-04 2019-11-04 一种用于机器学习的特征处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911065763.3A CN110781978A (zh) 2019-11-04 2019-11-04 一种用于机器学习的特征处理方法和系统

Publications (1)

Publication Number Publication Date
CN110781978A true CN110781978A (zh) 2020-02-11

Family

ID=69388672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911065763.3A Pending CN110781978A (zh) 2019-11-04 2019-11-04 一种用于机器学习的特征处理方法和系统

Country Status (1)

Country Link
CN (1) CN110781978A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429980A (zh) * 2020-04-14 2020-07-17 北京迈高材云科技有限公司 一种材料晶体结构特征的自动化获取方法
CN111461344A (zh) * 2020-03-31 2020-07-28 上海携程国际旅行社有限公司 高阶特征的自动生成方法、系统、设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461344A (zh) * 2020-03-31 2020-07-28 上海携程国际旅行社有限公司 高阶特征的自动生成方法、系统、设备和介质
CN111461344B (zh) * 2020-03-31 2023-04-25 上海携程国际旅行社有限公司 高阶特征的自动生成方法、系统、设备和介质
CN111429980A (zh) * 2020-04-14 2020-07-17 北京迈高材云科技有限公司 一种材料晶体结构特征的自动化获取方法

Similar Documents

Publication Publication Date Title
US20210049512A1 (en) Explainers for machine learning classifiers
Clarke Land use change modeling with sleuth: Improving calibration with a genetic algorithm
Eklöf et al. Secondary extinctions in food webs: a Bayesian network approach
US20190228297A1 (en) Artificial Intelligence Modelling Engine
WO2020209860A1 (en) Leveraging lagging gradients in machine-learning model training
KR20210058171A (ko) 주식 예측 딥러닝 모델 생성 및 파라미터 최적화를 위한 Automated Deep Learning Studio
US20210117803A1 (en) Executing a genetic algorithm on a low-power controller
CN110781978A (zh) 一种用于机器学习的特征处理方法和系统
Song et al. Ada-boundary: accelerating DNN training via adaptive boundary batch selection
CN116738959A (zh) 一种基于人工智能的简历改写方法及系统
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
Bateman et al. The The Supervised Learning Workshop: A New, Interactive Approach to Understanding Supervised Learning Algorithms
Jadon et al. Hands-on one-shot learning with python: Learn to implement fast and accurate deep learning models with fewer training samples using pytorch
CN114298299A (zh) 基于课程学习的模型训练方法、装置、设备及存储介质
Saleh The The Deep Learning with PyTorch Workshop: Build deep neural networks and artificial intelligence applications with PyTorch
Ghorbel et al. Smart adaptive run parameterization (SArP): enhancement of user manual selection of running parameters in fluid dynamic simulations using bio-inspired and machine-learning techniques
US11755570B2 (en) Memory-based neural network for question answering
CN115879536A (zh) 一种基于因果效应的学习认知分析模型鲁棒性优化方法
van Knippenberg et al. Evolutionary construction of convolutional neural networks
Siddique et al. Learning classifier systems: cognitive inspired machine learning for eXplainable AI
JP2022104911A (ja) エンベッディング正規化方法およびこれを利用した電子装置
US20220164659A1 (en) Deep Learning Error Minimizing System for Real-Time Generation of Big Data Analysis Models for Mobile App Users and Controlling Method for the Same
Xiao Construction of a mathematical model based on a genetic algorithm for an aptitude program in high school student optimization
Nieto-Fuentes et al. GP-DMD: A genetic programming variant with dynamic management of diversity
CN111562943A (zh) 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination