CN108090570A - 用于选择机器学习样本的特征的方法及系统 - Google Patents
用于选择机器学习样本的特征的方法及系统 Download PDFInfo
- Publication number
- CN108090570A CN108090570A CN201711382743.XA CN201711382743A CN108090570A CN 108090570 A CN108090570 A CN 108090570A CN 201711382743 A CN201711382743 A CN 201711382743A CN 108090570 A CN108090570 A CN 108090570A
- Authority
- CN
- China
- Prior art keywords
- feature
- machine learning
- subset
- candidate feature
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000002131 composite material Substances 0.000 claims abstract description 85
- 238000012360 testing method Methods 0.000 claims abstract description 85
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 238000013480 data collection Methods 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013329 compounding Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
提供了一种用于选择机器学习样本的特征的方法及系统。所述方法包括:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性;(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。根据所述方法和系统,利用提升框架结构的复合机器学习模型,采用特定的重要性衡量方式来确定其中各个候选特征的重要性,从而可在运算资源有限的情况下较好地筛选出相对重要的样本特征。
Description
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种用于选择机器学习样本的特征的方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。通过对数据记录的属性信息进行诸如特征工程等处理,可产生包括各种特征的机器学习样本。
实践中,机器学习模型的预测效果与模型的选择、可用的数据和样本特征的提取均有关系。此外,应用机器学习技术时还需要面对计算资源有限、样本数据不足等客观问题。因此,如何从原始数据记录的各个属性有效地提取出机器学习样本的特征,将会对机器学习模型的效果带来很大的影响。例如,可根据基于XGBoost训练出的树模型,计算每个特征的期望分裂增益,然后计算特征重要性,并基于该重要性来筛选特征。上述方式虽然能考虑特征之间的相互作用,但训练代价高,且不同参数对特征重要性的影响较大。
实际上,在筛选特征的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。
发明内容
本发明的示例性实施例旨在克服现有技术中难以有效地筛选出机器学习样本特征的缺陷。
根据本发明的示例性实施例,提供一种用于选择机器学习样本的特征的方法,包括:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
可选地,在所述方法中,所述变换值包括以下项之中的至少一项:零值、随机数值、通过将原始测试数据集中的其重要性待确定的候选特征的原始取值扰乱顺序后得到的值。
可选地,在所述方法中,初始的基本特征子集包括通过以下处理从原始特征集筛选出的特征:(b1)将原始特征集划分为多个原始特征子集;(b2)针对每一个原始特征子集,获取相应的特征池机器学习模型,其中,所述特征池机器学习模型对应于所述每一个原始特征子集;(b3)根据特征池机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的原始特征子集之中的各个原始特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的原始特征的原始取值替换为变换值而获得的数据集;以及(b4)针对每一个原始特征子集,按照其各个原始特征的重要性从中筛选出重要性较高的至少一个原始特征以作为基本特征。
可选地,在所述方法中,所述变换值包括以下项之中的至少一项:零值、随机数值、通过将原始测试数据集中的其重要性待确定的原始特征的原始取值扰乱顺序后得到的值。
可选地,在所述方法中,初始的候选特征集包括从原始特征集去除基本特征之后剩余的特征。
可选地,所述方法还包括:(E)从候选特征集去除目标特征以更新候选特征集;并且,在步骤(E)之后,基于更新的候选特征集来再次从步骤(A)开始执行所述方法,直到完成所有目标特征的选择。
可选地,在所述方法中,在步骤(E)中,在从候选特征集去除目标特征的同时还加入新的候选特征以更新候选特征集。可选地,在所述方法中,步骤(E)还包括:将目标特征作为新的基本特征加入基本特征子集以更新基本特征子集,并且,基于更新的基本特征子集来再次从步骤(A)开始执行所述方法。
可选地,在所述方法中,基本子模型包括对应于基本特征子集整体的单个模型;或者,基本子模型包括分别对应于初始的基本特征子集和每次更新基本特征子集时所加入的目标特征的多个模型。
可选地,在所述方法中,所述新的候选特征为通过在候选特征和/或基本特征之间进行特征组合而新生成的组合特征。
可选地,在所述方法中,在步骤(B)中,通过并行地训练多个复合机器学习模型来获取与每一个候选特征子集相应的复合机器学习模型。
可选地,在所述方法中,在步骤(B)中,通过在固定已经训练出的基本子模型的情况下训练附加子模型来获取相应的复合机器学习模型。
可选地,在所述方法中,基本子模型和附加子模型的类型相同或不同。
根据本发明的另一示例性实施例,提供一种用于选择机器学习样本的特征的系统,包括:特征子集划分装置,用于将候选特征集划分为多个候选特征子集;复合机器学习模型获取装置,用于针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;候选特征重要性确定装置,用于根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及目标特征选择装置,用于针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
可选地,在所述系统中,所述变换值包括以下项之中的至少一项:零值、随机数值、通过将原始测试数据集中的其重要性待确定的候选特征的原始取值扰乱顺序后得到的值。
可选地,在所述系统中,特征子集划分装置通过以下处理从原始特征集筛选出初始的基本特征子集所包括的基本特征:将原始特征集划分为多个原始特征子集;针对每一个原始特征子集,获取相应的特征池机器学习模型,其中,所述特征池机器学习模型对应于所述每一个原始特征子集;根据特征池机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的原始特征子集之中的各个原始特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的原始特征的原始取值替换为变换值而获得的数据集;以及针对每一个原始特征子集,按照其各个原始特征的重要性从中筛选出重要性较高的至少一个原始特征以作为基本特征。
可选地,在所述系统中,所述变换值包括以下项之中的至少一项:零值、随机数值、通过将原始测试数据集中的其重要性待确定的原始特征的原始取值扰乱顺序后得到的值。
可选地,在所述系统中,初始的候选特征集包括从原始特征集去除基本特征之后剩余的特征。
可选地,在所述系统中,特征子集划分装置还从候选特征集去除目标特征以更新候选特征集,并将更新的候选特征集划分为多个候选特征子集,直到完成所有目标特征的选择。
可选地,在所述系统中,特征子集划分装置在从候选特征集去除目标特征的同时还加入新的候选特征以更新候选特征集。
可选地,在所述系统中,特征子集划分装置将目标特征作为新的基本特征加入基本特征子集以更新基本特征子集,并将更新的候选特征集划分为多个候选特征子集。
可选地,在所述系统中,基本子模型包括对应于基本特征子集整体的单个模型;或者,基本子模型包括分别对应于初始的基本特征子集和每次更新基本特征子集时所加入的目标特征的多个模型。
可选地,在所述系统中,所述新的候选特征为通过在候选特征和/或基本特征之间进行特征组合而新生成的组合特征。
可选地,在所述系统中,复合机器学习模型获取装置通过并行地训练多个复合机器学习模型来获取与每一个候选特征子集相应的复合机器学习模型。
可选地,在所述系统中,复合机器学习模型获取装置通过在固定已经训练出的基本子模型的情况下训练附加子模型来获取相应的复合机器学习模型。
可选地,在所述系统中,基本子模型和附加子模型的类型相同或不同。
根据本发明的另一示例性实施例,提供一种用于选择机器学习样本的特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行任一如上所述的用于选择机器学习样本的特征的计算机程序。
根据本发明的另一示例性实施例,提供一种用于选择机器学习样本的特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行任一如上所述的用于选择机器学习样本的特征的方法。
在根据本发明示例性实施例的用于选择机器学习样本的特征的方法及系统中,将候选特征集进行子集划分,针对划分出的每个候选特征子集,利用提升框架结构的复合机器学习模型,采用特定的重要性衡量方式来确定其中各个候选特征的重要性,从而可在运算资源有限的情况下较好地筛选出相对重要的样本特征。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1示出根据本发明示例性实施例的用于选择机器学习样本的特征的系统的框图;
图2示出根据本发明示例性实施例的用于选择机器学习样本的特征的方法的流程图;
图3示出根据本发明示例性实施例的训练复合机器学习模型的方法的流程图;
图4示出根据本发明示例性实施例的筛选基本特征子集的方法的流程图;以及
图5示出根据本发明另一示例性实施例的用于选择机器学习样本的特征的方法的流程图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
在本发明的示例性实施例中,通过以下方式来筛选机器学习样本特征:将所有候选特征划分为多个子集,针对每个候选特征子集,利用特定结构的复合机器学习模型在不同测试数据集上的表现差异来确定其中每个候选特征的重要性,并从中选择较为重要的特征来作为机器学习样本的目标特征。
这里,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外,还应注意,在训练和应用模型的过程中,还可结合统计算法等其他手段。
图1示出根据本发明示例性实施例的用于选择机器学习样本的特征的系统的框图。图1所示的特征选择系统包括候选特征子集划分装置100、复合机器学习模型获取装置200、候选特征重要性确定装置300和目标特征选择装置400。
具体说来,候选特征子集划分装置100用于将候选特征集划分为多个候选特征子集。这里,候选特征集可包括至少一个候选特征,该候选特征可以是针对数据记录的属性信息进行任何特征处理而得到的特征。相应地,候选特征子集划分装置100可按照任何适当的方式对候选特征集所包括的候选特征进行划分,以得到多个候选特征子集。作为示例,候选特征子集划分装置100可对全部候选特征进行随机划分,使得每个候选特征子集中包含相同数量的候选特征。或者,候选特征子集划分装置100可将在某些方面具有一致性和/或关联性的候选特征划分到相同的候选特征子集中,例如,划分后的候选特征子集中可仅包括取值类型相同的一组特征(即,离散特征或连续特征等);又例如,划分后的候选特征子集中可仅包括业务含义相似的一组特征(例如,关于用户自身的特征或关于交易性质的特征等)。应理解,本发明的示例性实施例并不限制候选特征子集的具体划分方式。
这里,候选特征子集划分装置100可从系统中的其他部件或从系统外部接收候选特征集,并对接收的候选特征集进行划分。
作为可选方式,候选特征子集划分装置100可额外负责基于数据记录的属性信息来生成候选特征。为此,作为示例,候选特征子集划分装置100可进一步获取数据记录,其中,所述数据记录包括多个属性信息。例如,候选特征子集划分装置100可获取已经标记过的历史数据记录,以用于进行有监督机器学习。
上述历史数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息,例如,身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者,这些数据也可涉及业务相关项目的属性信息,例如,关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意,本发明的示例性实施例中提到的属性信息内容可涉及任何对象或事务在某方面的表现或性质,而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。
候选特征子集划分装置100可获取不同来源的结构化或非结构化数据,例如,文本数据或数值数据等。获取的数据记录可用于形成机器学习样本,参与机器学习模型的训练/测试过程。这些数据可来源于期望获取模型预测结果的实体内部,例如,来源于期望获取预测结果的银行、企业、学校等;这些数据也可来源于上述实体以外,例如,来源于数据提供商、互联网(例如,社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地,上述内部数据和外部数据可组合使用,以形成携带更多信息的机器学习样本。
上述数据可通过输入装置输入到候选特征子集划分装置100,或者由候选特征子集划分装置100根据已有的数据来自动生成,或者可由候选特征子集划分装置100从网络上(例如,网络上的存储介质(例如,数据仓库))获得,此外,诸如服务器的中间数据交换装置可有助于候选特征子集划分装置100从外部数据源获取相应的数据。这里,获取的数据可被候选特征子集划分装置100中的文本分析模块等数据转换模块转换为容易处理的格式。
这里,候选特征子集划分装置100可首先基于历史数据记录的多个属性信息来生成候选特征,在此过程中,候选特征子集划分装置100可采用任何适当的特征处理方式来得到单个的一阶候选特征或更高阶(例如,二阶、三阶等)的组合候选特征,其中,“阶”表示参与组合的单个特征数目。
作为示例,由候选特征子集划分装置100产生的候选特征可以为连续特征,其中,候选特征子集划分装置100通过对所述多个属性信息之中的至少一个连续值属性信息和/或离散值属性信息进行处理而生成所述连续特征。
具体说来,基于历史数据记录的至少一部分属性信息,可产生相应的连续特征,这里,连续特征是与离散特征(例如,类别特征)相对的一种特征,其取值可以是具有一定连续性的数值,例如,距离、年龄、金额等。相对地,作为示例,离散特征的取值不具有连续性,例如,可以是“来自北京”、“来自上海”或“来自天津”、“性别为男”、“性别为女”等无序分类的特征。
举例说来,可将历史数据记录中的某种连续值属性信息直接作为对应的连续特征,例如,可将距离、年龄、金额等属性信息直接作为相应的连续特征。也就是说,连续特征可由所述多个属性信息之中的连续值属性信息自身形成。或者,也可通过对历史数据记录中的某些属性信息(例如,连续值属性和/或离散值属性信息)进行处理,以得到相应的连续特征,例如,将身高与体重的比值作为相应的连续特征。特别地,所述连续特征可通过对所述多个属性信息之中的离散值属性信息进行连续变换而形成。作为示例,所述连续变换可指示对所述离散值属性信息的取值进行统计。例如,连续特征可指示某些离散值属性信息关于机器学习模型的预测目标的统计信息。举例说来,在预测购买概率的示例中,可将卖家商户编号这一离散值属性信息变换为关于相应卖家商户编码的历史购买行为的概率统计特征。
如上所述的连续特征之间可通过诸如算术运算等方式进行组合,以作为根据本发明示例性实施例的组合候选特征。
作为另一示例,由候选特征子集划分装置100产生的候选特征可以为离散特征,其中,候选特征子集划分装置100通过对所述多个属性信息之中的至少一个连续值属性信息和/或离散值属性信息进行处理而生成所述离散特征。
具体说来,基于历史数据记录的至少一部分属性信息,可产生相应的离散特征,举例说来,可将历史数据记录中的某种离散值属性信息直接作为对应的离散特征,也就是说,离散特征可由所述多个属性信息之中的离散值属性信息自身形成。或者,也可通过对历史数据记录中的某些属性信息(例如,连续值属性和/或离散值属性信息)进行处理,以得到相应的离散特征。
这里,可通过对连续特征(例如,连续值属性信息本身或由离散值属性信息经过连续变换而形成的连续特征)进行离散化来得到相应的离散特征。优选地,在对连续特征进行离散化时,候选特征子集划分装置100可针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征,从而能够同时获得多个从不同的角度、尺度/层面来刻画原始数据记录的某些属性的离散特征。
在候选特征子集划分装置100划分出各个候选特征子集之后,进一步地,复合机器学习模型获取装置200可针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集。
根据本发明的示例性实施例,对于每一个候选特征子集,需获取对应的复合机器学习模型。这里,复合机器学习模型获取装置200可自身完成复合机器学习模型的训练,也可从外部获取已经训练好的复合机器学习模型。复合机器学习模型可包括根据提升框架(例如,梯度提升框架)训练而成的基本子模型和附加子模型,其中,基本子模型和附加子模型可以是类型相同的模型,例如,基本子模型和附加子模型可以都是线性模型(例如,对数几率回归模型),此外,基本子模型和附加子模型也可以具有不同的类型。这里,各个复合机器学习模型的提升框架可以是相同的,即,各个复合机器学习模型具有相同类型的基本子模型和相同类型的附加子模型,区别仅在于附加子模型所依据的候选特征子集不一样。
这里,基本特征子集可包括至少一个基本特征。根据本发明的示例性实施例,基本特征子集将固定地应用于所有复合机器学习模型中的基本子模型,这里,可将任何基于数据记录的属性信息产生的特征作为基本特征,例如,可按照如上所述生成候选特征的类似方式来生成基本特征。作为示例,基本特征也可由候选特征子集划分装置100(或系统内外的其他装置)来产生或以其他方式来获取。例如,可将数据记录的至少一部分属性信息直接作为基本特征。此外,作为示例,可考虑实际的机器学习问题,基于测试计算或根据业务人员指定来确定相对重要或基本的特征作为基本特征。
候选特征重要性确定装置300用于根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集。
这里,候选特征重要性确定装置300可利用每一个候选特征子集所对应的复合机器学习模型来确定相应子集中的各个候选特征的重要性。作为示例,复合机器学习模型的效果可包括复合机器学习模型的AUC(ROC(受试者工作特征,Receiver OperatingCharacteristic)曲线下的面积,Area Under ROC Curve)或对率损失(logistic loss)等。
作为示例,假设某个候选特征子集包括全部候选特征{f1,f2,…,fn}之中的三个特征{f1,f3,f5},相应地,复合机器学习模型在原始测试数据集上的AUC可反映基本特征子集连同特征集合{f1,f3,f5}的预测能力。这里,为了确定候选特征f5的重要性,可通过对原始测试数据集所包括的各个测试样本中的特征f5的原始取值进行处理来得到变换测试数据集,并进而获得复合机器学习模型在变换测试数据集上的AUC。在此基础上,上述两个AUC之间的差值可用于反映候选特征f5的重要性。作为示例,在变换处理中,所述变换值可包括以下项之中的至少一项:零值、随机数值、通过将原始测试数据集中的其重要性待确定的候选特征的原始取值扰乱顺序后得到的值。也就是说,可将各原始测试样本中的特征f5的原始取值替换为零值、随机数值、或通过将特征f5的原始取值扰乱顺序后得到的值。这里,在确定候选特征子集之中的各个候选特征的重要性时,优选地,可利用相同的原始测试数据集及其相应的各个变换测试数据集。
目标特征选择装置400针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。这里,目标特征选择装置400可从每一个候选特征子集中分别选择重要性较高的候选特征,以作为目标特征。例如,目标特征选择装置400可根据预先设置的规则来自动进行目标特征选择(例如,每一候选特征子集中选择重要性最高的预定数量的候选特征);或者,目标特征选择装置400可根据用户的指示从候选特征子集之中选择目标特征,为此,可向用户展示候选特征子集中各个候选特征的重要性比对情况,相应地,目标特征选择装置400可接收用户从中选择目标特征的指示,并根据用户的指示来选择目标特征。
通过上述方式,可从候选特征之中有效地筛选出一部分相对重要的目标特征。这些目标特征可单独或结合其他特征(例如基本特征)来构成最终的机器学习样本。
以下参照图2来描述根据本发明示例性实施例的用于选择机器学习样本的特征的方法的流程图。这里,作为示例,图2所示的方法可由图1所示的特征选择系统来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图2所示的方法。为了描述方便,假设图2所示的方法由图1所示的特征选择系统来执行。
参照图2,在步骤S100中,由候选特征子集划分装置100将候选特征集划分为多个候选特征子集。
如上所述,候选特征子集划分装置100可按照任何适当的方式对候选特征集进行划分。这里,候选特征子集划分装置100可接收由其他方提供的候选特征集并对接收的候选特征集进行划分;或者,候选特征子集划分装置100可自行产生候选特征集,在这种情况下,作为示例,候选特征子集划分装置100可额外负责针对数据记录进行特征等处理以得到相应的原始特征集,该原始特征集可包括候选特征集和基本特征子集。
接下来,在步骤S200中,由复合机器学习模型获取装置200针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集。
如上所述,复合机器学习模型获取装置200可自身完成复合机器学习模型的训练,也可从外部获取已经训练好的复合机器学习模型。
作为示例,以下结合图3来描述根据本发明示例性实施例的训练复合机器学习模型的方法的流程图,该方法可由图1所述的特征选择系统来执行,也可借助其他系统或装置来执行。
参照图3,在步骤S110中,可获取历史数据记录,这里,可由图1所示的候选特征子集划分装置100来获取历史数据记录,也可由图1的系统中未示出的其他装置或所述系统外部的其他装置来获取历史数据记录。作为示例,所述历史数据记录可包括关于机器学习问题的标记和用于生成机器学习样本的各个特征的至少一个属性信息。
这里,历史数据记录是关于期望预测的机器学习问题的真实记录,其可包括属性信息和标记两部分,这样的历史数据记录可用于形成机器学习样本,作为机器学习的素材,而本发明的示例性实施例旨在筛选出基于属性信息产生的相对较为重要的机器学习样本特征。
具体说来,作为示例,可通过手动、半自动或全自动的方式来采集历史数据,或对采集的原始历史数据进行处理,使得处理后的历史数据记录具有适当的格式或形式。作为示例,可批量地采集历史数据。
这里,可通过输入装置(例如,工作站)接收用户手动输入的历史数据记录。此外,可通过全自动的方式从数据源系统地取出历史数据记录,例如,通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的历史数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式,其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下,可在没有人工干预的情况下自动进行数据采集,但应注意,在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了例如定时器机制。在这种情况下,在接收到特定的用户输入的情况下,才产生提取数据的请求。每次获取数据时,优选地,可将捕获的历史数据存储在非易失性存储器中。作为示例,可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。
上述获取的历史数据记录可来源于相同或不同的数据源,也就是说,每条历史数据记录也可以是不同历史数据记录的拼接结果。例如,除了获取客户向银行申请开通信用卡时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)之外,作为示例,可还获取该客户在该银行的其他数据记录,例如,贷款记录、日常交易数据等,这些获取的数据记录可连同关于该客户是否为欺诈客户的标记拼接为完整的历史数据记录。此外,还可获取来源于其他私有源或公共源的数据,例如,来源于数据提供商的数据、来源于互联网(例如,社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。
可选地,可借助硬件集群(诸如Hadoop集群、Spark集群等)对采集到的数据进行存储和/或处理,例如,存储、分类和其他离线操作。此外,也可对采集的数据进行在线的流处理。
作为示例,可借助文本分析模块等数据转换模块将获取的文本等非结构化数据转换为更易于使用的结构化数据以在后续进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、交易报告等。
接下来,在步骤S120中,可基于历史数据记录的属性信息来生成各个复合机器学习模型的训练样本。这里,如上所述,每个复合机器学习模型的样本特征可对应于两部分:固定的基本特征子集部分和与所述每个复合机器学习模型相应的候选特征子集部分,其中,候选特征子集是从全部候选特征组成的候选特征集划分而来。
作为示例,可首先基于历史数据记录的属性信息来生成包括基本特征子集和候选特征集两者的原始特征集。例如,可通过对历史数据记录的属性信息进行筛选、分组或进一步附加处理等而得到相应的原始特征。根据本发明的示例性实施例,可按照任何适当的特征处理方式来生成原始特征,例如,可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素,或者,可结合复合机器学习模型中的子模型特点等。
这里,原始特征集可包括最初基于数据记录的属性信息而生成的全部特征,相应地,可从原始特征集之中筛选出基本特征子集,余下的原始特征可构成候选特征集。也就是说,初始的候选特征集包括从原始特征集去除基本特征之后剩余的特征。
以下结合图4来描述根据本发明示例性实施例的筛选基本特征子集的方法的流程图。
参照图4,在步骤S121中,可将原始特征集划分为多个原始特征子集。这里,原始特征子集可包括至少一个原始特征,该原始特征可以是针对数据记录的属性信息进行任何特征处理而得到的特征。相应地,可按照任何适当的方式对原始特征集所包括的原始特征进行划分,以得到多个原始特征子集。作为示例,可对全部原始特征进行随机划分,使得每个原始特征子集中包含相同数量的原始特征。或者,可将在某些方面具有一致性和/或关联性的原始特征划分到相同的原始特征子集中。应理解,本发明的示例性实施例并不限制原始特征子集的具体划分方式。
接下来,在步骤S122中,针对每一个原始特征子集,获取相应的特征池机器学习模型,其中,所述特征池机器学习模型对应于所述每一个原始特征子集。这里,所述特征池机器学习模型的样本特征部分可包括所述每一个原始特征子集所包括的原始特征。相应地,作为示例,可构建特征池机器学习模型的训练样本,并基于这些训练样本来训练特征池机器学习模型。应注意,本发明的示例性实施例并不限制特征池机器学习模型的算法,其可以与基本子模型或附加子模型基于相同或不同类型的机器学习模型算法。
在获取了分别与各个原始特征子集相应的特征池机器学习模型之后,在步骤S123中,根据特征池机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的原始特征子集之中的各个原始特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的原始特征的原始取值替换为变换值而获得的数据集。
这里,可利用每一个原始特征子集所对应的特征池机器学习模型来确定相应原始特征子集中的各个原始特征的重要性。作为示例,特征池机器学习模型的效果可包括特征池机器学习模型的AUC或对率损失等。
作为示例,假设某个原始特征子集包括全部原始特征{b1,b2,…,bn}之中的三个原始特征{b1,b2,b3},相应地,特征池机器学习模型在原始测试数据集上的AUC可反映特征集合{b1,b2,b3}的预测能力。这里,为了确定候选特征b3的重要性,可通过对原始测试数据集所包括的各个测试样本中的特征b3的原始取值进行处理来得到变换测试数据集,并进而获得特征池机器学习模型在变换测试数据集上的AUC。在此基础上,上述两个AUC之间的差值可用于反映原始特征b3的重要性。作为示例,在变换处理中,所述变换值包括以下项之中的至少一项:零值、随机数值、通过将原始测试数据集中的其重要性待确定的原始特征的原始取值扰乱顺序后得到的值。也就是说,可将各原始测试样本中的特征b3的原始取值替换为零值、随机数值、或通过将特征b3的原始取值扰乱顺序后得到的值。这里,在确定原始特征子集之中的各个原始特征的重要性时,优选地,可利用相同的原始测试数据集及其相应的各个变换测试数据集。
然后,在步骤S124中,针对每一个原始特征子集,按照其各个原始特征的重要性从中筛选出重要性较高的至少一个原始特征以作为基本特征。
这里,可从每一个原始特征子集中分别选择重要性较高的原始特征,以作为基本特征,并且,各个原始特征子集中筛选出的基本特征的集合则构成基本特征子集。例如,可根据预先设置的规则来自动进行基本特征选择(例如,每一基本特征子集中选择重要性最高的预定数量的原始特征);或者,可根据用户的指示从原始特征子集之中选择基本特征。
通过上述方式,可从原始特征集中得到与基本子模型对应的基本特征子集,该基本特征子集可等同地应用于所有复合机器机器学习模型的提升框架下的基本子模型。此外,在确定了基本特征子集之后,可将原始特征集之中剩余特征的集合作为候选特征集,并按照根据本发明示例性实施例的划分方式将候选特征集划分为各个候选特征子集。
在确定了基本特征子集和每个候选特征子集之后,可相应地基于历史数据记录来分别生成各个复合机器学习模型的训练样本。
参照回图3,在步骤S230中,可利用生成的训练样本来训练复合机器学习模型。根据本发明的示例性实施例,在每个复合机器学习模型中,基本子模型与附加子模型之间基于提升框架训练而成。
具体说来,可根据提升框架(例如,梯度提升框架)来训练复合机器学习模型所包括的基本子模型和附加子模型,这两个子模型可具有相同或不同的模型类型。这里,针对每一个复合机器学习模型,可基于载入的模型训练配置来分阶段地训练出基本子模型和附加子模型,具体说来,在第一阶段训练基本子模型时,可根据配置的参数来执行初始化处理,并利用由基本特征子集与标记部分组成的训练样本来训练基本子模型。在此基础上,提升框架下的复合机器学习模型可表示为基本子模型和附加子模型的拼接结果,该结果可对应于一个相对较强的模型。相应地,在训练出基本子模型之后,可利用由基本特征子集、相应候选特征子集连同标记部分组成的训练样本来训练附加子模型。
假设单个复合机器学习模型表示为F,这里,F可由基本子模型fbase和相应的附加子模型fadd组成,假设输入的训练数据记录表示为x,在按照确定的基本特征子集和目标特征子集经过相应的特征处理之后,基本子模型fbase对应的样本部分的特征为xb,附加子模型fadd对应的样本部分的特征为xa。相应地,可按照以下的等式来构建复合机器学习模型F:
F(x)=fbase(xb)+fadd(xa)。
然而,应注意,基本子模型和附加子模型除了可基于相同的训练数据记录集训练而成之外,还可基于不同的训练数据记录集训练而成。例如,上述两种子模型均可基于全体训练数据记录训练而成,或者,也可分别基于从全体训练数据记录中采样的一部分训练数据记录训练而成。作为示例,可根据预设的采样策略为基本子模型和附加子模型分配相应的训练数据记录,例如,可将较多的训练数据记录分配给基本子模型,而将较少的训练数据记录分配给附加子模型,这里,不同子模型分配的训练数据记录之间可具有一定比例的交集或者完全没有交集。通过根据采样策略来确定各个子模型所使用的训练数据记录,可进一步提升整个机器学习模型的效果。
根据本发明的示例性实施例,可通过并行地训练多个复合机器学习模型来获取与每一个候选特征子集相应的复合机器学习模型。作为示例,在训练附加子模型时,基本子模型的系数可固定不变。也就是说,通过在固定已经训练出的基本子模型的情况下训练附加子模型来获取相应的复合机器学习模型。在这种情况下,可大大降低并行训练时的运算量,降低了内存需求。
以上列出了复合机器学习模型的示例性训练方式,然而,应理解,本发明的示例性实施例并不受限于上述示例。
参照回图2,在得到分别与每个候选特征子集相应的复合机器学习模型之后,在步骤S300中,由候选特征重要性确定装置300根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集。
这里,针对每个复合机器学习模型,其候选特征子集可包括至少一个候选特征,相应地,可获得所述复合机器学习模型在原始测试数据集上的预测效果。此外,可通过依次变换原始测试数据集上的各个候选特征的取值来获取所述复合机器学习模型在变换测试数据集上的预测效果。上述两种预测效果之间的差异即可用来衡量各个候选特征的重要性。
作为示例,假设某个复合机器学习模型对应的候选特征子集包括候选特征{f1,f2,…,fn},该复合机器学习模型在原始测试数据集上的预测效果可表示为AUCall,在这一示例中,为了确定{f1,f2,…,fn}之中的任一候选特征fi的重要性(其中,1≤i≤n),可相应地对原始测试数据集进行处理以得到针对目标特征fi的变换测试数据集,例如,将原始测试数据集的各个测试样本中的特征fi的原始取值替换为其他值,例如,零值、随机数值、或者将特征fi的取值在各个测试样本之间打乱顺序之后获得的值。相应地,可获取上述复合机器学习模型在变换测试数据集上的测试效果AUCi。
在分别获取了复合机器学习模型在原始测试数据集和变换测试数据集上的效果之后,可将两个效果之间的差异(即,AUCall-AUCi)作为衡量候选特征fi的重要性的参考。
接下来,在步骤S400中,由目标特征选择装置400针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
这里,目标特征选择装置400可自动或根据用户指示来针对每一个候选特征子集,从中筛选出相对重要的目标特征。作为示例,可通过图形化的形式向用户展示特征重要性的确定结果。例如,可将各个候选特征子集的重要性展示为图形或表格,以便用户从中选择目标特征。为此,图1所示的系统还可包括输入装置(未示出),用于感测用户为了选择目标特征等而进行的输入操作。
可以看出,根据本发明的示例性实施例,可针对每个候选特征子集,利用基于提升框架的复合机器学习模型,在存在固定的基本特征子集的情况下,有效地筛选出相对重要的候选特征。
作为示例,可将上述筛选目标特征的过程应用于多个轮次不断顺序地筛选目标特征的情况,例如,迭代地生成组合特征并从中筛选重要组合特征的情况。
图5示出根据本发明另一示例性实施例的用于选择机器学习样本的特征的方法的流程图。该方法可由图1所示的特征选择系统来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图5所示的方法。
参照图5,在步骤S100中,可将当前的候选特征集划分为多个候选特征子集。这里,当前的候选特征集可以是针对每轮特征筛选后的更新结果。
接下来,在步骤S200中,可针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集。
然后,在步骤S300中,可根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集。
在步骤S400中,可针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
在步骤S500中,可确定是否需要继续筛选目标特征。在需要继续筛选目标特征的情况下,可执行步骤S550,其中,可从候选特征集去除目标特征以更新候选特征集,从而随后基于更新的候选特征集来再次执行特征筛选,直到完成所有目标特征的选择。
作为另一示例,在从候选特征集去除目标特征的同时还可进一步加入新的候选特征以更新候选特征集。例如,所述新的候选特征可以为通过在候选特征和/或基本特征之间进行特征组合而新生成的组合特征。这里,可根据关于组合特征的搜索策略,按照迭代的方式来在每一轮次生成机器学习样本的组合特征以作为新的候选特征。
在步骤650中,可将目标特征作为新的基本特征加入基本特征子集以更新基本特征子集,相应地,后续可基于更新的候选特征集和更新的基本特征子集来再次开始执行筛选方法。
这里,应注意,步骤S550和步骤S650可择一执行,在仅执行步骤S650的情况下,在更新了基本特征子集之后,后续可基于更新的基本特征子集来再次执行所述筛选方法。
在步骤S650之后,作为示例,可再次返回步骤S100以划分更新后的候选特征子集。例如,在目标特征被从原候选特征集中去除之后,可相应地在各个候选特征子集中也删除目标特征;或者,可采用完全不同的方式对更新后的候选特征集重新进行划分以得到更新的候选特征子集。
在步骤S200中,可对应于更新的候选特征子集和/或更新的基本特征子集,来获取新的复合机器学习模型。这里,作为示例,基本子模型可包括对应于基本特征子集整体的单个模型,在这种情况下,新加入的基本特征与原来的基本特征一起共同作为单个基本子模型的特征部分。或者,基本子模型包括分别对应于初始的基本特征子集和每次更新基本特征子集时所加入的目标特征的多个模型,在这种情况下,每一轮次产生的基本特征将对应单独的基本子模型。
接下来,可继续执行步骤S300和步骤S400,以筛选出当前轮次的目标特征。以此类推,直到选择出所有的目标特征,则在步骤S500中确定为不再需要继续进行筛选处理,所述方法结束,所得到的所有目标特征可在后续进行进一步的利用或处理。
图1所示出的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置或单元可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
以上参照图1到图5描述了根据本发明示例性实施例的用于选择机器学习样本的特征的方法和系统。应理解,上述方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种用于选择机器学习样本的特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1到图5进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的特征选择系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图1所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行特征选择方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的特征选择方法中的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的特征选择方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的用于选择机器学习样本的特征的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)将候选特征集划分为多个候选特征子集;(B)针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种用于选择机器学习样本的特征的方法,包括:
(A)将候选特征集划分为多个候选特征子集;
(B)针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;
(C)根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及
(D)针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
2.如权利要求1所述的方法,还包括:
(E)从候选特征集去除目标特征以更新候选特征集;
并且,在步骤(E)之后,基于更新的候选特征集来再次从步骤(A)开始执行所述方法,直到完成所有目标特征的选择。
3.如权利要求2所述的方法,其中,在步骤(E)中,在从候选特征集去除目标特征的同时还加入新的候选特征以更新候选特征集。
4.如权利要求1所述的方法,其中,步骤(E)还包括:将目标特征作为新的基本特征加入基本特征子集以更新基本特征子集,
并且,基于更新的基本特征子集来再次从步骤(A)开始执行所述方法。
5.如权利要求4所述的方法,其中,基本子模型包括对应于基本特征子集整体的单个模型;或者,基本子模型包括分别对应于初始的基本特征子集和每次更新基本特征子集时所加入的目标特征的多个模型。
6.如权利要求3所述的方法,其中,所述新的候选特征为通过在候选特征和/或基本特征之间进行特征组合而新生成的组合特征。
7.如权利要求1所述的方法,其中,在步骤(B)中,通过并行地训练多个复合机器学习模型来获取与每一个候选特征子集相应的复合机器学习模型。
8.一种用于选择机器学习样本的特征的系统,包括:
特征子集划分装置,用于将候选特征集划分为多个候选特征子集;
复合机器学习模型获取装置,用于针对每一个候选特征子集,获取相应的复合机器学习模型,其中,所述复合机器学习模型包括根据提升框架训练而成的基本子模型和附加子模型,其中,基本子模型对应于基本特征子集,附加子模型对应于所述每一个候选特征子集;
候选特征重要性确定装置,用于根据复合机器学习模型在原始测试数据集和变换测试数据集上的效果之间的差异来确定相应的候选特征子集之中的各个候选特征的重要性,其中,变换测试数据集是指通过对原始测试数据集中的其重要性待确定的候选特征的原始取值替换为变换值而获得的数据集;以及
目标特征选择装置,用于针对每一个候选特征子集,按照其各个候选特征的重要性从中筛选出重要性较高的至少一个候选特征以作为机器学习样本的目标特征。
9.一种用于选择机器学习样本的特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如权利要求1至7任一所述的用于选择机器学习样本的特征的方法的计算机程序。
10.一种用于选择机器学习样本的特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如权利要求1至7任一所述的用于选择机器学习样本的特征的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711382743.XA CN108090570A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
CN202310777360.1A CN116757297A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711382743.XA CN108090570A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310777360.1A Division CN116757297A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108090570A true CN108090570A (zh) | 2018-05-29 |
Family
ID=62177410
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310777360.1A Pending CN116757297A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
CN201711382743.XA Pending CN108090570A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310777360.1A Pending CN116757297A (zh) | 2017-12-20 | 2017-12-20 | 用于选择机器学习样本的特征的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116757297A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492771A (zh) * | 2018-11-12 | 2019-03-19 | 北京百度网讯科技有限公司 | 交互方法、装置和系统 |
CN111110224A (zh) * | 2020-01-17 | 2020-05-08 | 武汉中旗生物医疗电子有限公司 | 一种基于多角度特征提取的心电图分类方法及装置 |
CN111274480A (zh) * | 2020-01-17 | 2020-06-12 | 腾讯科技(北京)有限公司 | 用于内容推荐的特征组合方法及装置 |
CN111435463A (zh) * | 2019-01-11 | 2020-07-21 | 华为技术有限公司 | 数据处理方法及相关设备、系统 |
CN112348043A (zh) * | 2019-08-09 | 2021-02-09 | 杭州海康机器人技术有限公司 | 机器学习中的特征筛选方法和装置 |
CN112580817A (zh) * | 2019-09-30 | 2021-03-30 | 脸谱公司 | 管理机器学习特征 |
US11062792B2 (en) | 2017-07-18 | 2021-07-13 | Analytics For Life Inc. | Discovering genomes to use in machine learning techniques |
CN113191824A (zh) * | 2021-05-24 | 2021-07-30 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
US11139048B2 (en) | 2017-07-18 | 2021-10-05 | Analytics For Life Inc. | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions |
CN113743615A (zh) * | 2020-05-28 | 2021-12-03 | 微软技术许可有限责任公司 | 简化机器学习的特征移除框架 |
CN114268625A (zh) * | 2020-09-14 | 2022-04-01 | 腾讯科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
-
2017
- 2017-12-20 CN CN202310777360.1A patent/CN116757297A/zh active Pending
- 2017-12-20 CN CN201711382743.XA patent/CN108090570A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11139048B2 (en) | 2017-07-18 | 2021-10-05 | Analytics For Life Inc. | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions |
US11062792B2 (en) | 2017-07-18 | 2021-07-13 | Analytics For Life Inc. | Discovering genomes to use in machine learning techniques |
CN109492771A (zh) * | 2018-11-12 | 2019-03-19 | 北京百度网讯科技有限公司 | 交互方法、装置和系统 |
CN111435463A (zh) * | 2019-01-11 | 2020-07-21 | 华为技术有限公司 | 数据处理方法及相关设备、系统 |
CN112348043A (zh) * | 2019-08-09 | 2021-02-09 | 杭州海康机器人技术有限公司 | 机器学习中的特征筛选方法和装置 |
CN112348043B (zh) * | 2019-08-09 | 2024-04-02 | 杭州海康机器人股份有限公司 | 机器学习中的特征筛选方法和装置 |
CN112580817A (zh) * | 2019-09-30 | 2021-03-30 | 脸谱公司 | 管理机器学习特征 |
CN111274480A (zh) * | 2020-01-17 | 2020-06-12 | 腾讯科技(北京)有限公司 | 用于内容推荐的特征组合方法及装置 |
CN111110224A (zh) * | 2020-01-17 | 2020-05-08 | 武汉中旗生物医疗电子有限公司 | 一种基于多角度特征提取的心电图分类方法及装置 |
CN113743615A (zh) * | 2020-05-28 | 2021-12-03 | 微软技术许可有限责任公司 | 简化机器学习的特征移除框架 |
CN114268625A (zh) * | 2020-09-14 | 2022-04-01 | 腾讯科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
CN114268625B (zh) * | 2020-09-14 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
CN113191824A (zh) * | 2021-05-24 | 2021-07-30 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116757297A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090570A (zh) | 用于选择机器学习样本的特征的方法及系统 | |
CN108108820A (zh) | 用于选择机器学习样本的特征的方法及系统 | |
CN106779088B (zh) | 执行机器学习流程的方法及系统 | |
CN103502899B (zh) | 动态预测建模平台 | |
US20140358828A1 (en) | Machine learning generated action plan | |
CN110188910A (zh) | 利用机器学习模型提供在线预测服务的方法及系统 | |
CN107679549A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN107844837A (zh) | 针对机器学习算法进行算法参数调优的方法及系统 | |
CN107169573A (zh) | 利用复合机器学习模型来执行预测的方法及系统 | |
WO2021135562A1 (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
US10083263B2 (en) | Automatic modeling farmer | |
US11663839B1 (en) | Polarity semantics engine analytics platform | |
US20200159690A1 (en) | Applying scoring systems using an auto-machine learning classification approach | |
CN107316082A (zh) | 用于确定机器学习样本的特征重要性的方法及系统 | |
US11816711B2 (en) | System and method for predicting personalized payment screen architecture | |
Korableva et al. | Designing a Decision Support System for Predicting Innovation Activity. | |
CN107169574A (zh) | 利用嵌套机器学习模型来执行预测的方法及系统 | |
CN109242040A (zh) | 自动生成组合特征的方法及系统 | |
CN107273979A (zh) | 基于服务级别来执行机器学习预测的方法及系统 | |
US11461343B1 (en) | Prescriptive analytics platform and polarity analysis engine | |
CN112070310A (zh) | 基于人工智能的流失用户预测方法、装置及电子设备 | |
CN115345530A (zh) | 商场地址推荐方法、装置、设备及计算机可读存储介质 | |
US20230359609A1 (en) | Data consistency analyzer | |
CN110245985A (zh) | 一种信息处理方法及装置 | |
CN116994764A (zh) | 一种健康行为模型构建方法、装置及电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180529 |
|
RJ01 | Rejection of invention patent application after publication |