CN114298323A - 生成机器学习样本的组合特征的方法及系统 - Google Patents

生成机器学习样本的组合特征的方法及系统 Download PDF

Info

Publication number
CN114298323A
CN114298323A CN202111615354.3A CN202111615354A CN114298323A CN 114298323 A CN114298323 A CN 114298323A CN 202111615354 A CN202111615354 A CN 202111615354A CN 114298323 A CN114298323 A CN 114298323A
Authority
CN
China
Prior art keywords
feature
candidate
binning
machine learning
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111615354.3A
Other languages
English (en)
Inventor
戴文渊
杨强
陈雨强
罗远飞
涂威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202111615354.3A priority Critical patent/CN114298323A/zh
Publication of CN114298323A publication Critical patent/CN114298323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

提供了一种生成机器学习样本的组合特征的方法及系统,所述方法包括:获取历史数据记录,其中,所述历史数据记录包括多个属性信息;按照搜索策略,在至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果选择重要性较高的至少一个候选组合特征作为目标组合特征。根据所述方法和系统,可在使用较少运算资源的情况下有效地实现自动特征组合,提升模型的效果。

Description

生成机器学习样本的组合特征的方法及系统
本申请是申请日为2017年9月8日、申请号为201710803886.7、题为“生成机器学习样本的组合特征的方法及系统”的专利申请的分案申请。
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种生成机器学习样本的组合特征的方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。
如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。
然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将不同特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,从运算效率方面考虑,也难以有效地筛选出特定的组合方式。综上所述,现有技术中难以将特征进行自动组合。
发明内容
本发明的示例性实施例旨在克服现有技术中难以对机器学习样本的特征进行自动组合的缺陷。
根据本发明的示例性实施例,提供一种生成机器学习样本的组合特征的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
可选地,在所述方法中,基于第一数量的历史数据记录进行预排序,基于第二数量的历史数据记录进行再排序,并且,第二数量不少于第一数量。
可选地,在所述方法中,根据预排序结果从候选组合特征集合中筛选出重要性较高的候选组合特征以组成候选组合特征池。
可选地,在所述方法中,候选组合特征集合包括在当前轮迭代中生成的候选组合特征;或者,候选组合特征集合包括在当前轮迭代中生成的候选组合特征以及在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征。
可选地,在所述方法中,通过将当前轮迭代中选择的目标组合特征与所述至少一个离散特征进行组合来生成下一轮迭代的候选组合特征;或者,通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。
可选地,在所述方法中,所述至少一个离散特征包括通过以下处理从基于所述多个属性信息产生的连续特征转换而来的离散特征:针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征。
可选地,在所述方法中,所述至少一种分箱运算是针对每一轮迭代或针对所有轮迭代从预定数量的分箱运算中选择的,其中,与选择的分箱运算对应的分箱特征的重要性不低于与未被选择的分箱运算对应的分箱特征的重要性。
可选地,在所述方法中,通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱单特征机器学习模型,基于各个分箱单特征机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱单特征机器学习模型对应所述每一个分箱特征。
可选地,在所述方法中,通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱整体机器学习模型,基于各个分箱整体机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱整体机器学习模型对应分箱基本特征子集和所述每一个分箱特征。
可选地,在所述方法中,通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱复合机器学习模型,基于各个分箱复合机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱复合机器学习模型包括基于提升框架的分箱基本子模型和分箱附加子模型,其中,分箱基本子模型对应分箱基本特征子集,分箱附加子模型对应所述每一个分箱特征。
可选地,在所述方法中,分箱基本特征子集包括在当前轮迭代之前选择的目标组合特征。
可选地,在所述方法中,通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序单特征机器学习模型,基于各个预排序单特征机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序单特征机器学习模型对应所述每一个候选组合特征。
可选地,在所述方法中,通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序整体机器学习模型,基于各个预排序整体机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序整体机器学习模型对应预排序基本特征子集和所述每一个候选组合特征。
可选地,在所述方法中,通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序复合机器学习模型,基于各个预排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序复合机器学习模型包括基于提升框架的预排序基本子模型和预排序附加子模型,其中,预排序基本子模型对应预排序基本特征子集,预排序附加子模型对应所述每一个候选组合特征。
可选地,在所述方法中,预排序基本特征子集包括在当前轮迭代之前选择的目标组合特征。
可选地,在所述方法中,通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序单特征机器学习模型,基于各个再排序单特征机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序单特征机器学习模型对应所述每一个候选组合特征。
可选地,在所述方法中,通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序整体机器学习模型,基于各个再排序整体机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型对应再排序基本特征子集和所述每一个候选组合特征。
可选地,在所述方法中,通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序复合机器学习模型,基于各个再排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型包括基于提升框架的再排序基本子模型和再排序附加子模型,其中,再排序基本子模型对应再排序基本特征子集,再排序附加子模型对应所述每一个候选组合特征。
可选地,在所述方法中,再排序基本特征子集包括在当前轮迭代之前选择的目标组合特征。
可选地,在所述方法中,步骤(B)还包括:针对每一轮迭代,检验选择的目标组合特征是否适于作为机器学习样本的组合特征。
可选地,在所述方法中,在步骤(B)中,利用基于已经通过检验的目标组合特征的机器学习模型在引入所述选择的目标组合特征之后的效果变化来检验所述选择的目标组合特征是否适于作为机器学习样本的组合特征。
可选地,在所述方法中,在检验结果为所述选择的目标组合特征适于作为机器学习样本的组合特征的情况下,将所述选择的目标组合特征作为机器学习样本的组合特征,并执行下一轮迭代;在检验结果为所述选择的目标组合特征不适于作为机器学习样本的组合特征的情况下,根据预排序结果从候选组合特征集合中筛选出另外的一部分候选组合特征以组成新的候选组合特征池。
根据本发明的另一示例性实施例,提供一种用于生成机器学习样本的组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如上所述的方法的计算机程序。
根据本发明的另一示例性实施例,提供一种用于生成机器学习样本的组合特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如上所述的方法。
根据本发明的另一示例性实施,提供一种生成机器学习样本的组合特征的系统,包括:数据记录获取装置,用于获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及特征组合装置,用于按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,特征组合装置对候选组合特征集合中的各个候选组合特征进行重要性的预排序,根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池,对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
可选地,在所述系统中,特征组合装置基于第一数量的历史数据记录进行预排序,并基于第二数量的历史数据记录进行再排序,并且,第二数量不少于第一数量。
可选地,在所述系统中,特征组合装置根据预排序结果从候选组合特征集合中筛选出重要性较高的候选组合特征以组成候选组合特征池。
可选地,在所述系统中,候选组合特征集合包括在当前轮迭代中生成的候选组合特征;或者,候选组合特征集合包括在当前轮迭代中生成的候选组合特征以及在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征。
可选地,在所述系统中,特征组合装置通过将当前轮迭代中选择的目标组合特征与所述至少一个离散特征进行组合来生成下一轮迭代的候选组合特征;或者,特征组合装置通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。
可选地,在所述系统中,所述至少一个离散特征包括通过以下处理从基于所述多个属性信息产生的连续特征转换而来的离散特征:针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征。
可选地,在所述系统中,所述至少一种分箱运算是针对每一轮迭代或针对所有轮迭代从预定数量的分箱运算中选择的,其中,与选择的分箱运算对应的分箱特征的重要性不低于与未被选择的分箱运算对应的分箱特征的重要性。
可选地,在所述系统中,特征组合装置通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱单特征机器学习模型,基于各个分箱单特征机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱单特征机器学习模型对应所述每一个分箱特征。
可选地,在所述系统中,特征组合装置通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱整体机器学习模型,基于各个分箱整体机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱整体机器学习模型对应分箱基本特征子集和所述每一个分箱特征。
可选地,在所述系统中,特征组合装置通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱复合机器学习模型,基于各个分箱复合机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱复合机器学习模型包括基于提升框架的分箱基本子模型和分箱附加子模型,其中,分箱基本子模型对应分箱基本特征子集,分箱附加子模型对应所述每一个分箱特征。
可选地,在所述系统中,分箱基本特征子集包括在当前轮迭代之前选择的目标组合特征。
可选地,在所述系统中,特征组合装置通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序单特征机器学习模型,基于各个预排序单特征机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序单特征机器学习模型对应所述每一个候选组合特征。
可选地,在所述系统中,特征组合装置通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序整体机器学习模型,基于各个预排序整体机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序整体机器学习模型对应预排序基本特征子集和所述每一个候选组合特征。
可选地,在所述系统中,特征组合装置通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序复合机器学习模型,基于各个预排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序复合机器学习模型包括基于提升框架的预排序基本子模型和预排序附加子模型,其中,预排序基本子模型对应预排序基本特征子集,预排序附加子模型对应所述每一个候选组合特征。
可选地,在所述系统中,预排序基本特征子集包括在当前轮迭代之前选择的目标组合特征。
可选地,在所述系统中,特征组合装置通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序单特征机器学习模型,基于各个再排序单特征机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序单特征机器学习模型对应所述每一个候选组合特征。
可选地,在所述系统中,特征组合装置通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序整体机器学习模型,基于各个再排序整体机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型对应再排序基本特征子集和所述每一个候选组合特征。
可选地,在所述系统中,特征组合装置通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序复合机器学习模型,基于各个再排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型包括基于提升框架的再排序基本子模型和再排序附加子模型,其中,再排序基本子模型对应再排序基本特征子集,再排序附加子模型对应所述每一个候选组合特征。
可选地,在所述系统中,再排序基本特征子集包括在当前轮迭代之前选择的目标组合特征。
可选地,在所述系统中,特征组合装置还针对每一轮迭代,检验选择的目标组合特征是否适于作为机器学习样本的组合特征。
可选地,在所述系统中,特征组合装置利用基于已经通过检验的目标组合特征的机器学习模型在引入所述选择的目标组合特征之后的效果变化来检验所述选择的目标组合特征是否适于作为机器学习样本的组合特征。
可选地,在所述系统中,在检验结果为所述选择的目标组合特征适于作为机器学习样本的组合特征的情况下,特征组合装置将所述选择的目标组合特征作为机器学习样本的组合特征,并执行下一轮迭代;在检验结果为所述选择的目标组合特征不适于作为机器学习样本的组合特征的情况下,特征组合装置根据预排序结果从候选组合特征集合中筛选出另外的一部分候选组合特征以组成新的候选组合特征池。
在根据本发明示例性实施例的生成机器学习样本的组合特征的方法及系统中,通过特定方式的预排序和再排序从每一轮迭代中生成的组合特征中筛选出一部分以最终形成机器学习样本的组合特征集,从而可在使用较少运算资源的情况下有效地实现自动特征组合,提升机器学习模型的效果。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1示出根据本发明示例性实施例的生成机器学习样本的组合特征的系统的框图;
图2示出根据本发明示例性实施例的特征组合装置的框图;
图3示出根据本发明另一示例性实施例的特征组合装置的框图;
图4示出根据本发明示例性实施例的机器学习模型的训练系统的框图;
图5示出根据本发明示例性实施例的生成机器学习样本的组合特征的方法的流程图;
图6示出根据本发明示例性实施例的用于迭代地生成组合特征的搜索树的示例;
图7示出根据本发明示例性实施例的机器学习模型的训练方法的流程图;以及
图8示出根据本发明另一示例性实施例的生成机器学习样本的组合特征的方法的流程图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
在本发明的示例性实施例中,通过以下方式来进行自动特征组合:基于数据记录的属性信息来生成可进行组合的离散特征,按照迭代的方式来生成作为候选组合特征的离散特征组合,在每一轮迭代中,通过特定方式的预排序和再排序从候选组合特征中筛选出一部分目标组合特征以形成机器学习样本的组合特征集。
这里,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外,还应注意,在训练和应用模型的过程中,还可结合统计算法等其他手段。
图1示出根据本发明示例性实施例的生成机器学习样本的组合特征的系统的框图。图1所示的系统包括数据记录获取装置100和特征组合装置200。
具体说来,数据记录获取装置100用于获取历史数据记录,其中,所述历史数据记录包括多个属性信息。这里,作为示例,数据记录获取装置100可获取已经标记过的历史数据记录,以用于进行有监督机器学习。
上述历史数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息,例如,身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者,这些数据也可涉及业务相关项目的属性信息,例如,关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意,本发明的示例性实施例中提到的属性信息内容可涉及任何对象或事务在某方面的表现或性质,而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。
数据记录获取装置100可获取不同来源的结构化或非结构化数据,例如,文本数据或数值数据等。获取的数据记录可用于形成机器学习样本,参与机器学习模型的训练/测试过程。这些数据可来源于期望获取模型预测结果的实体内部,例如,来源于期望获取预测结果的银行、企业、学校等;这些数据也可来源于上述实体以外,例如,来源于数据提供商、互联网(例如,社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地,上述内部数据和外部数据可组合使用,以形成携带更多信息的机器学习样本。
上述数据可通过输入装置输入到数据记录获取装置100,或者由数据记录获取装置100根据已有的数据来自动生成,或者可由数据记录获取装置100从网络上(例如,网络上的存储介质(例如,数据仓库))获得,此外,诸如服务器的中间数据交换装置可有助于数据记录获取装置100从外部数据源获取相应的数据。这里,获取的数据可被数据记录获取装置100中的文本分析模块等数据转换模块转换为容易处理的格式。
特征组合装置200用于按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征。具体说来,针对每一轮迭代,特征组合装置200对候选组合特征集合中的各个候选组合特征进行重要性的预排序,根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池,对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
这里,特征组合装置200可首先基于历史数据记录的多个属性信息来生成可进行组合的离散特征(该离散特征可被视为能够进行特征组合的最小单位),在此过程中,特征组合装置200可根据需要对连续特征进行离散化处理,以得到便于互相组合的离散特征。这里,可将单个离散特征看做一阶特征,根据本发明的示例性实施例,可进行两阶、三阶等更高阶的特征组合以生成相应的候选组合特征,其中,“阶”表示参与组合的单个离散特征数目。
作为示例,可根据关于组合特征的搜索策略,按照迭代的方式来生成机器学习样本的组合特征。为此,特征组合装置200可按照迭代的方式来逐步地生成候选组合特征,作为示例,在每一轮迭代中,特征组合装置200可根据预先设定的搜索策略而组合出新的候选组合特征。这里,特征组合装置200可对当前参与筛选的各个候选组合特征进行重要性的预排序,并根据预排序结果从中筛选出一部分候选组合特征,例如,重要性较高的一部分候选组合特征(例如,100个候选组合特征中,可筛选出第一重要到第十重要的特征)、重要性成间隔排列的一部分候选组合特征(例如,100个候选组合特征中,可筛选出第一重要的特征、第十一重要的特征、第二十一重要的特征…、第九十一重要的特征)等。筛选出的候选组合特征可构成候选组合特征池,以便特征组合装置200通过再排序而从中进一步筛选出重要性较高的目标组合特征。在如上所述确定了目标组合特征之后,可执行下一轮迭代,以进一步得到新的目标组合特征。
应注意:记录获取装置100和特征组合装置200可被配置为由软件、硬件和/或固件组成的各个单元,这些单元中的某些单元或全部单元可被集成为一体或共同协作以完成特定功能。
作为示例,以下将参照图2来描述根据本发明示例性实施例的特征组合装置200的框图。参照图2,特征组合装置200可包括候选组合特征生成单元210、预排序单元220和再排序单元230。
这里,候选组合特征生成单元210用于按照搜索策略,针对每一轮迭代来生成候选组合特征。
候选组合特征生成单元210可首先在第一轮迭代中,基于历史数据记录的属性信息来生成可进行组合的离散特征,这里,可通过对连续特征(例如,连续值属性信息本身)进行离散化来得到相应的离散特征。优选地,在对连续特征进行离散化时,候选组合特征生成单元210可针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征。
具体说来,针对历史数据记录的至少一部分属性信息,可产生相应的连续特征,这里,连续特征是与离散特征(例如,类别特征)相对的一种特征,其取值可以是具有一定连续性的数值,例如,距离、年龄、金额等。相对地,作为示例,离散特征的取值不具有连续性,例如,可以是“来自北京”、“来自上海”或“来自天津”、“性别为男”、“性别为女”等无序分类的特征。
举例说来,可将历史数据记录中的某种连续值属性信息直接作为对应的连续特征,例如,可将距离、年龄、金额等属性信息直接作为相应的连续特征。也就是说,所述每一个连续特征可由所述多个属性信息之中的连续值属性信息自身形成。或者,也可通过对历史数据记录中的某些属性信息(例如,连续值属性和/或离散值属性信息)进行处理,以得到相应的连续特征,例如,将身高与体重的比值作为相应的连续特征。特别地,所述连续特征可通过对所述多个属性信息之中的离散值属性信息进行连续变换而形成。作为示例,所述连续变换可指示对所述离散值属性信息的取值进行统计。例如,连续特征可指示某些离散值属性信息关于机器学习模型的预测目标的统计信息。举例说来,在预测购买概率的示例中,可将卖家商户编号这一离散值属性信息变换为关于相应卖家商户编码的历史购买行为的概率统计特征。
此外,除了将进行分箱运算的连续特征之外,候选组合特征生成单元210还可产生其他离散特征。作为可选方式,上述特征也可由其他特征产生装置(未示出)来产生。根据本发明的示例性实施例,上述特征之间可进行任意组合,其中,连续特征在组合时已经转换为分箱组特征。
对于每一个连续特征,候选组合特征生成单元210可执行至少一种分箱运算,从而能够同时获得多个从不同的角度、尺度/层面来刻画原始数据记录的某些属性的离散特征。
这里,分箱(binning)运算是指将连续特征进行离散化的一种特定方式,即,将连续特征的值域划分为多个区间(即,多个箱子),并基于划分的箱子来确定相应的分箱特征值。分箱运算大体上可划分为有监督分箱和无监督分箱,这两种类型各自包括一些具体的分箱方式,例如,有监督分箱包括最小熵分箱、最小描述长度分箱等,而无监督分箱包括等宽分箱、等深分箱、基于k均值聚类的分箱等。在每种分箱方式下,可设置相应的分箱参数,例如,宽度、深度等。应注意,根据本发明的示例性实施例,由候选组合特征生成单元210执行的分箱运算不限制分箱方式的种类,也不限制分箱运算的参数,并且,相应产生的分箱特征的具体表示方式也不受限制。
候选组合特征生成单元210执行的分箱运算可以在分箱方式和/或分箱参数方面存在差异。例如,所述至少一种分箱运算可以是种类相同但具有不同运算参数(例如,深度、宽度等)的分箱运算,也可以是不同种类的分箱运算。相应地,每一种分箱运算可得到一个分箱特征,这些分箱特征共同组成一个分箱组特征,该分箱组特征可体现出不同分箱运算,从而提升了机器学习素材的有效性,为机器学习模型的训练/预测提供了较好的基础。
以上示出了在第一轮迭代中对连续特征进行离散化处理的过程。然而,应理解,根据本发明的示例性实施例,既可以仅针对第一轮迭代对连续特征进行离散化处理,以一次性得到后续始终用来进行组合的离散特征;也可以针对后续迭代(例如,针对每一轮迭代)重新执行离散化处理,以得到与相关后续迭代分别对应的离散特征。
作为示例,所述至少一种分箱运算可以是针对每一轮迭代或针对所有轮迭代从预定数量的分箱运算中选择的,其中,与选择的分箱运算对应的分箱特征的重要性不低于与未被选择的分箱运算对应的分箱特征的重要性。这里,候选组合特征生成单元210可利用任何判断特征重要性的手段来衡量各个分箱特征的重要性。
在随后的迭代中,候选组合特征生成单元210可按照搜索策略来生成新的候选组合特征。这里,所述搜索策略可旨在对关于组合离散特征的搜索树进行剪枝处理,以控制每一轮迭代中生成的候选组合特征数量。例如,候选组合特征生成单元210可在每一轮迭代中仅基于上一轮迭代中选择的目标组合特征为基础来生成新的候选组合特征。
预排序单元220用于针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序。这里,候选组合特征集合可包括一轮或多轮迭代中生成的候选组合特征,例如,当前轮迭代或其连同若干先前轮迭代中生成的候选组合特征。预排序单元220可利用任何判断特征重要性的手段来衡量候选组合特征集合中的各个候选组合特征的重要性。通过预排序,能够获知所述各个候选组合特征的重要性顺序,在此基础上,预排序单元220可从中筛选出一部分候选组合特征以组成候选组合特征池,这里,筛选出的候选组合特征可表现为在预测作用方面的某种一致性,使得可仅从中筛选出重要性较高的特征以作为机器学习样本的目标组合特征。
相应地,再排序单元230用于对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。这里,再排序单元230可利用任何判断特征重要性的手段来衡量候选组合特征池中的各个候选组合特征的重要性,例如,再排序单元230可采用与预排序单元220相同的方式来衡量候选组合特征的重要性,只是在判断时基于数量更多的数据记录以作出更为准确的判断。再排序单元230可选择候选组合特征池中最重要的预定数量个候选组合特征作为目标组合特征,这里,目标组合特征可直接作为机器学习样本的组合特征,或可对目标组合特征进行进一步的验证以决定是否将其作为机器学习样本的组合特征。作为示例,如果在当前候选组合特征池中没有筛选到合适的目标组合特征或者还需要在当前轮迭代中继续筛选合适的目标组合特征,则可根据预排序结果重新确定新的候选组合特征池,例如,在100个候选组合特征中,可再次筛选出第十一重要到第二十重要的特征;或者,在100个候选组合特征中,可再次筛选出第二重要的特征、第十二重要的特征、第二十二重要的特征…、第九十二重要的特征。另一方面,在当前轮迭代的筛选处理结束时,可执行下一轮迭代以生成新的候选组合特征。
在图2所示的特征组合装置200中,候选组合特征生成单元210,预排序单元220和再排序单元230均涉及对特征重要性的确定,相应地,作为可选方式,上述三个单元可共享一部分运算参数或结果,以节省资源。
图3示出根据本发明另一示例性实施例的特征组合装置200的框图,在图3所示的特征组合装置200中,除了候选组合特征生成单元210、预排序单元220和再排序单元230之外,还进一步包括检验单元240,用于针对每一轮迭代,检验由再排序单元230选择的目标组合特征是否适于作为机器学习样本的组合特征。
这里,候选组合特征生成单元210、预排序单元220和再排序单元230可按照参照图2描述的方式来进行操作,这里将不再赘述细节。此外,由再排序单元230每次选择出的目标组合特征并不会被直接用作机器学习样本的组合特征,而是需经过检验单元240的验证处理。作为示例,检验单元240可通过将选择的目标组合特征融入将针对预测问题执行预测的实际机器学习模型来检验其是否适于作为机器学习样本的组合特征,例如,检验单元240可将待验证的目标组合特征引入基于已经验证过的组合特征的机器学习模型,并通过衡量模型的效果变化来检验所述待验证的目标组合特征是否适于作为机器学习样本的组合特征。
图1(结合图2和图3)所示的系统旨在产生机器学习样本的组合特征,该系统可独立存在,这里,应注意,所述系统获取数据记录的方式并不受限制,也就是说,作为示例,数据记录获取装置100可以是具有接收并处理数据记录的能力的装置,也可以仅仅是提供已经准备好的数据记录的装置。此外,上述系统也可集成到模型训练系统中,作为完成特征处理的组成部分。
图4示出根据本发明示例性实施例的机器学习模型的训练系统的框图。在图4所示的系统中,除了上述数据记录获取装置100和特征组合装置200之外,还包括机器学习样本生成装置300和机器学习模型训练装置400。
具体说来,在图4所示的系统中,数据记录获取装置100和特征组合装置200可按照在图1到图3所示的方式进行操作,其中,作为示例,数据记录获取装置100可获取已经标记过的历史数据记录。
此外,机器学习样本生成装置300用于产生至少包括一部分所产生的组合特征的机器学习样本。也就是说,在由机器学习样本生成装置300产生的机器学习样本中,包括由特征组合装置200产生的一部分或全部组合特征,此外,作为可选方式,机器学习样本还可包括基于数据记录的属性信息产生的任意其他特征,例如,通过对数据记录的属性信息进行特征处理而得到的特征等。作为示例,这些其他特征可由特征组合装置200来产生,也可由其他装置来产生。
具体说来,机器学习样本生成装置300可产生机器学习训练样本,特别地,作为示例,在有监督学习的情况下,机器学习样本生成装置300所产生的机器学习训练样本可包括特征和标记(label)两部分。
机器学习模型训练装置400用于基于机器学习训练样本来训练机器学习模型。这里,机器学习模型训练装置400可采用任何适当的机器学习算法(例如,对数几率回归),从机器学习训练样本学习出适当的机器学习模型。作为示例,机器学习模型训练装置400可采用与组合特征生成装置200为了衡量相关特征重要性所采用的模型相同或类似的机器学习算法。
在上述示例中,可训练出较为稳定且预测效果较好的机器学习模型。
以下结合图5来描述根据本发明示例性实施例的生成机器学习样本的组合特征的方法的流程图。这里,作为示例,图5所示的方法可由图1所示的系统及其装置来执行,也可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图5所示的方法。为了描述方便,假设图5所示的方法由图1所示的系统来执行,并假设图1中的特征组合装置200可具有图2所示的结构。
如图所示,在步骤S100中,由数据记录获取装置100获取历史数据记录,其中,所述历史数据记录包括多个属性信息。
这里,作为示例,数据记录获取装置100可通过手动、半自动或全自动的方式来采集数据,或对采集的原始数据进行处理,使得处理后的数据记录具有适当的格式或形式。作为示例,数据记录获取装置100可批量地采集历史数据。
这里,数据记录获取装置100可通过输入装置(例如,工作站)接收用户手动输入的数据记录。此外,数据记录获取装置100可通过全自动的方式从数据源系统地取出数据记录,例如,通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式,其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下,可在没有人工干预的情况下自动进行数据采集,但应注意,在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了例如定时器机制。在这种情况下,在接收到特定的用户输入的情况下,才产生提取数据的请求。每次获取数据时,优选地,可将捕获的数据存储在非易失性存储器中。作为示例,可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。
上述获取的数据记录可来源于相同或不同的数据源,也就是说,每条数据记录也可以是不同数据记录的拼接结果。例如,除了获取客户向银行申请开通信用卡时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)之外,作为示例,数据记录获取装置100可还获取该客户在该银行的其他数据记录,例如,贷款记录、日常交易数据等,这些获取的数据记录可拼接为完整的数据记录。此外,数据记录获取装置100还可获取来源于其他私有源或公共源的数据,例如,来源于数据提供商的数据、来源于互联网(例如,社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。
可选地,数据记录获取装置100可借助硬件集群(诸如Hadoop集群、Spark集群等)对采集到的数据进行存储和/或处理,例如,存储、分类和其他离线操作。此外,数据记录获取装置100也可对采集的数据进行在线的流处理。
作为示例,数据记录获取装置100中可包括文本分析模块等数据转换模块,相应地,在步骤S100中,数据记录获取装置100可将文本等非结构化数据转换为更易于使用的结构化数据以在后续进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、交易报告等。
在获取了历史数据记录以后的步骤中,由特征组合装置200按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,特征组合装置200对候选组合特征集合中的各个候选组合特征进行重要性的预排序,根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池,对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
以下将详细说明上述处理所涉及的各个步骤。首先,针对第一轮迭代,在步骤S205中,由候选组合特征生成单元210基于历史数据记录的属性信息来生成至少一个离散特征和/或至少一个连续特征,并将生成的连续特征转换为离散特征。
具体说来,针对历史数据记录的至少一部分属性信息,可产生相应的连续特征。根据本发明的示例性实施例,每一个连续特征在与其他特征进行组合时需转换为离散特征。此外,候选组合特征生成单元210还可产生离散特征,例如,将历史数据记录中的某种离散值属性信息直接作为离散特征,或者,通过对属性信息进行特征处理而得到离散特征。作为可选方式,上述特征也可由其他特征产生装置(未示出)来产生。
这里,可采用任何适当的方式对连续特征进行离散化处理。优选地,候选组合特征生成单元210可针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征。上述分箱特征组成的离散特征可代替原始的连续特征而参与离散特征之间的自动组合。
这里,候选组合特征生成单元210可按照各种分箱方式和/或分箱参数来执行分箱运算。
以无监督下的等宽分箱为例,假设连续特征的取值区间为[0,100],相应的分箱参数(即,宽度)为50,则可分出2个箱子,在这种情况下,取值为61.5的连续特征对应于第2个箱子,如果这两个箱子的标号为0和1,则所述连续特征对应的箱子标号为1。或者,假设分箱宽度为10,则可分出10个箱子,在这种情况下,取值为61.5的连续特征对应于第7个箱子,如果这十个箱子的标号为0到9,则所述连续特征对应的箱子标号为6。或者,假设分箱宽度为2,则可分出50个箱子,在这种情况下,取值为61.5的连续特征对应于第31个箱子,如果这五十个箱子的标号为0到49,则所述连续特征对应的箱子标号为30。
在将连续特征映射到多个箱子之后,对应的特征值可以为自定义的任何值。这里,分箱特征可指示连续特征按照对应的分箱运算被分到了哪个箱子。也就是说,执行分箱运算以产生与每一个连续特征对应的多维度的分箱特征,其中,作为示例,每个维度可指示对应的箱子中是否被分到了相应的连续特征,例如,以“1”来表示连续特征被分到了相应的箱子,而以“0”来表示连续特征没有被分到相应的箱子,相应地,在上述示例中,假设分出了10个箱子,则分箱特征可以是10个维度的特征,与取值为61.5的连续特征对应的分箱特征可表示为[0,0,0,0,0,0,1,0,0,0]。
此外,作为示例,在执行分箱运算前,还可以通过去除数据样本中可能的离群点来减少数据记录中的噪音。通过这种方式,能进一步提高利用分箱特征进行机器学习的有效性。
具体说来,可额外设置离群箱,使得具有离群值的连续特征被分到所述离群箱。举例说来,对于取值区间为[0,1000]的连续特征,可选取一定数量的样本进行预分箱,例如,先按照分箱宽度为10来进行等宽分箱,然后记录每个箱子内的样本数量,对于样本数量较少(例如,少于阈值)的箱子,可以将它们合并为至少一个离群箱。作为示例,如果位于两端的箱内样本数量较少,则可将样本较少的箱子合并为离群箱,而将剩余的箱子保留,假设0-10号箱子中的样本数量较少,则可将0-10号箱子合并为离群箱,从而将取值为[0,100]的连续特征统一划分到离群箱。
根据本发明的示例性实施例,所述至少一个分箱运算可以是分箱方式相同但分箱参数不同的分箱运算;或者,所述至少一个分箱运算可以是分箱方式不同的分箱运算。
这里的分箱方式包括有监督分箱和/或无监督分箱下的各种分箱方式。例如,有监督分箱包括最小熵分箱、最小描述长度分箱等,而无监督分箱包括等宽分箱、等深分箱、基于k均值聚类的分箱等。
作为示例,至少一种分箱运算可分别对应于不同宽度的等宽分箱运算。也就是说,采用的分箱方式相同但划分的粒度不同,这使得产生的分箱特征能够更好地刻画原始数据记录的规律,从而更有利于机器学习模型的训练与预测。特别地,至少一种分箱运算所采用的不同宽度可在数值上构成等比数列,例如,分箱运算可按照值2、值4、值8、值16等的宽度来进行等宽分箱。或者,至少一种分箱运算所采用的不同宽度可在数值上构成等差数列,例如,分箱运算可按照值2、值4、值6、值8等的宽度来进行等宽分箱。
作为另一示例,至少一种分箱运算可分别对应于不同深度的等深分箱运算。也就是说,分箱运算采用的分箱方式相同但划分的粒度不同,这使得产生的分箱特征能够更好地刻画原始数据记录的规律,从而更有利于机器学习模型的训练与预测。特别地,分箱运算所采用的不同深度可在数值上构成等比数列,例如,分箱运算可按照值10、值100、值1000、值10000等的深度来进行等深分箱。或者,分箱运算所采用的不同深度可在数值上构成等差数列,例如,分箱运算可按照值10、值20、值30、值40等的深度来进行等深分箱。
针对每一个连续特征,在通过执行分箱运算而得到了相应的至少一个分箱特征之后,可通过将每一个分箱特征作为一个组成元素而得到与连续特征对应的离散特征,该离散特征可看做分箱特征的集合。
如上所述,根据本发明的示例性实施例,需要对连续特征执行至少一种分箱运算。这里,所述至少一种分箱运算可通过任何适当的方式来确定,例如,可借助技术人员或业务人员的经验来确定,也可经由技术手段来自动确定。作为示例,可基于分箱特征的重要性来有效地确定具体的分箱运算方式。
相应地,候选组合特征生成单元210可从预定数量的分箱运算中选择所述至少一种分箱运算,使得与选择的分箱运算对应的分箱特征的重要性不低于与未被选择的分箱运算对应的分箱特征的重要性。通过这种方式,能够在减小组合后特征空间大小的情况下,确保机器学习的效果。
具体说来,预定数量的分箱运算可指示在分箱方式和/或分箱参数方面存在差异的多种分箱运算。这里,通过执行每一种分箱运算,可得到对应的一个分箱特征,相应地,候选组合特征生成单元210可确定这些分箱特征的重要性,并进而选择较为重要的分箱特征所对应的分箱运算,作为将由候选组合特征生成单元210所执行的至少一种分箱运算。
这里,候选组合特征生成单元210可采用任何适当的方式来自动确定分箱特征的重要性。
例如,候选组合特征生成单元210可针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱单特征机器学习模型,基于各个分箱单特征机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱单特征机器学习模型对应所述每一个分箱特征。
作为示例,假设对于连续特征F而言,存在预定数量M(M为大于1的整数)种分箱运算,对应M个分箱特征fm,其中,m∈[1,M]。相应地,候选组合特征生成单元210可利用至少一部分历史数据记录来构建M个分箱单特征机器学习模型(其中,每一个分箱单特征机器学习模型基于相应的单个分箱特征fm来针对机器学习问题进行预测),然后衡量这M个分箱单特征机器学习模型在相同测试数据集上的效果(例如,AUC(ROC(受试者工作特征,ReceiverOperating Characteristic)曲线下的面积,Area Under ROC Curve)、MAE(平均绝对误差,Mean Absolute Error)等),并基于效果的排序来确定最终执行的至少一种分箱运算。
又例如,候选组合特征生成单元210可针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱整体机器学习模型,基于各个分箱整体机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱整体机器学习模型对应分箱基本特征子集和所述每一个分箱特征。作为示例,这里的分箱整体机器学习模型可以是对数几率回归(LR)模型;相应地,分箱整体机器学习模型的样本由分箱基本特征子集和所述每一个分箱特征组成。
作为示例,假设对于连续特征F而言,存在预定数量M种分箱运算,对应M个分箱特征fm,相应地,候选组合特征生成单元210可利用至少一部分历史数据记录来构建M个分箱整体机器学习模型(其中,每一个分箱整体机器学习模型的样本特征包括固定的分箱基本特征子集和相应的分箱特征fm),然后衡量这M个分箱整体机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序来确定最终执行的至少一种分箱运算。
又例如,候选组合特征生成单元210可针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱复合机器学习模型,基于各个分箱复合机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱复合机器学习模型包括基于提升框架(例如,梯度提升框架)的分箱基本子模型和分箱附加子模型,其中,分箱基本子模型对应分箱基本特征子集,分箱附加子模型对应所述每一个分箱特征。
作为示例,假设对于连续特征F而言,存在预定数量M种分箱运算,对应M个分箱特征fm,相应地,候选组合特征生成单元210可利用至少一部分历史数据记录来构建M个分箱复合机器学习模型(其中,每一个分箱复合机器学习模型基于固定的分箱基本特征子集和相应的分箱特征fm,按照提升框架来针对机器学习问题进行预测),然后衡量这M个分箱复合机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序来确定最终执行的至少一种分箱运算。优选地,为了进一步提高运算效率并降低资源消耗,候选组合特征生成单元210可通过在固定分箱基本子模型的情况下,分别针对每一个分箱特征fm训练分箱附加子模型来构建各个分箱复合机器学习模型。
根据本发明的示例性实施例,分箱基本特征子集可固定地应用于所有相关分箱整体机器学习模型或分箱复合机器学习模型中的分箱基本子模型,这里,针对第一轮迭代,分箱基本特征子集可以为空;或者,可将任何基于历史数据记录的属性信息产生的特征作为分箱基本特征,例如,可将历史数据记录的一部分属性信息或全部属性信息直接作为分箱基本特征。此外,作为示例,可考虑实际的机器学习问题,基于估算或根据业务人员指定来确定相对重要或基本的特征作为分箱基本特征。
在如上生成了用于生成组合特征的单位离散特征之后,在步骤S210中,由候选组合特征生成单元210按照搜索策略,针对每一轮迭代来生成候选组合特征。这里,由于连续特征已经被转换为离散特征,因此,可在各个离散特征之间进行任意组合以作为候选组合特征。作为示例,离散特征之间的组合可通过笛卡尔积来实现,然而,应注意,组合方式并不受限于此,任何能够将两个或多个离散特征相互结合的方式均可应用于本发明的示例性实施例。
这里,针对第一轮迭代,候选组合特征生成单元210可将在步骤S205生成的各个离散特征本身直接作为候选组合特征。
接下来,在步骤S220中,由预排序单元220针对第一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序。这里,候选组合特征集合可包括需要在当前轮迭代中进行预排序的候选组合特征,这些候选组合特征可以是已经生成的候选组合特征之中的至少一部分。作为示例,第一轮迭代下的候选组合特征集合可包括在步骤S205生成的所有离散特征。
这里,预排序单元220可利用任何判断特征重要性的手段来衡量候选组合特征集合中的各个候选组合特征的重要性。
例如,预排序单元220可针对候选组合特征集合中的每一个候选组合特征,得到预排序单特征机器学习模型,基于各个预排序单特征机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序单特征机器学习模型对应所述每一个候选组合特征。
作为示例,假设候选组合特征集合包括N(N为大于1的整数)个候选组合特征fn,其中,n∈[1,N]。相应地,预排序单元220可利用至少一部分历史数据记录来构建N个预排序单特征机器学习模型(其中,每一个预排序单特征机器学习模型基于相应的单个候选组合特征fn来针对机器学习问题进行预测),然后衡量这N个预排序单特征机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序来确定候选组合特征集合之中的各个候选组合特征的重要性顺序。
又例如,预排序单元220可针对候选组合特征集合中的每一个候选组合特征,得到预排序整体机器学习模型,基于各个预排序整体机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序整体机器学习模型对应预排序基本特征子集和所述每一个候选组合特征。作为示例,这里的预排序整体机器学习模型可以是LR模型;相应地,预排序整体机器学习模型的样本由预排序基本特征子集和所述每一个候选组合特征组成。
作为示例,假设候选组合特征集合包括N个候选组合特征fn,相应地,预排序单元220可利用至少一部分历史数据记录来构建N个预排序整体机器学习模型(其中,每一个预排序整体机器学习模型的样本特征包括固定的预排序基本特征子集和相应的候选组合特征fn),然后衡量这N个预排序整体机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序确定候选组合特征集合之中的各个候选组合特征的重要性顺序。
又例如,预排序单元220可针对候选组合特征集合中的每一个候选组合特征,得到预排序复合机器学习模型,基于各个预排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序复合机器学习模型包括基于提升框架(例如,梯度提升框架)的预排序基本子模型和预排序附加子模型,其中,预排序基本子模型对应预排序基本特征子集,预排序附加子模型对应所述每一个候选组合特征。
作为示例,假设候选组合特征集合包括N个候选组合特征fn,相应地,预排序单元220可利用至少一部分历史数据记录来构建N个预排序复合机器学习模型(其中,每一个预排序复合机器学习模型基于固定的预排序基本特征子集和相应的候选组合特征fn,按照提升框架来针对机器学习问题进行预测),然后衡量这N个预排序复合机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序确定候选组合特征集合之中的各个候选组合特征的重要性顺序。优选地,为了进一步提高运算效率并降低资源消耗,预排序单元220可通过在固定预排序基本子模型的情况下,分别针对每一个候选组合特征fn训练预排序附加子模型来构建各个预排序复合机器学习模型。
根据本发明的示例性实施例,预排序基本特征子集可固定地应用于所有相关预排序整体机器学习模型或预排序复合机器学习模型中的预排序基本子模型,这里,针对第一轮迭代,预排序基本特征子集可以为空;或者,可将任何基于历史数据记录的属性信息产生的特征作为预排序基本特征,例如,可将历史数据记录的一部分属性信息或全部属性信息直接作为预排序基本特征。此外,作为示例,可考虑实际的机器学习问题,基于估算或根据业务人员指定来确定相对重要或基本的特征作为预排序基本特征。
在通过预排序确定了候选组合特征集合之中的各个候选组合特征的重要性顺序之后,预排序单元220可基于排序结果从候选组合特征之中筛选出至少一部分以组成候选组合特征池。如上所述,可优先筛选在预测作用方面具有一致性的重要候选组合特征来组成候选组合特征池,以便有效地确定最终可构成机器学习样本的组合特征。例如,预排序单元220可根据预排序结果从候选组合特征集合中筛选出重要性较高的候选组合特征以组成候选组合特征池。
假设第一轮迭代的候选组合特征集合包括1000个作为候选组合特征的离散特征,预排序单元220可从中筛选出预排序结果中最为重要的10个离散特征以组成候选组合特征池。
接下来,在步骤S230,由再排序单元230对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
这里,再排序单元230可利用任何判断特征重要性的手段来衡量候选组合特征池中的各个候选组合特征的重要性。
例如,再排序单元230可针对候选组合特征池中的每一个候选组合特征,得到再排序单特征机器学习模型,基于各个再排序单特征机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序单特征机器学习模型对应所述每一个候选组合特征。
作为示例,假设候选组合特征池包括10个候选组合特征。相应地,再排序单元230可利用至少一部分历史数据记录来构建10个再排序单特征机器学习模型(其中,每一个再排序单特征机器学习模型基于相应的单个候选组合特征来针对机器学习问题进行预测),然后衡量这10个再排序单特征机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序来确定候选组合特征池之中的各个候选组合特征的重要性顺序。
又例如,再排序单元230可针对候选组合特征池中的每一个候选组合特征,得到再排序整体机器学习模型,基于各个再排序整体机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型对应再排序基本特征子集和所述每一个候选组合特征。作为示例,这里的再排序整体机器学习模型可以是LR模型;相应地,再排序整体机器学习模型的样本由再排序基本特征子集和所述每一个候选组合特征组成。
作为示例,假设候选组合特征池包括10个候选组合特征,相应地,再排序单元230可利用至少一部分历史数据记录来构建10个再排序整体机器学习模型(其中,每一个再排序整体机器学习模型的样本特征包括固定的再排序基本特征子集和相应的候选组合特征),然后衡量这10个再排序整体机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序确定候选组合特征池之中的各个候选组合特征的重要性顺序。
又例如,再排序单元230可针对候选组合特征池中的每一个候选组合特征,得到再排序复合机器学习模型,基于各个再排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型包括基于提升框架(例如,梯度提升框架)的再排序基本子模型和再排序附加子模型,其中,再排序基本子模型对应再排序基本特征子集,再排序附加子模型对应所述每一个候选组合特征。
作为示例,假设候选组合特征池包括10个候选组合特征,相应地,再排序单元230可利用至少一部分历史数据记录来构建10个再排序复合机器学习模型(其中,每一个再排序复合机器学习模型基于固定的再排序基本特征子集和相应的候选组合特征,按照提升框架来针对机器学习问题进行预测),然后衡量这10个再排序复合机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序确定候选组合特征池之中的各个候选组合特征的重要性顺序。优选地,为了进一步提高运算效率并降低资源消耗,再排序单元230可通过在固定再排序基本子模型的情况下,分别针对每一个候选组合特征训练再排序附加子模型来构建各个再排序复合机器学习模型。
根据本发明的示例性实施例,再排序基本特征子集可固定地应用于所有相关再排序整体机器学习模型或再排序复合机器学习模型中的再排序基本子模型,这里,针对第一轮迭代,再排序基本特征子集可以为空;或者,可将任何基于历史数据记录的属性信息产生的特征作为再排序基本特征,例如,可将历史数据记录的一部分属性信息或全部属性信息直接作为再排序基本特征。此外,作为示例,可考虑实际的机器学习问题,基于估算或根据业务人员指定来确定相对重要或基本的特征作为再排序基本特征。
在通过再排序确定了候选组合特征池之中的各个候选组合特征的重要性顺序之后,再排序单元230可基于排序结果从候选组合特征池中筛选出至少一个较为重要的候选组合特征以作为目标组合特征。假设第一轮迭代的候选组合特征池包括10个作为候选组合特征的离散特征,再排序单元230可从中筛选出再排序结果中最为重要的1个离散特征以作为目标组合特征。
根据本发明的示例性实施例,可通过共享相同的模型部分来进一步有效地控制运算资源。
作为示例,在候选组合特征生成单元210、预排序单元220和/或再排序单元230分别基于各自的提升框架复合机器学习模型来进行相关特征的重要性排序时,例如,可基于相对较多的历史数据记录(例如,全量历史数据记录)来训练共同的基本子模型部分,该部分可作为固定模型部分而分别用作分箱复合机器学习模型中的分箱基本子模型、预排序复合机器学习模型中的预排序基本子模型和/或再排序复合机器学习模型中的再排序基本子模型。进一步地,在共享基本子模型的情况下,可并行地训练与每个重要性待确定的特征相应的分箱附加子模型、预排序附加子模型和/或再排序附加子模型,使得仅通过历史数据记录的一次读取操作即可同时训练多个模型。
此外,根据本发明的示例性实施例,可通过控制相关模型部分的样本训练集规模、样本训练顺序和/或样本训练集质量来进一步确保组合特征的效果。
作为示例,预排序单元220可基于相对较少的历史数据记录来训练预排序单特征机器学习模型,而再排序单元230可基于相对较多的历史数据记录来训练再排序单特征机器学习模型;或者,预排序单元220可基于相对较少的历史数据记录来训练预排序整体机器学习模型,而再排序单元230可基于相对较多的历史数据记录来训练再排序整体机器学习模型;或者,预排序单元220可基于相对较少的历史数据记录来训练预排序附加子模型,而再排序单元230可基于相对较多的历史数据记录来训练再排序附加子模型。这里,再排序单元230采用的历史数据记录可包含至少一部分预排序单元220采用的历史数据记录,或者,再排序单元230采用的历史数据记录可不包含排序单元220采用的任何历史数据记录。除了样本训练集规模方面的差异之外,预排序单元220可与再排序单元230采用相同的历史数据记录集,而只是两者训练时的顺序不同。由此可见,特征组合装置200可基于第一数量的历史数据记录进行预排序,并基于第二数量的历史数据记录进行再排序,并且,第二数量不少于第一数量。此外,预排序单元220还可采用与再排序单元230质量不同的样本训练集,例如,预排序单元220可采用质量较低的样本训练集,而再排序单元230可采用质量较高的样本训练集,这样,即使再排序单元230使用了规模较小的样本训练集,也能够确保再排序相关模型的效果。
然而,应注意,本发明的示例性实施例并不受限于此,而是可采用任何方式来分别构建各自的基本子模型,也可采用任何适当的训练数据集。
在第一轮迭代中筛选出目标组合特征之后,在步骤S235中,确定是否满足迭代终止的条件。这里,可预先设置任意关于终止迭代所需满足的条件,例如,已经得到的目标组合特征的个数、已经执行的迭代轮数等。当满足迭代终止条件的时候,可终止组合特征的生成过程;否则,该方法可重新返回步骤S205或步骤S210以执行下一轮的迭代。
具体说来,假设为了将连续特征转换为离散特征时所执行的至少一种分箱运算是针对每一轮迭代从预定数量的分箱运算中选择的,则所述方法需返回步骤S205,以便候选组合特征生成单元210针对第二轮迭代重新选择用于离散化的至少一种分箱运算。
这里,候选组合特征生成单元210可按照与第一轮类似的各种方式将连续特征再次转换为对应的离散特征,以进行后续的特征组合。
特别地,在针对每一轮迭代来选择分箱运算的情况下,假设候选组合特征生成单元210利用分箱整体机器学习模型或分箱复合机器学习模型来衡量分箱特征的重要性,则每一轮迭代中选择的目标组合特征可作为新的离散特征被加入分箱基本特征子集,即,分箱基本特征子集可包括在当前轮迭代之前选择的目标组合特征。这里,分箱基本子模型所依据的分箱基本特征子集可随着生成目标组合特征的迭代而更新。具体说来,在第一轮迭代中选择的目标组合特征可被加入第一轮迭代的分箱基本特征子集以形成第二轮迭代的分箱基本特征子集。
在候选组合特征生成单元210如上所述重新得到由连续特征转换而来的离散特征之后,所述方法可进行到步骤S210;或者,在为了将连续特征转换为离散特征时所执行的至少一种分箱运算是针对所有轮迭代而一次性从预定数量的分箱运算中选择的情况下,所述方法可直接从步骤S210开始执行下一轮迭代而无需再次执行步骤S205。
具体说来,在步骤S210中,候选组合特征生成单元210可按照搜索策略来生成第二轮迭代的候选组合特征。作为示例,在第一轮迭代中,选取了一阶离散特征作为目标组合特征,相应地,在第二轮迭代中,候选组合特征生成单元210可通过对特征进行笛卡尔积组合来得到二阶或更高阶的候选组合特征。
例如,以下将描述由候选组合特征生成单元210结合图6所示的搜索树来迭代地生成组合特征的示例。所述搜索树可基于诸如集束搜索的启发式搜索策略,其中,搜索树的一层可对应于特定阶数的特征组合。
参照图6,为了便于描述,假设可进行组合的单位离散特征包括特征A、特征B、特征C、特征D和特征E,作为示例,特征A、特征B、特征C可以是由历史数据记录的离散值属性信息自身形成的离散特征,而特征D和特征E可以是由连续特征在每一轮迭代中依次通过相应的分箱运算转换而来的离散特征。
根据搜索策略,可将再排序下的特征重要性作为指标来对搜索树的各个节点进行排序,并进而选取一部分节点以在下一层继续扩展。例如,假设在第一轮迭代中,最终选取了作为一阶特征的特征B和特征E这两个节点作为目标组合特征,则在第二轮迭代中,候选组合特征生成单元210可基于特征B和特征E来生成作为二阶组合特征的特征BA、特征BC、特征BD、特征BE、特征EA、特征EB、特征EC、特征ED,这里,作为示例,仅顺序改变的组合特征(例如,特征BE与特征EB)可被看做相同的特征,从而经由去重处理而仅保留其中之一。如上所述,候选组合特征生成单元210可通过将当前轮迭代中选择的目标组合特征与基于历史数据记录的多个属性信息生成的至少一个离散特征进行组合来生成下一轮迭代的候选组合特征。相应地,假设在第二轮迭代中选取了其中的特征BC和特征EA,则可如图6所示,按照上述方式继续进行迭代,直至满足特定的截止条件,例如,阶数限制等。这里,在每一层中被选择的节点(用实线示出)可作为目标组合特征以进行后续的处理,例如,作为最终采用的样本特征或进行进一步的验证,而其余特征(用虚线示出)被剪枝。
以上示出了候选组合特征生成单元210逐阶地生成候选组合特征的示例,在该示例中,第二轮迭代中生成的候选组合特征包括特征BA、特征BC、特征BD、特征BE、特征EA、特征EB、特征EC、特征ED。
相应地,在步骤S220中,由预排序单元220针对第二轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序。这里,候选组合特征集合可包括需要在当前轮迭代中进行预排序的候选组合特征。作为示例,候选组合特征集合可包括在当前轮迭代中生成的候选组合特征,例如,第二轮迭代中生成的特征BA、特征BC、特征BD、特征BE、特征EA、特征EB、特征EC、特征ED;作为另一示例,候选组合特征集合不仅可包括在当前轮迭代中生成的候选组合特征,还可进一步包括在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征,例如,第二轮迭代中生成的特征BA、特征BC、特征BD、特征BE、特征EA、特征EB、特征EC、特征ED连同第一轮迭代中生成的非目标候选特征,即,特征A、特征C和特征D,通过这种方式,能够在保证运算效率的前提下,更为全面地衡量候选组合特征。应注意,根据本发明的示例性实施例,可从当前轮和/或先前轮迭代中生成的所有候选组合特征之中选择一部分进入候选组合特征集合,而非必然使用全部当前存在的候选组合特征。
这里,预排序单元220可按照与第一轮类似的各种方式对候选组合特征集合之中的各个候选组合特征进行重要性的排序。
特别地,在预排序单元220利用预排序整体机器学习模型或预排序复合机器学习模型来衡量候选组合特征的重要性的情况下,则每一轮迭代中选择的目标组合特征可作为新的离散特征被加入预排序基本特征子集,即,预排序基本特征子集可包括在当前轮迭代之前选择的目标组合特征。这里,预排序基本子模型所依据的预排序基本特征子集可随着生成目标组合特征的迭代而更新。具体说来,在第一轮迭代中选择的目标组合特征可被加入第一轮迭代的预排序基本特征子集以形成第二轮迭代的预排序基本特征子集。
在预排序单元220于步骤S220中通过预排序处理以得到新的候选组合特征池之后,在步骤S230中,由再排序单元230对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
这里,再排序单元230可按照与第一轮类似的各种方式对候选组合特征池之中的各个候选组合特征进行重要性的排序。
特别地,在再排序单元230利用再排序整体机器学习模型或再排序复合机器学习模型来衡量候选组合特征的重要性的情况下,则每一轮迭代中选择的目标组合特征可作为新的离散特征被加入再排序基本特征子集,即,再排序基本特征子集可包括在当前轮迭代之前选择的目标组合特征。这里,再排序基本子模型所依据的再排序基本特征子集可随着生成目标组合特征的迭代而更新。具体说来,在第一轮迭代中选择的目标组合特征可被加入第一轮迭代的再排序基本特征子集以形成第二轮迭代的再排序基本特征子集。
这里,除了采用图6的方式来逐阶地生成候选组合特征之外,根据本发明的示例性实施例,还可在每一轮迭代中,更为有效地生成候选组合特征。具体说来,在步骤S210中,候选组合特征生成单元210可通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。通过这种方式,可更为集中地挖掘出有价值的组合方式。
根据本发明的示例性实施例,在满足迭代终止条件时,每一轮迭代中选择的目标组合特征的总和即可作为机器学习样本的组合特征集。特别地,在分箱基本特征子集、预排序基本特征子集和/或再排序基本特征子集随着每一轮选择的目标组合特征而更新时,最后一轮迭代下的上述子集中的组合特征可作为机器学习样本的组合特征集。
图7示出根据本发明示例性实施例的机器学习模型的训练方法的流程图。在图7所示的方法中,除了上述步骤S100、步骤S205、步骤S210、步骤S220、步骤S230和步骤S235之外,所述方法还包括步骤S300和步骤S400。
具体说来,在图7所示的方法中,步骤S100、步骤S205、步骤S210、步骤S220、步骤S230和步骤S235可与图5所示的相应步骤类似,这里将不再赘述细节。
此外,在步骤S300中,可由机器学习样本生成装置300产生至少包括一部分所产生的组合特征的机器学习训练样本,在有监督学习的情况下,该机器学习训练样本可包括特征和标记两部分。
在步骤S400中,可由机器学习模型训练装置400基于机器学习训练样本来训练机器学习模型。这里,机器学习模型训练装置400可利用适当的机器学习算法,从机器学习训练样本学习出适当的机器学习模型。作为示例,所述适当的机器学习算法可以与分箱单特征机器学习模型、预排序单特征机器学习模型、再排序单特征机器学习模型、分箱整体机器学习模型、预排序整体机器学习模型、再排序整体机器学习模型、分箱复合机器学习模型(或分箱基本子模型或分箱附加子模型)、预排序复合机器学习模型(或预排序基本子模型或预排序附加子模型)或再排序复合机器学习模型(或再排序基本子模型或再排序附加子模型)所依据的机器学习算法相同或不同。
在训练出机器学习模型之后,可利用训练出的机器学习模型来进行预测。
根据本发明的示例性实施例,为了进一步增强目标组合特征的有效性,还可进一步对目标组合特征进行验证,且只有通过验证的目标组合特征可作为机器学习样本的组合特征。图8示出根据本发明另一示例性实施例的生成机器学习样本的组合特征的方法的流程图,在该示例中,还可针对每一轮迭代,检验选择的目标组合特征是否适于作为机器学习样本的组合特征。
参照图8,步骤S100、步骤S205、步骤S210、步骤S220和步骤S230与图5所示的相应步骤类似,这里将不再赘述细节。
此外,在步骤S230中得到目标组合特征之后,所述方法进行到步骤S240,在步骤S240中,可由检验单元240验证在步骤S230中得到的目标组合特征是否适于作为机器学习样本的组合特征。
作为示例,检验单元240可利用机器学习模型在引入所述选择的目标组合特征之后的效果变化来进行验证,其中,所述机器学习模型的样本特征包括已经通过检验的目标组合特征。具体说来,检验单元240可构建基于已经通过检验的目标组合特征的机器学习模型,例如,该机器学习模型的样本可至少包括那些之前已经通过检验的目标组合特征,也可进一步包括其他特征。这里,所述机器学习模型可与分箱基本特征子模型、预排序基本特征子模型和/或再排序基本特征子模型基于类似的特征子集,并可基于较多的历史数据记录来训练。可选地,所述机器学习模型并不基于提升框架,由此可更为准确地验证所述选择的目标组合特征是否真正有助于针对机器学习问题来执行预测。
这里,检验单元240可判断上述机器学习模型在引入本轮迭代新选择的目标组合特征之后,模型效果的变动是否符合要求(例如,效果增强满足预期或效果减弱可以接受)。具体说来,检验单元240可判断模型效果是否有所增强(例如,模型效果的增强是否达到预定增强程度);或者,检验单元240可判断模型效果是否仅稍有减弱(例如,模型效果的减弱是否低于预定减弱程度,在这种情况下,模型效果的减弱可被忽略)。当模型的预测效果符合要求时,可确定所述选择的目标组合特征适于作为机器学习样本的组合特征。
相应地,在检验结果为所述选择的目标组合特征适于作为机器学习样本的组合特征的情况下,可将所述选择的目标组合特征作为机器学习样本的组合特征,并执行下一轮迭代;在检验结果为所述选择的目标组合特征不适于作为机器学习样本的组合特征的情况下,可根据预排序结果从候选组合特征集合中筛选出另外的一部分候选组合特征以组成新的候选组合特征池。
作为示例,检验单元240可在步骤S240中判断机器学习模型在引入新选择的目标组合特征之后,该模型在相同的数据测试集上是否表现得更好。如果确定新选择的目标组合特征带来了更好的预测效果,则表示相应的目标组合特征可作为机器学习样本的组合特征,所述方法进行到步骤S235以确定是否满足迭代终止条件。
在满足迭代终止条件的情况下,所述方法结束,当前已经通过检验的所有目标组合特征可作为机器学习样本最终采用的组合特征。否则,所述方法返回步骤S205(或步骤S210)以执行下一轮迭代。
如果确定新选择的目标组合特征没有带来更好的预测效果,则所述方法进行到步骤S245以确定是否在这一轮迭代继续筛选其他的目标组合特征。这里,如果满足筛选终止条件(例如,已经在本轮迭代检验了预定数量的目标组合特征、已经在本轮迭代检验了所有的目标组合特征等),则所述方法执行步骤S235。否则,所述方法可返回步骤S220,在步骤S220中,由预排序单元220重新构建候选组合特征池以便由再排序单元230重新筛选目标组合特征,这里,预排序单元220可重新按照预排序结果来构建新的候选组合特征池,例如,在之前筛选过第一重要到第十重要的特征的情况下,可继续筛选第十一重要到第二十重要的特征,以此类推。
应注意,上述检验步骤也可同样应用于图7所示的方法中,这里将不再赘述。
图1到图4所示出的装置及其单元可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置或单元可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置或单元所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
以上参照图1到图8描述了根据本发明示例性实施例的生成机器学习样本的组合特征的方法和系统以及相应的机器学习模型训练方法和系统。应理解,上述方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种生成机器学习样本的组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1到图8进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的组合特征生成系统以及机器学习模型训练系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图1到图4所示的各个装置或单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行组合特征生成方法或机器学习模型训练方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的组合特征生成方法以及机器学习模型训练方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的组合特征生成方法以及相应的机器学习模型训练方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的用于生成机器学习样本的组合特征的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种生成机器学习样本的组合特征的方法,包括:
(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及
(B)按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,
其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
2.如权利要求1所述的方法,其中,候选组合特征集合包括在当前轮迭代中生成的候选组合特征;或者,候选组合特征集合包括在当前轮迭代中生成的候选组合特征以及在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征。
3.如权利要求1所述的方法,其中,通过将当前轮迭代中选择的目标组合特征与所述至少一个离散特征进行组合来生成下一轮迭代的候选组合特征;或者,通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。
4.如权利要求1所述的方法,其中,所述至少一个离散特征包括通过以下处理从基于所述多个属性信息产生的连续特征转换而来的离散特征:针对每一个连续特征,执行至少一种分箱运算,以生成由至少一个分箱特征组成的离散特征,其中,每种分箱运算对应一个分箱特征。
5.如权利要求4所述的方法,其中,所述至少一种分箱运算是针对每一轮迭代或针对所有轮迭代从预定数量的分箱运算中选择的,其中,与选择的分箱运算对应的分箱特征的重要性不低于与未被选择的分箱运算对应的分箱特征的重要性。
6.如权利要求5所述的方法,其中,通过以下处理来选择所述至少一种分箱运算:针对与所述预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱复合机器学习模型,基于各个分箱复合机器学习模型的效果来确定各个分箱特征的重要性,并基于各个分箱特征的重要性来选择所述至少一种分箱运算,其中,分箱复合机器学习模型包括基于提升框架的分箱基本子模型和分箱附加子模型,其中,分箱基本子模型对应分箱基本特征子集,分箱附加子模型对应所述每一个分箱特征。
7.如权利要求1所述的方法,其中,通过以下处理来进行预排序:针对候选组合特征集合中的每一个候选组合特征,得到预排序复合机器学习模型,基于各个预排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,预排序复合机器学习模型包括基于提升框架的预排序基本子模型和预排序附加子模型,其中,预排序基本子模型对应预排序基本特征子集,预排序附加子模型对应所述每一个候选组合特征。
8.如权利要求1所述的方法,其中,通过以下处理来进行再排序:针对候选组合特征池中的每一个候选组合特征,得到再排序复合机器学习模型,基于各个再排序复合机器学习模型的效果来确定各个候选组合特征的重要性,其中,再排序复合机器学习模型包括基于提升框架的再排序基本子模型和再排序附加子模型,其中,再排序基本子模型对应再排序基本特征子集,再排序附加子模型对应所述每一个候选组合特征。
9.如权利要求1所述的方法,其中,步骤(B)还包括:针对每一轮迭代,检验选择的目标组合特征是否适于作为机器学习样本的组合特征。
10.一种生成机器学习样本的组合特征的系统,包括:
数据记录获取装置,用于获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及
特征组合装置,用于按照搜索策略,在基于所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,
其中,针对每一轮迭代,特征组合装置对候选组合特征集合中的各个候选组合特征进行重要性的预排序,根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池,对候选组合特征池中的各个候选组合特征进行重要性的再排序,并根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
CN202111615354.3A 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统 Pending CN114298323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111615354.3A CN114298323A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111615354.3A CN114298323A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统
CN201710803886.7A CN107679549A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710803886.7A Division CN107679549A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统

Publications (1)

Publication Number Publication Date
CN114298323A true CN114298323A (zh) 2022-04-08

Family

ID=61134491

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710803886.7A Pending CN107679549A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统
CN202111615354.3A Pending CN114298323A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710803886.7A Pending CN107679549A (zh) 2017-09-08 2017-09-08 生成机器学习样本的组合特征的方法及系统

Country Status (1)

Country Link
CN (2) CN107679549A (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681426B (zh) * 2018-05-25 2020-08-11 第四范式(北京)技术有限公司 用于针对数据执行特征处理的方法及系统
CN108962382B (zh) * 2018-05-31 2022-05-03 电子科技大学 一种基于乳腺癌临床高维数据的分层重要特征选择方法
CN109308545B (zh) * 2018-08-21 2023-07-07 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
CN109522478A (zh) * 2018-11-09 2019-03-26 广东原昇信息科技有限公司 客户属性离散化指标的无监督分类方法
CN110766167B (zh) * 2019-10-29 2021-08-06 深圳前海微众银行股份有限公司 交互式特征选择方法、设备及可读存储介质
CN111221880B (zh) * 2020-04-23 2021-01-22 北京瑞莱智慧科技有限公司 特征组合方法、装置、介质和电子设备
CN112365975B (zh) * 2020-11-12 2021-07-23 医渡云(北京)技术有限公司 医疗辅助决策模型解释方法及装置、存储介质、电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708875B (zh) * 2015-11-16 2020-11-06 创新先进技术有限公司 一种特征筛选方法及系统
CN106909931B (zh) * 2015-12-23 2021-03-16 阿里巴巴集团控股有限公司 一种用于机器学习模型的特征生成方法、装置和电子设备
CN105930503A (zh) * 2016-05-09 2016-09-07 清华大学 基于组合特征向量和深度学习的情感分类方法及装置
CN106095942B (zh) * 2016-06-12 2018-07-27 腾讯科技(深圳)有限公司 强变量提取方法及装置
CN114611707A (zh) * 2016-08-25 2022-06-10 第四范式(北京)技术有限公司 结合规则来进行机器学习的方法及系统

Also Published As

Publication number Publication date
CN107679549A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN111797928A (zh) 生成机器学习样本的组合特征的方法及系统
CN112990486A (zh) 生成机器学习样本的组合特征的方法及系统
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
JP6457693B1 (ja) 予測データ分析のためのシステムおよび技術
US20210287048A1 (en) System and method for efficient generation of machine-learning models
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
US10360500B2 (en) Two-phase distributed neural network training system
CN114298323A (zh) 生成机器学习样本的组合特征的方法及系统
CN111797927A (zh) 用于确定机器学习样本的重要特征的方法及系统
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
CN107871166B (zh) 针对机器学习的特征处理方法及特征处理系统
CN106663224B (zh) 用于机器学习模型评估的交互式界面
CN106575246B (zh) 机器学习服务
US10621492B2 (en) Multiple record linkage algorithm selector
CN113570064A (zh) 利用复合机器学习模型来执行预测的方法及系统
CN116757297A (zh) 用于选择机器学习样本的特征的方法及系统
WO2020010251A1 (en) Automated machine learning system
CN111783893A (zh) 生成机器学习样本的组合特征的方法及系统
Lima et al. Domain knowledge integration in data mining using decision tables: case studies in churn prediction
CN107273979B (zh) 基于服务级别来执行机器学习预测的方法及系统
CN116882520A (zh) 针对预定预测问题的预测方法及系统
CN113610240A (zh) 利用嵌套机器学习模型来执行预测的方法及系统
US10963802B1 (en) Distributed decision variable tuning system for machine learning
Babu et al. Framework for Predictive Analytics as a Service using ensemble model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination