CN109242040A - 自动生成组合特征的方法及系统 - Google Patents

自动生成组合特征的方法及系统 Download PDF

Info

Publication number
CN109242040A
CN109242040A CN201811137251.9A CN201811137251A CN109242040A CN 109242040 A CN109242040 A CN 109242040A CN 201811137251 A CN201811137251 A CN 201811137251A CN 109242040 A CN109242040 A CN 109242040A
Authority
CN
China
Prior art keywords
assemblage characteristic
automated characterization
feature extraction
feature
automated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811137251.9A
Other languages
English (en)
Inventor
彭聆然
高晓伟
孙迪
康执玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201811137251.9A priority Critical patent/CN109242040A/zh
Publication of CN109242040A publication Critical patent/CN109242040A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Stored Programmes (AREA)

Abstract

提供一种自动生成组合特征的方法及系统,所述方法包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。采用上述根据本发明示例性实施例的自动生成组合特征的方法及系统,能够通过对特征抽取步骤和自动特征组合步骤的配置实现自动特征组合,既可以提升用户体验,还可以有助于提升机器学习模型的效果。

Description

自动生成组合特征的方法及系统
技术领域
本发明总体说来涉及人工智能领域,更具体地讲,涉及一种自动生成组合特征的方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。
如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,一方面,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。
然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,也难以从运算角度方面确定有效的组合方式。综上所述,现有技术中难以将特征进行自动组合。
发明内容
本发明的示例性实施例的目的在于提供一种自动生成组合特征的方法及系统,以克服上述至少一个缺点。
根据本发明示例性实施例的一个方面,提供一种自动生成组合特征的方法,包括:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
进一步地,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征由所述多个关键单位特征之中对应的部分关键单位特征组合而成。
进一步地,可根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。
进一步地,所述自动特征组合算法可用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。
进一步地,所述自动特征组合步骤被配置为可包括:基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。
进一步地,所述自动特征组合步骤被配置为可包括:基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。
进一步地,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
进一步地,所述特征抽取步骤可对应于表示机器学习过程的有向无环图中的特征抽取节点,所述自动特征组合步骤可对应于所述有向无环图中的自动特征组合节点。
进一步地,可利用所述自动特征组合节点的配置项来配置所述自动特征组合步骤。
进一步地,所述自动特征组合节点的配置项可包括关于是否开启关键特征筛选功能的选项开关,其中,在所述选项开关被用户开启的情况下,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征可由所述多个关键单位特征之中对应的部分关键单位特征组合而成。
进一步地,所述自动特征组合节点的配置项可包括与并行地执行多个与所述自动特征组合算法对应的处理流程相关的并行运算配置项,其中,所述并行运算配置项可涉及以下项之中的至少一项:并行执行的处理流程的数量、每个处理流程对应的自动特征组合算法中训练机器学习模型时的超参数。
进一步地,所述并行运算配置项可还涉及以下项之中的至少一项:数据集的子集数量、每个子集对应的数据记录抽取规则。
进一步地,所述并行运算配置项可具有默认配置值和/或手动配置值。
进一步地,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练的机器学习模型具有实质性差异。
进一步地,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数具有差异。
进一步地,所述超参数可包括学习率,并且,涉及学习率的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数呈现阶梯型递增的趋势。
进一步地,所述自动特征组合节点的配置项可包括关于是否开启去重功能的选项开关,其中,在所述选项开关被用户开启的情况下,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
根据本发明示例性实施例的另一方面,提供一种自动生成组合特征的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
进一步地,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征可由所述多个关键单位特征之中对应的部分关键单位特征组合而成。
进一步地,处理器可还被配置为:根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。
进一步地,所述自动特征组合算法可用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。
进一步地,所述自动特征组合步骤被配置为可包括:基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。
进一步地,所述自动特征组合步骤被配置为可包括:基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。
进一步地,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
进一步地,所述特征抽取步骤可对应于表示机器学习过程的有向无环图中的特征抽取节点,所述自动特征组合步骤可对应于所述有向无环图中的自动特征组合节点。
进一步地,可利用所述自动特征组合节点的配置项来配置所述自动特征组合步骤。
进一步地,所述自动特征组合节点的配置项可包括关于是否开启关键特征筛选功能的选项开关,其中,在所述选项开关被用户开启的情况下,所述自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征可由所述多个关键单位特征之中对应的部分关键单位特征组合而成。
进一步地,所述自动特征组合节点的配置项可包括与并行地执行多个与所述自动特征组合算法对应的处理流程相关的并行运算配置项,其中,所述并行运算配置项可涉及以下项之中的至少一项:并行执行的处理流程的数量、每个处理流程对应的自动特征组合算法中训练机器学习模型时的超参数。
进一步地,所述并行运算配置项可还涉及以下项之中的至少一项:数据集的子集数量、每个子集对应的数据记录抽取规则。
进一步地,所述并行运算配置项可具有默认配置值和/或手动配置值。
进一步地,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练的机器学习模型具有实质性差异。
进一步地,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数具有差异。
进一步地,所述超参数可包括学习率,并且,涉及学习率的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数呈现阶梯型递增的趋势。
进一步地,所述自动特征组合节点的配置项可包括关于是否开启去重功能的选项开关,其中,在所述选项开关被用户开启的情况下,所述自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
根据本发明示例性实施例的另一方面,提供一种自动生成组合特征的系统,包括:特征抽取配置单元,配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;自动特征组合配置单元,配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及组合特征生成单元,运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
根据本发明示例性实施例的另一方面,提供一种自动生成组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个处理器执行上述自动生成组合特征的方法的计算机程序。
采用上述根据本发明示例性实施例的自动生成组合特征的方法及系统,能够通过对特征抽取步骤和自动特征组合步骤的配置实现自动特征组合,既可以提升用户体验,还可以有助于提升机器学习模型的效果。
在根据本发明示例性实施例的自动生成组合特征的方法及系统中,既降低了特征工程的使用门槛,提高了特征工程的易用性,又提高了特征工程的效率和效果。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的详细描述,本发明示例性实施例的上述和其它目的、特点和优点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的自动生成组合特征的方法的流程图;
图2示出根据本发明示例性实施例的自动特征组合步骤的流程图;
图3示出根据本发明示例性实施例的自动生成组合特征的计算装置的框图;
图4示出根据本发明示例性实施例的自动生成组合特征的系统的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
在本发明的示例性实施例中,通过以下方式来进行自动特征组合:配置特征抽取步骤,配置自动特征组合步骤,运行配置的特征抽取步骤和自动特征组合步骤进行特征组合,来生成机器学习样本的组合特征,可使得生成的机器学习样本能够更好地反映数据在各个方面的特性,从而训练出的模型可取得较好的预测结果。
这里,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外,还应注意,在训练和应用模型的过程中,还可结合统计算法等其他手段。
图1示出根据本发明示例性实施例的自动生成组合特征的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的自动生成组合特征的系统或计算装置来执行。
参照图1,在步骤S10中,配置特征抽取步骤。这里,特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理。
应理解,上述各数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息(即,属性字段),例如,身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者,这些数据也可涉及业务相关项目的属性信息,例如,关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意,本发明的示例性实施例中提到的属性信息内容可涉及任何对象或事务在某方面的表现或性质,而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。
上述各数据记录可以是来源于相同或不同的数据源的结构化或非结构化数据,例如,文本数据或数值数据等。获取的数据记录可用于形成机器学习样本,参与机器学习的训练/验证过程。这些数据可来源于期望获取模型预测结果的实体内部,例如,来源于期望获取预测结果的银行、企业、学校等;这些数据也可来源于上述实体以外,可来源于其他私有源或公共源的数据,例如,来源于数据提供商、互联网(例如,社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地,上述内部数据和外部数据可组合使用,以形成携带更多信息的机器学习样本。
也就是说,每条数据记录也可以是不同数据记录的拼接结果。例如,可将客户向银行申请开通信用卡时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)与该客户在该银行的其他数据记录(例如,贷款记录、日常交易数据等)进行拼接,以获得完整的数据记录。
应理解,上述单位特征是能够进行特征组合的最小单位。作为示例,可通过对数据记录的属性字段进行特征处理来得到单位特征。
这里,每条数据记录可被看作关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的属性字段。作为示例,上述特征处理可以是任何适合的特征处理方式,例如,可对属性字段的取值截取一部分,或者可对所述取值进行离散化、取对数等各种算术运算,也可以是不同属性字段之间的组合,本发明对此不作限制。所得到的单位特征可指示字段本身、或字段的局部、或字段的组合等各种字段处理或运算结果。
但本发明不限于此,除上述基于对数据记录的属性字段进行特征处理来得到单位特征的方式之外,还可以直接将属性字段作为单位特征。
在步骤S20中,配置自动特征组合步骤。这里,自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征。这里,上述特征抽取处理结果之后可获得多个单位特征,每个组合特征由多个单位特征之中至少一部分单位特征组合而成。
在步骤S30中,运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
在上述自动生成组合特征的方法中,通过运行预先配置好的特征抽取步骤和自动特征组合步骤来获得组合特征,使得在获得组合特征的过程时,即使技术人员对业务场景没有深刻的理解,或者技术人员不具备丰富的行业实践经验,也可以对特征进行自动组合,降低了特征工程的使用门槛,提高了特征工程的易用性。
应理解,在自动特征组合步骤中,可利用自动特征组合算法直接从多个单位特征得到至少一个组合特征。或者,也可以对多个单位特征进行筛选,利用自动特征组合算法从筛选结果得到至少一个组合特征。下面参照图2来介绍自动特征组合步骤被配置为利用自动特征组合算法从筛选结果得到至少一个组合特征的过程。
图2示出根据本发明示例性实施例的自动特征组合步骤的流程图。
如图2所示,在步骤S201中,从特征抽取处理结果中筛选出多个关键单位特征。
优选地,可根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。
作为示例,可基于机器学习模型的效果来确定特征重要性。例如,可建立分别与特征抽取处理之后获得的多个单位特征之中的每一个单位特征对应的机器学习模型(例如,机器学习模型的样本包括固定特征部分和附加特征部分,其中,附加特征部分为每一个单位特征),基于机器学习模型的效果确定出特征重要性较高的多个单位特征(例如,将所有单位特征按照特征重要性进行降序排序,处于预定数量之前的单位特征),将特征重要性较高的多个单位特征作为多个关键单位特征。此外,还可以基于各种统计方法或者特征自身的数据特性来确定特征关联性和特征填充率。应理解,上述确定特征重要性、特征关联性和特征填充率的方式仅为示例,本发明不限于此,还可利用其他方式来确定特征重要性、特征关联性和特征填充率。此外,除上述筛选多个关键单位特征的方式之外,本领域技术人员还可以通过其他方式来从特征抽取处理结果中筛选出多个关键单位特征。
在步骤S202中,利用自动特征组合算法从多个关键单位特征得到至少一个组合特征。这里,每个组合特征由多个关键单位特征之中对应的部分关键单位特征组合而成。
在现有的机器学习平台上,当上游输入大量的特征时,一般是选择全部特征进行特征组合,这会对特征组合过程的运行效率产生极大地影响,例如,可导致特征组合过程的运行效率降低甚至被卡死。即便由用户对上游输入的特征进行筛选,但如果用户无法全面地分析数据或者用户对业务场景没有深刻的理解,则可能无法从大量的特征中筛选出对机器学习有利的有效特征,也可能产生大量错误的选择,影响最终的结果。即使用户具备相应的特征选择的能力,也会由于繁琐的手动输入操作过程而降低工作的效率。
而在本发明的示例性实施例中,可根据特征的特性而自动筛选出多个相对重要的关键单位特征,使得在用户无需全面地分析数据或者用户对业务场景没有深刻的理解的情况下,也可以从大量的特征中筛选出对机器学习更有作用的关键特征,进而在关键特征之间进行组合,从而有效提高了特征组合过程的运行效率。
在一优选实施例中,自动特征组合算法可用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。
例如,可将每种候选组合特征作为机器学习模型的区别输入,基于机器学习模型的效果来确定每种候选组合特征的重要性,将每种候选组合特征按照重要性进行降序排序,将处于预定数量之前的候选组合特征确定为组合特征。
这里,上述组合特征可通过执行一个与自动特征组合算法对应的处理流程来获得。作为示例,可将自动特征组合算法设计为一独立个体算子(例如,有向无环图(DAG图)中的一个运算节点),在使用自动特征组合算法进行特征组合时,执行一个与自动特征组合算法对应的处理流程相当于以独立个体算子进行运行,以获得相应的组合特征。
为进一步提升特征组合的效率和效果,在本发明一优选实施例中还可以通过并行地执行多个与自动特征组合算法对应的处理流程来得到至少一个组合特征。
在此情况下,自动特征组合步骤被配置为可包括:基于特征抽取处理结果,并行地执行多个与自动特征组合算法对应的处理流程来得到至少一个组合特征。
例如,基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。
当并行地执行多个与自动特征组合算法对应的处理流程时,其获得的组合特征可能存在重复,针对这种情况,自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为至少一个组合特征。
作为示例,上述特征抽取步骤可对应于表示机器学习过程的有向无环图中的特征抽取节点,上述自动特征组合步骤可对应于上述有向无环图中的自动特征组合节点。例如,与机器学习过程相应的DAG图可包括特征抽取节点和自动特征组合节点,当运行整个DAG图时,在执行到特征抽取节点时,将自动执行对应的特征抽取步骤,在执行到自动特征组合节点时,将自动执行自动特征组合步骤。
例如,可利用自动特征组合节点的配置项来配置自动特征组合步骤。但本发明不限于此,还可通过其他方式来配置自动特征组合步骤。作为示例,自动特征组合节点的配置项可包括关于是否开启关键特征筛选功能的选项开关。在关于是否开启关键特征筛选功能的选项开关被用户开启的情况下,自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从多个关键单位特征得到至少一个组合特征。
在一示例中,可向用户提供图形界面,在该图形界面上包括自动特征组合节点的配置项,即,可在图形界面上显示关于是否开启关键特征筛选功能的选项开关,接收用户在图形界面上对上述选项开关的操作,以开启或关闭关键特征筛选功能。
优选地,自动特征组合节点的配置项可还包括与并行地执行多个与自动特征组合算法对应的处理流程相关的并行运算配置项。作为示例,并行运算配置项可涉及以下项之中的至少一项:并行执行的处理流程的数量、每个处理流程对应的自动特征组合算法中训练机器学习模型时的超参数。除此之外,并行运算配置项可还涉及以下项之中的至少一项:数据集的子集数量、每个子集对应的数据记录抽取规则。
优选地,并行运算配置项可具有默认配置值和/或手动配置值。例如,可向用户提供图形界面,在该图形界面上包括并行运算配置项,接收用户在图形界面上对上述并行运算配置项的操作,以选择并行运算配置项的默认配置值或手动配置值。作为示例,可通过接收用户在图形界面上对并行运算配置项的操作来配置相应的项目,例如,并行运算配置项可为在图形界面上呈现的输入控件,通过接收用户对该控件的操控来执行相应配置过程。
涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练的机器学习模型具有实质性差异。例如,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数具有差异。
在一优选实施例中,超参数可包括学习率,并且,涉及学习率的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数呈现阶梯型递增的趋势。通过这种方式,可使得并行执行的机器学习过程所产生的模型具有明显的区别,从而更丰富地确定候选组合特征。应理解,本发明不限于此,各超参数也可以呈现阶梯型递减变化、或者也可以随机变化。
作为示例,自动特征组合节点的配置项可还包括关于是否开启去重功能的选项开关。在关于是否开启去重功能的选项开关被用户开启的情况下,自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
在一示例中,可向用户提供图形界面,在该图形界面上显示关于是否开启去重功能的选项开关,接收用户在图形界面上对该选项开关的操作,以开启或关闭去重功能。
根据本发明示例性实施例的自动生成组合特征的方法,可以并行地执行多个与自动特征组合算法对应的处理流程,优选地,每个处理流程对应自己的数据子集。还能够通过对自动特征组合节点的配置项一次配置,实现多个与自动特征组合算法对应的处理流程对应的自动特征组合算法中训练的机器学习模型具有实质性差异,可以有效提升特征组合的效率和效果,即,能够在占用更少资源、花费更少时间的情况下,得到更多的有效组合特征。
图3示出根据本发明示例性实施例的自动生成组合特征的计算装置的框图。
所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的自动生成组合特征的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的自动生成组合特征的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,如图3所示,根据本发明示例性实施例的自动生成组合特征的计算装置包括存储部件100和处理器200,其中,存储部件100中存储有计算机可执行指令集合,当所述计算机可执行指令集合被处理器200执行时,执行下述步骤:
配置特征抽取步骤,配置自动特征组合步骤,运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。这里,特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理。自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征。
也就是说,可通过图3所示的计算装置来执行图1所示的自动生成组合特征的方法。由于上述在图1和图2中已经对自动生成组合特征的方法进行了详细介绍,本发明对此部分的内容不再赘述。
图4示出根据本发明示例性实施例的自动生成组合特征的系统的框图。这里,作为示例,可由图4所示的系统来执行图1所示的方法。
如图4所示,根据本发明示例性实施例的自动生成组合特征的系统包括特征抽取配置单元10、自动特征组合配置单元20和组合特征生成单元30。
具体说来,特征抽取配置单元10配置特征抽取步骤。这里,特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理。
应理解,上述单位特征是能够进行特征组合的最小单位。作为示例,可通过对数据记录的属性字段进行特征处理来得到单位特征,或者,还可以直接将属性字段作为单位特征。
自动特征组合配置单元20配置自动特征组合步骤。这里,自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征。上述特征抽取处理结果之后可获得多个单位特征,每个组合特征由多个单位特征之中至少一部分单位特征组合而成。
组合特征生成单元30运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
应理解,在自动特征组合步骤中,可利用自动特征组合算法直接从多个单位特征得到至少一个组合特征。或者,也可以对多个单位特征进行筛选,利用自动特征组合算法从筛选结果得到至少一个组合特征。下面介绍自动特征组合配置单元20利用自动特征组合算法从筛选结果得到至少一个组合特征的过程。
例如,自动特征组合配置单元20将自动特征组合步骤配置为:从特征抽取处理结果中筛选出多个关键单位特征,利用自动特征组合算法从多个关键单位特征得到至少一个组合特征。这里,每个组合特征由多个关键单位特征之中对应的部分关键单位特征组合而成。优选地,可根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。
在一优选实施例中,自动特征组合算法可用于遍历地产生各种候选组合特征,组合特征生成单元30基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。
这里,上述组合特征可通过执行一个与自动特征组合算法对应的处理流程来获得。作为示例,可将自动特征组合算法设计为一独立个体算子,在使用自动特征组合算法进行特征组合时,执行一个与自动特征组合算法对应的处理流程相当于以独立个体算子进行使用,以获得相应的组合特征。
为进一步提升特征组合的效率和效果,在本发明一优选实施例中还可以通过并行地执行多个与自动特征组合算法对应的处理流程来得到至少一个组合特征。
在此情况下,自动特征组合配置单元20将自动特征组合步骤配置为:基于特征抽取处理结果,并行地执行多个与自动特征组合算法对应的处理流程来得到至少一个组合特征。
例如,基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。
当并行地执行多个与自动特征组合算法对应的处理流程时,其获得的组合特征可能存在重复,针对这种情况,自动特征组合配置单元20还可将自动特征组合步骤配置为:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为至少一个组合特征。
作为示例,特征抽取步骤可对应于表示机器学习过程的有向无环图中的特征抽取节点,自动特征组合步骤可对应于上述有向无环图中的自动特征组合节点。
例如,可利用自动特征组合节点的配置项来配置自动特征组合步骤。作为示例,自动特征组合节点的配置项可包括关于是否开启关键特征筛选功能的选项开关。在关于是否开启关键特征筛选功能的选项开关被用户开启的情况下,自动特征组合步骤被配置为可包括:从特征抽取处理结果中筛选出多个关键单位特征;以及利用自动特征组合算法从多个关键单位特征得到至少一个组合特征。
优选地,自动特征组合节点的配置项可还包括与并行地执行多个与自动特征组合算法对应的处理流程相关的并行运算配置项。作为示例,并行运算配置项可涉及以下项之中的至少一项:并行执行的处理流程的数量、每个处理流程对应的自动特征组合算法中训练机器学习模型时的超参数。除此之外,并行运算配置项可还涉及以下项之中的至少一项:数据集的子集数量、每个子集对应的数据记录抽取规则。
优选地,并行运算配置项可具有默认配置值和/或手动配置值。涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练的机器学习模型具有实质性差异。例如,涉及超参数的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数具有差异。
在一优选实施例中,超参数可包括学习率,并且,涉及学习率的并行运算配置项的默认配置值可使得不同处理流程对应的自动特征组合算法中训练机器学习模型的超参数呈现阶梯型递增的趋势。应理解,本发明不限于此,各超参数也可以呈现阶梯型递减变化、或者也可以随机变化。
作为示例,自动特征组合节点的配置项可还包括关于是否开启去重功能的选项开关。在关于是否开启去重功能的选项开关被用户开启的情况下,自动特征组合步骤被配置为可还包括:对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
根据本发明示例性实施例的自动生成组合特征的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的自动生成组合特征的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种用于自动生成组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个处理器执行以下方法步骤的计算机程序:配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1和图2进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的自动生成组合特征的系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的自动生成组合特征的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种自动生成组合特征的方法,包括:
配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;
配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及
运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
2.如权利要求1所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:
从特征抽取处理结果中筛选出多个关键单位特征;以及
利用自动特征组合算法从所述多个关键单位特征得到至少一个组合特征,其中,每个组合特征由所述多个关键单位特征之中对应的部分关键单位特征组合而成。
3.如权利要求2所述的方法,其特征在于,根据特征重要性、特征关联性和/或特征填充率从特征抽取处理结果中筛选出多个关键单位特征。
4.如权利要求1所述的方法,其特征在于,所述自动特征组合算法用于遍历地产生各种候选组合特征,基于机器学习模型的效果来衡量每种候选组合特征的重要性,将重要性高的至少一个候选组合特征确定为组合特征。
5.如权利要求1所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:
基于特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到所述至少一个组合特征。
6.如权利要求1或5所述的方法,其特征在于,所述自动特征组合步骤被配置为包括:
基于与数据集的每个子集对应的特征抽取处理结果,并行地执行多个与所述自动特征组合算法对应的处理流程来得到与每个子集对应的组合特征。
7.如权利要求6所述的方法,其特征在于,所述自动特征组合步骤被配置为还包括:
对与所有子集对应的组合特征进行去重处理,将去重处理后得到的组合特征作为所述至少一个组合特征。
8.一种自动生成组合特征的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:
配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;
配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;
运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
9.一种自动生成组合特征的系统,包括:
特征抽取配置单元,配置特征抽取步骤,其中,所述特征抽取步骤用于针对输入的数据集中的各个数据记录的属性字段,按照多个单位特征进行特征抽取处理;
自动特征组合配置单元,配置自动特征组合步骤,其中,所述自动特征组合步骤用于基于特征抽取处理结果,利用自动特征组合算法来得到至少一个组合特征;以及
组合特征生成单元,运行配置的特征抽取步骤和自动特征组合步骤,将得到的所述至少一个组合特征作为自动生成的组合特征。
10.一种自动生成组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于由一个或多个处理器执行如权利要求1到7中的任一权利要求所述的方法的计算机程序。
CN201811137251.9A 2018-09-28 2018-09-28 自动生成组合特征的方法及系统 Pending CN109242040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811137251.9A CN109242040A (zh) 2018-09-28 2018-09-28 自动生成组合特征的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811137251.9A CN109242040A (zh) 2018-09-28 2018-09-28 自动生成组合特征的方法及系统

Publications (1)

Publication Number Publication Date
CN109242040A true CN109242040A (zh) 2019-01-18

Family

ID=65057748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811137251.9A Pending CN109242040A (zh) 2018-09-28 2018-09-28 自动生成组合特征的方法及系统

Country Status (1)

Country Link
CN (1) CN109242040A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956272A (zh) * 2019-11-01 2020-04-03 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN111625692A (zh) * 2020-05-27 2020-09-04 北京字节跳动网络技术有限公司 特征抽取方法、装置、电子设备和计算机可读介质
CN112003731A (zh) * 2020-07-27 2020-11-27 新华三技术有限公司 配置方法及装置
CN112926611A (zh) * 2019-12-06 2021-06-08 京东数字科技控股有限公司 特征提取方法、装置及计算机可读存储介质
WO2021208685A1 (zh) * 2020-04-17 2021-10-21 第四范式(北京)技术有限公司 执行自动机器学习过程的方法、装置及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956272A (zh) * 2019-11-01 2020-04-03 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN110956272B (zh) * 2019-11-01 2023-08-08 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN112926611A (zh) * 2019-12-06 2021-06-08 京东数字科技控股有限公司 特征提取方法、装置及计算机可读存储介质
WO2021208685A1 (zh) * 2020-04-17 2021-10-21 第四范式(北京)技术有限公司 执行自动机器学习过程的方法、装置及设备
CN111625692A (zh) * 2020-05-27 2020-09-04 北京字节跳动网络技术有限公司 特征抽取方法、装置、电子设备和计算机可读介质
CN111625692B (zh) * 2020-05-27 2023-08-22 抖音视界有限公司 特征抽取方法、装置、电子设备和计算机可读介质
CN112003731A (zh) * 2020-07-27 2020-11-27 新华三技术有限公司 配置方法及装置
CN112003731B (zh) * 2020-07-27 2022-07-12 新华三技术有限公司 配置方法及装置

Similar Documents

Publication Publication Date Title
CN106779088B (zh) 执行机器学习流程的方法及系统
Mazumder et al. Dataperf: Benchmarks for data-centric ai development
CN109242040A (zh) 自动生成组合特征的方法及系统
CN107045503B (zh) 一种特征集确定的方法及装置
US8935191B2 (en) Reuse of on-demand enterprise system customization knowledge utilizing collective experience
CN108090570A (zh) 用于选择机器学习样本的特征的方法及系统
WO2021109928A1 (zh) 机器学习方案模板的创建方法、使用方法及装置
CN108021984A (zh) 确定机器学习样本的特征重要性的方法及系统
CN108108820A (zh) 用于选择机器学习样本的特征的方法及系统
CN107729915A (zh) 用于确定机器学习样本的重要特征的方法及系统
Ogiela Towards cognitive economy
CN107316082A (zh) 用于确定机器学习样本的特征重要性的方法及系统
CN108228861A (zh) 用于执行机器学习的特征工程的方法及系统
EP4024203A1 (en) System performance optimization
CN107578140A (zh) 引导分析系统和方法
CN110659985A (zh) 一种捞回误拒潜在用户的方法、装置和电子设备
CN107273979A (zh) 基于服务级别来执行机器学习预测的方法及系统
CN112070310A (zh) 基于人工智能的流失用户预测方法、装置及电子设备
Agostinelli et al. Reactive synthesis of software robots in RPA from user interface logs
CN111179051A (zh) 金融目标客户确定方法、装置及电子设备
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机系统
Klosterman Data Science Projects with Python: A case study approach to successful data science projects using Python, pandas, and scikit-learn
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
Kumar et al. Machine learning based predictive modeling to effectively implement DevOps practices in software organizations
CN108898229A (zh) 用于构建机器学习建模过程的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination