CN111797998A - 生成机器学习样本的组合特征的方法及系统 - Google Patents

生成机器学习样本的组合特征的方法及系统 Download PDF

Info

Publication number
CN111797998A
CN111797998A CN202010658034.5A CN202010658034A CN111797998A CN 111797998 A CN111797998 A CN 111797998A CN 202010658034 A CN202010658034 A CN 202010658034A CN 111797998 A CN111797998 A CN 111797998A
Authority
CN
China
Prior art keywords
features
combined
feature
machine learning
configuration item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010658034.5A
Other languages
English (en)
Inventor
戴文渊
杨强
陈雨强
张舒羽
栾淑君
孙迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010658034.5A priority Critical patent/CN111797998A/zh
Publication of CN111797998A publication Critical patent/CN111797998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

提供一种生成机器学习样本的组合特征的方法及系统。所述方法包括:(A)获取能够进行组合的单位特征;(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。根据所述方法及系统,用户只需通过交互界面来设置用于限定如何进行特征组合的相关配置项,即可实现自动特征组合,既提升了用户体验,也提升了机器学习模型的效果。

Description

生成机器学习样本的组合特征的方法及系统
本申请是申请日为2017年09月28日、申请号为201710898898.2、题为“生成机器学习样本的组合特征的方法及系统”的专利申请的分案申请。
技术领域
本发明总体说来涉及人工智能领域,更具体地讲,涉及一种生成机器学习样本的组合特征的方法及系统。
背景技术
现阶段,训练机器学习模型的基本过程主要包括:
1、导入包含历史数据记录的数据集(例如,数据表);
2、完成特征工程,其中,通过对数据集中的数据记录的属性信息进行各种处理,以得到各个特征(例如,可包括组合特征),这些特征构成的特征向量可作为机器学习样本;
3、训练模型,其中,按照设置的机器学习算法(例如,逻辑回归算法、决策树算法、神经网络算法等),基于经过特征工程所得到的机器学习样本来学习出模型。
在上述过程中,产生特征的处理很重要,它会影响模型的优劣。数据表中每条数据记录可包括多个属性信息(即,字段),而特征可指示各字段本身、或字段的局部、或字段的组合等各种字段处理(或运算)结果,以便更好地反映数据分布以及字段间的内在关联与潜在含义。以数据挖掘领域作为示例,在准确提取特征的基础上,特征之间还可进行不同的组合来帮助学习过程更好地提炼数据规律,从多个角度透析数据分布中的内在关联与潜在涵义。特征工程质量好坏直接决定了机器学习问题刻画的准确性,进而影响模型的优劣。
在现有的机器学习平台上,可采用基于图形界面的交互方式来完成机器学习模型训练流程,而不需要用户亲自编写程序代码。然而,在特征工程环节,却往往是将人为设定的特征组合方式手动地输入到平台系统中。也就是说,用户需要预先获取特定的特征组合方式,而无法借助平台来有效地实现自动特征组合。
并且,为了预先获取特征组合方式,用户需要对业务场景有深刻理解,即,用户凭借业务经验来手动地对特征进行组合,并且一般在机器学习过程中,所使用数据的数据量都比较大,用户有时不能全面地分析数据,导致制定一些无效的组合特征,为了提高组合特征的效果,用户需要进行不断的尝试,面对大数据量和高维特征时,这样的工作需要花费较长的时间。这种情况下不仅增加了工作量,还降低了工作效率。
发明内容
本发明的示例性实施例在于提供一种生成机器学习样本的组合特征的方法及系统,以解决现有技术存在的不能便捷地在机器学习系统中进行自动特征组合的问题。
根据本发明的示例性实施例,提供一种生成机器学习样本的组合特征的方法,包括:(A)获取能够进行组合的单位特征;(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
可选地,特征组合配置项包括以下项之中的至少一项:特征配置项,用于指定单位特征之中的待组合特征,使得在步骤(D)中对指定的待组合特征进行组合;评价指标配置项,用于指定组合特征的评价指标,使得在步骤(D)中按照指定的评价指标来衡量与各种组合特征相应的机器学习模型的效果以确定待组合特征的组合方式;训练参数配置项,用于指定机器学习模型的训练参数,使得在步骤(D)中通过衡量在指定的训练参数下得到的与各种组合特征相应的机器学习模型的效果来确定待组合特征的组合方式。
可选地,特征组合配置项还包括:分桶运算配置项,用于指定将对待组合特征之中的至少一个连续特征分别执行的一种或多种分桶运算,使得在步骤(D)中对所述至少一个连续特征分别执行指定的一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征作为整体与其他待组合特征进行组合。
可选地,所述分桶运算配置项用于分别针对每一个连续特征指定一种或多种分桶运算;或者,所述分桶运算配置项用于针对所有连续特征统一指定一种或多种分桶运算。
可选地,所述方法还包括:(E)向用户显示生成的组合特征。
可选地,在步骤(E)中,还向用户显示每个组合特征关于评价指标的评价值。
可选地,所述方法还包括:(F)直接将生成的组合特征应用于后续的机器学习步骤。
可选地,所述方法还包括:(G)将用户从显示的组合特征中选出的组合特征应用于后续的机器学习步骤。
可选地,所述方法还包括:(H)将在步骤(D)中生成的组合特征的组合方式以配置文件的形式进行保存。
可选地,所述方法还包括:(I)将用户在步骤(G)中选出的组合特征的组合方式以配置文件的形式进行保存。
可选地,在步骤(A)中,通过对数据记录的属性信息进行特征处理来得到单位特征。
根据本发明的另一示例性实施例,提供一种生成机器学习样本的组合特征的系统,包括:单位特征获取装置,用于获取能够进行组合的单位特征;显示装置,用于向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;配置项获取装置,用于接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及组合特征生成装置,用于基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
可选地,特征组合配置项包括以下项之中的至少一项:特征配置项,用于指定单位特征之中的待组合特征,使得组合特征生成装置对指定的待组合特征进行组合;评价指标配置项,用于指定组合特征的评价指标,使得组合特征生成装置按照指定的评价指标来衡量与各种组合特征相应的机器学习模型的效果以确定待组合特征的组合方式;训练参数配置项,用于指定机器学习模型的训练参数,使得组合特征生成装置通过衡量在指定的训练参数下得到的与各种组合特征相应的机器学习模型的效果来确定待组合特征的组合方式。
可选地,特征组合配置项还包括:分桶运算配置项,用于指定将对待组合特征之中的至少一个连续特征分别执行的一种或多种分桶运算,使得组合特征生成装置对所述至少一个连续特征分别执行指定的一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征作为整体与其他待组合特征进行组合。
可选地,所述分桶运算配置项用于分别针对每一个连续特征指定一种或多种分桶运算;或者,所述分桶运算配置项用于针对所有连续特征统一指定一种或多种分桶运算。
可选地,显示装置还向用户显示生成的组合特征。
可选地,显示装置还向用户显示生成的每个组合特征关于评价指标的评价值。
可选地,所述系统还包括:应用装置,用于直接将生成的组合特征应用于后续的机器学习步骤。
可选地,所述系统还包括:应用装置,用于将用户从显示的组合特征中选出的组合特征应用于后续的机器学习步骤。
可选地,所述系统还包括:保存装置,用于将组合特征生成装置生成的组合特征的组合方式以配置文件的形式进行保存。
可选地,所述系统还包括:保存装置,用于将用户从显示的组合特征中选出的组合特征的组合方式以配置文件的形式进行保存。
可选地,单位特征获取装置通过对数据记录的属性信息进行特征处理来得到单位特征。
根据本发明的另一示例性实施例,提供一种用于生成机器学习样本的组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如上所述的生成机器学习样本的组合特征的方法的计算机程序。
根据本发明的另一示例性实施例,提供一种用于生成机器学习样本的组合特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如上所述的生成机器学习样本的组合特征的方法。
根据本发明示例性实施例的生成机器学习样本的组合特征的方法及系统,提供了一种便捷高效且交互友好的特征组合过程,用户只需通过交互界面来设置用于限定如何进行特征组合的相关配置项,即可实现自动特征组合,既提升了用户体验,也提升了机器学习模型的效果。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的生成机器学习样本的组合特征的方法的流程图;
图2示出根据本发明的另一示例性实施例的生成机器学习样本的组合特征的方法的流程图;
图3示出根据本发明示例性实施例的用于设置特征组合配置项的图形界面的示例;
图4示出根据本发明示例性实施例的特征组合分析报告的示例;
图5示出根据本发明示例性实施例的用于生成机器学习样本的组合特征的DAG图的示例;
图6示出根据本发明示例性实施例的生成机器学习样本的组合特征的系统的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
这里,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外,还应注意,在训练和应用模型的过程中,还可结合统计算法等其他手段。
图1示出根据本发明示例性实施例的生成机器学习样本的组合特征的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的生成机器学习样本的组合特征的系统或计算装置来执行。
在步骤S10中,获取能够进行组合的单位特征。这里,所述单位特征是能够进行特征组合的最小单位。
作为示例,可通过对数据记录的属性信息进行特征处理来得到单位特征。这里,每条数据记录可被看作关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的属性信息(即,字段)。作为示例,上述特征处理可以是任何适合的特征处理方式,例如,可对字段的取值截取一部分,或者可对所述取值进行离散化、取对数等各种算术运算,也可以是不同字段之间的组合,本发明对此不作限制。所得到的单位特征可指示字段本身、或字段的局部、或字段的组合等各种字段处理或运算结果。
在步骤S20中,向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合。根据本发明的示例性实施例,单位特征之间的组合可基于用户设置的特征组合配置项来执行。具体说来,可训练与单位特征之间的候选组合特征相应的机器学习模型,并基于机器学习模型之间的效果差异来反映各个候选组合特征的预测力大小,进而筛选出较为重要或有作用的候选组合特征作为机器学习样本的组合特征。作为示例,用户可通过图形界面来设置上述流程所涉及的特征组合配置项,还可设置其他相关的特征组合配置项。
在步骤S30中,接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项。
作为示例,向用户提供的图形界面可包括每个特征组合配置项对应的输入控件以选择和/或编辑内容,从而可通过接收用户的选择操作和/或编辑操作来获取用户所设置的特征组合配置项。
在步骤S40中,基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
作为示例,特征组合配置项可包括以下项之中的至少一项:特征配置项、评价指标配置项、训练参数配置项、分桶运算配置项。应该理解,特征组合配置项也可包括其他的用于限定如何在单位特征之间进行特征组合的配置项。
具体说来,特征配置项用于指定单位特征之中的待组合特征,使得在步骤S40中对指定的待组合特征进行组合。作为示例,可通过特征配置项将在步骤S10中获取的全部或部分单位特征指定为待组合特征。具体说来,特征配置项可用于帮助用户确认是否将全部的单位特征用作待组合特征,也可用于帮助用户具体地指定每一个待组合特征。
评价指标配置项用于指定组合特征的评价指标,使得在步骤S40中按照指定的评价指标来衡量与各种组合特征相应的机器学习模型的效果以确定待组合特征的组合方式。这里,作为示例,与特定组合特征相应的机器学习模型可指示该机器学习模型的样本包括所述特定组合特征。
如上所述,根据本发明的示例性实施例,在进行单位特征的组合时,可通过衡量与组合特征相应的机器学习模型的效果来确定是否采用该组合特征。这里,所设置的评价指标可用于衡量与各种组合特征相应的机器学习模型的效果,如果某机器学习模型的评价指标越高,则与该机器学习模型相应的组合特征越容易被确定为机器学习样本的组合特征。作为示例,所述评价指标可以是各种用于衡量机器学习模型的效果的模型评价指标。例如,所述评价指标可以是AUC(ROC(受试者工作特征,Receiver Operating Characteristic)曲线下的面积,Area Under ROC Curve)、MAE(平均绝对误差,Mean Absolute Error)或对数损失函数(logloss)等。
训练参数配置项用于指定机器学习模型的训练参数,使得在步骤S40中通过衡量在指定的训练参数下得到的与各种组合特征相应的机器学习模型的效果来确定待组合特征的组合方式。
作为示例,训练参数配置项可包括一个或多个不同训练参数的配置项。例如,训练参数配合项可包括学习率配置项和/或调参次数配置项等。
然而,应注意,以上示例仅用于例示和解释本发明的示例性实施例,而本发明的示例性实施例并不必然需要用户来配置上述项目,例如,可直接默认将所有经过特征处理产生的单位特征用作待组合特征,或者,可将预先设置好的评价指标用来衡量机器学习模型,或者,可在默认的训练参数下进行模型训练。
此外,特征组合配置项还可包括分桶运算配置项,其用于指定将对待组合特征之中的至少一个连续特征分别执行的一种或多种分桶(binning)运算,使得在步骤S40中对所述至少一个连续特征分别执行指定的一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征作为整体与其他待组合特征进行组合。作为示例,所述分桶运算配置项可用于分别针对每一个连续特征指定一种或多种分桶运算。作为另一示例,所述分桶运算配置项可用于针对所有连续特征统一指定一种或多种分桶运算。
这里,对于每一个连续特征而言,对其执行的每种分桶运算可产生一个分桶特征,相应的,由所有分桶特征组成的特征可代替原始的连续特征而参与待组合特征之间的自动组合。作为示例,可通过分桶运算配置项指定将对待组合特征之中的每一个连续特征分别执行多种分桶运算,使得在步骤S40中对所述每一个连续特征分别执行指定的多种分桶运算以得到相应的多个分桶特征。
具体说来,连续特征是与离散特征(例如,类别特征)相对的一种特征,其取值可以是具有一定连续性的数值,例如,年龄、金额等。相对地,作为示例,离散特征的取值不具有连续性,例如,可以是“来自北京”、“来自上海”或“来自天津”、“性别为男”、“性别为女”等无序分类的特征。相应地,分桶运算是指将连续特征进行分散化的一种特定方式,即,将连续特征的值域划分为多个区间(即,多个桶),并基于划分的桶来确定相应的分桶特征值。也就是说,根据本发明的示例性实施例,针对每一个连续特征,在通过执行至少一种分桶运算而得到了相应的至少一个分桶特征之后,可通过将每一个分桶特征作为一个组成元素而得到与连续特征对应的特征,该特征可看做分桶特征的集合,与连续特征和/或离散特征进行组合。这里,应理解,分桶运算的执行使得连续特征被分散化地置入相应的特定桶中,在转换后的多个分桶特征中,每个维度既可以指示桶中是否被分配了连续特征的离散值(例如,“0”或“1”),也可以指示具体的连续数值(例如,连续特征的实际特征值或其归一化值、所述桶中各连续特征的平均值、中间值、边界值等)。相应地,在机器学习中具体应用各个维度的离散值(例如,针对分类问题)或连续数值(例如,针对回归问题)时,可进行离散值之间的组合(例如,笛卡尔积等)或连续数值之间的组合(例如,算术运算组合等)。
作为示例,分桶运算配置项可进一步包括分桶方式配置项和/或分桶参数配置项。分桶方式配置项用于指定分桶运算所使用的分桶方式。分桶参数配置项用于指定分桶方式的分桶参数。例如,可通过分桶方式配置项指定等宽分桶方式或等深分桶方式,可通过分桶参数配置项指定桶数量、或桶宽度、或桶深度等。这里,用户可手动输入或选择分桶参数配置项的数值,特别地,可提示用户按照等比或等差关系来设置等宽/等深分桶的各个宽度/深度。
这里,作为示例,分桶运算配置项所指定的多种分桶运算可以是分桶方式相同但具有不同分桶参数(例如,桶数量、桶深度、桶宽度等)的分桶运算,也可以是不同分桶方式的分桶运算。作为示例,对连续特征执行指定的多种分桶运算所得到相应的特征可由对该连续特征分别执行每种分桶运算所得到的特征共同组成,从而得到的与连续特征相应的特征能够同时从不同的角度、尺度/层面来刻画原始数据记录的某些属性。
应该理解,以上基于配置项来生成组合特征的方式仅仅是作为示例而起到解释和说明作用,本发明的示例性实施例并不受限于上述示例。
作为示例,在基于特征组合配置项生成了机器学习样本的组合特征之后,根据本发明示例性实施例的生成机器学习样本的组合特征的方法还可包括:直接将生成的组合特征应用于后续的机器学习步骤。例如,可基于至少包括生成的组合特征的机器学习样本来学习出模型。
作为示例,根据本发明示例性实施例的生成机器学习样本的组合特征的方法还可包括:将生成的组合特征的组合方式以配置文件的形式进行保存,以便在执行后续的机器学习步骤时可根据用户需求直接调用,或者在进行其他机器学习流程时可根据用户需求直接调用。
图2示出根据本发明的另一示例性实施例的生成机器学习样本的组合特征的方法的流程图。如图2所示,根据本发明的另一示例性实施例的生成机器学习样本的组合特征的方法除包括图1所示的步骤S10、步骤S20、步骤S30和步骤S40之外,还可包括步骤S50。步骤S10、步骤S20、步骤S30和步骤S40可参照根据图1描述的具体实施方式来实现,在此不再赘述。
在步骤S50中,向用户显示在步骤S40中生成的组合特征。这里,可按照任何有效的形式来显示组合特征的具体组合方式。
作为示例,还向用户显示每个组合特征关于评价指标的评价值。这里,所述评价指标可以是用户设置的评价指标配置项所指定的评价指标,也可以是其他任意评价指标。
作为示例,根据本发明的另一示例性实施例的生成机器学习样本的组合特征的方法还可包括:将用户从显示的组合特征中选出的组合特征应用于后续的机器学习步骤。
作为另一示例,根据本发明的另一示例性实施例的生成机器学习样本的组合特征的方法还可包括:将用户选出的组合特征的组合方式以配置文件的形式进行保存,以便在执行后续的机器学习步骤时可根据用户需求直接调用,或者在进行其他机器学习流程时可根据用户需求直接调用。
作为示例,根据本发明的另一示例性实施例的生成机器学习样本的组合特征的方法还可包括:将用户从显示的组合特征中选出的组合特征应用于后续的机器学习步骤,并将选出的组合特征的组合方式以配置文件的形式进行保存。
下面结合图3来描述根据本发明示例性实施例的由用户通过图像界面来设置特征组合配置项的示例。图3示出根据本发明示例性实施例的用于设置特征组合配置项的图形界面的示例。应理解,本发明的示例性实施例在设置各个特征组合配置项时的具体交互细节不限于图3所示的示例。
如图3所示,用于设置特征组合配置项的图形界面可显示分别与特征配置项、评价指标配置项、训练参数配置项以及分桶运算配置项对应的内容选项和/或内容输入框。具体说来,可根据用户选中“选择全部特征”选项的输入操作来设置特征配置项,使得在步骤S10中获取的单位特征全部指定为待组合特征;或者,可根据用户选中“自定义”选项的输入操作,弹出用于自定义待组合特征的用户界面,以由用户从该用户界面所提供的候选单位特征(例如,步骤S10中获取的全部单位特征)中选出待组合特征,或者,由用户输入待组合特征的标识信息来完成对特征配置项的设置。可根据用户在下拉菜单中的选择操作来设置评价指标配置项,使得用户选择的内容(例如,如图3所示的“AUC”)被指定为评价指标。用户可通过对内容输入框(例如,如图3所示的学习率配置项)对应的编辑操作(例如,如图3所示输入数值“0.5”)来实现对训练参数配置项的设置。用户可通过对分桶运算配置项(例如,如图3所示的分桶参数配置项(桶数量配置项))对应的内容输入框的编辑操作(例如,如图3所示输入数值“10/100/1000/10000/100000”)来实现对分桶运算配置项的设置,也即用户设置的分桶运算配置项指定对待组合特征之中的每个连续特征分别执行五种分桶运算,其中,第一种分桶运算对应的桶数量为“10”、第二种分桶运算对应的桶数量为“100”,…,第五种分桶运算对应的桶数量为“100000”,这里,分桶运算方式可以默认为等宽分桶。
下面结合图4来描述根据本发明示例性实施例的向用户显示生成的组合特征的示例。在图4的示例中,组合特征被显示为特征组合分析报告的形式。
如图4所示,上面的表左侧显示的是在步骤S10获取的单位特征,以“输出特征名=处理方法(原属性信息的字段名)”的形式进行显示,例如,discrete_feature_1729_0=discrete(cons_price_idx)表示离散取值的字段cons_price_idx作为单位特征discrete_feature_1729_0;下面的表左侧显示的是在步骤S40生成的组合特征,以“输出特征名=处理方法(combine(原特征名1,原特征名2,原特征名3…))的形式进行显示,例如,discrete_feature_1729_23=discrete(combine(default,month))表示将特征default和month组合得到的离散特征为新的组合特征discrete_feature_1729_23。两个表中右侧显示的是每个特征关于评价指标的评价值。作为示例,上面的表可不显示,而仅显示下面的表。
进一步地,作为示例,用户可从图4示出的特征组合分析报告中选出组合特征,以应用于后续的机器学习步骤和/或以配置文件的形式进行保存。
根据本发明的示例性实施例,可通过有向无环图(DAG图)的形式来执行机器学习流程,该机器学习流程可涵盖用于进行机器学习模型训练、测试或预估的全部或部分步骤。例如,可针对特征自动组合来建立包括历史数据导入步骤、数据拆分步骤、特征抽取步骤、自动特征组合步骤的DAG图。也即,上述各个步骤可作为DAG图中的节点而被执行。
图5示出根据本发明示例性实施例的用于生成机器学习样本的组合特征的DAG图的示例。
参照图5,第一步:建立数据导入节点。例如,如图5所示,可响应于用户操作对数据导入节点进行设置以将名称为“bank”的银行业务数据表导入机器学习平台中,其中,该数据表中可包含多条历史数据记录。
第二步:建立数据拆分节点,并将数据导入节点连接到数据拆分节点,以将上述导入的数据表拆分为训练集和验证集,其中,训练集中的数据记录用于转换为机器学习样本以学习出模型,而验证集中的数据记录用于转换为测试样本以验证学习出的模型的效果。可响应于用户操作对数据拆分节点进行设置以按照设置的方式将上述导入的数据表拆分为训练集和验证集。
第三步:建立两个特征抽取节点,并将数据拆分节点分别连接特到这两个特征抽取节点,以对数据拆分节点输出的训练集和验证集分别进行特征抽取,例如,默认数据拆分节点左侧输出的是训练集,右侧输出的是验证集。可基于用户在特征抽取节点中设置的特征配置或编写的代码对训练集和验证集进行特征抽取。应理解,对于机器学习样本和测试样本而言,两者的特征抽取方式是对应一致的。用户可将对左侧特征抽取节点配置的特征抽取方式直接应用于对右侧特征抽取节点的特征抽取,或者,平台可将二者设为自动同步设置。
第四步:建立自动特征组合节点,并将两个特征抽取节点分别连接到自动特征组合节点。可响应于用户操作对自动特征组合节点进行设置,例如,当接收到用户点击“自动特征组合”节点的操作时,可向用户提供如图3所示的用于设置特征组合配置项的图形界面,以便于用户通过所述图形界面来设置特征组合配置项。
在建立包括上述步骤的DAG图之后,可根据用户的指示来运行整个DAG图。在运行过程中,机器学习平台会根据用户设置的配置项来自动生成机器学习样本的组合特征,并输出相应的组合特征。
此外,作为示例,在自动特征组合节点之后,也可建立模型训练节点,并将自动特征组合节点连接到模型训练节点,以将抽取的特征和生成的组合特征直接应用于后续的模型训练。相应地,可响应于用户操作对模型训练节点进行设置以按照设置的方式来基于机器学习样本训练模型。从而在运行整个DAG图时,即可根据用户设置的配置项直接学习出机器学习模型。
图6示出根据本发明示例性实施例的生成机器学习样本的组合特征的系统的框图。如图6所示,根据本发明示例性实施例的生成机器学习样本的组合特征的系统包括:单位特征获取装置10、显示装置20、配置项获取装置30、组合特征生成装置40。
单位特征获取装置10用于获取能够进行组合的单位特征。
作为示例,单位特征获取装置10可通过对数据记录的属性信息进行特征处理来得到单位特征。
显示装置20用于向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合。
配置项获取装置30用于接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项。
组合特征生成装置40用于基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
可选地,特征组合配置项可包括以下项之中的至少一项:特征配置项、评价指标配置项、训练参数配置项、分桶运算配置项。
具体说来,特征配置项用于指定单位特征之中的待组合特征,使得组合特征生成装置40对指定的待组合特征进行组合。
评价指标配置项用于指定组合特征的评价指标,使得组合特征生成装置40按照指定的评价指标来衡量与各种组合特征相应的机器学习模型的效果以确定待组合特征的组合方式。
训练参数配置项用于指定机器学习模型的训练参数,使得组合特征生成装置40通过衡量在指定的训练参数下得到的与各种组合特征相应的机器学习模型的效果来确定待组合特征的组合方式。
分桶运算配置项用于指定将对待组合特征之中的至少一个连续特征分别执行的一种或多种分桶运算,使得组合特征生成装置40对所述至少一个连续特征分别执行指定的一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征作为整体与其他待组合特征进行组合。
作为示例,所述分桶运算配置项可用于分别针对每一个连续特征指定一种或多种分桶运算。作为另一示例,所述分桶运算配置项可用于针对所有连续特征统一指定一种或多种分桶运算。
作为示例,显示装置20还可向用户显示组合特征生成装置40生成的组合特征。进一步地,作为示例,显示装置20还可向用户显示组合特征生成装置40生成的每个组合特征关于评价指标的评价值。
作为示例,根据本发明示例性实施例的生成机器学习样本的组合特征的系统还可包括:应用装置(未示出)。
应用装置用于直接将组合特征生成装置40生成的组合特征应用于后续的机器学习步骤,或者,将用户从显示装置20显示的组合特征中选出的组合特征应用于后续的机器学习步骤。
作为示例,根据本发明示例性实施例的生成机器学习样本的组合特征的系统还可包括:保存装置(未示出)。
保存装置用于将组合特征生成装置40生成的组合特征的组合方式以配置文件的形式进行保存,或者,将用户从显示装置20显示的组合特征中选出的组合特征的组合方式以配置文件的形式进行保存。
应该理解,根据本发明示例性实施例的生成机器学习样本的组合特征的系统的具体实现方式可参照结合图1到图5描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的生成机器学习样本的组合特征的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的生成机器学习样本的组合特征的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种用于生成机器学习样本的组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)获取能够进行组合的单位特征;(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1到图5进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的生成机器学习样本的组合特征的系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的生成机器学习样本的组合特征的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行生成机器学习样本的组合特征的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的生成机器学习样本的组合特征的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的生成机器学习样本的组合特征的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的用于生成机器学习样本的组合特征的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取能够进行组合的单位特征;(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种生成机器学习样本的组合特征的方法,包括:
(A)获取能够进行组合的单位特征;
(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;
(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及
(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
2.根据权利要求1所述的方法,其中,特征组合配置项包括以下项之中的至少一项:特征配置项,用于指定单位特征之中的待组合特征,使得在步骤(D)中对指定的待组合特征进行组合;评价指标配置项,用于指定组合特征的评价指标,使得在步骤(D)中按照指定的评价指标来衡量与各种组合特征相应的机器学习模型的效果以确定待组合特征的组合方式;训练参数配置项,用于指定机器学习模型的训练参数,使得在步骤(D)中通过衡量在指定的训练参数下得到的与各种组合特征相应的机器学习模型的效果来确定待组合特征的组合方式。
3.根据权利要求2所述的方法,其中,特征组合配置项还包括:分桶运算配置项,用于指定将对待组合特征之中的至少一个连续特征分别执行的一种或多种分桶运算,使得在步骤(D)中对所述至少一个连续特征分别执行指定的一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征作为整体与其他待组合特征进行组合。
4.根据权利要求3所述的方法,其中,所述分桶运算配置项用于分别针对每一个连续特征指定一种或多种分桶运算;或者,所述分桶运算配置项用于针对所有连续特征统一指定一种或多种分桶运算。
5.根据权利要求1所述的方法,还包括:
(E)向用户显示生成的组合特征。
6.根据权利要求5所述的方法,其中,在步骤(E)中,还向用户显示每个组合特征关于评价指标的评价值。
7.根据权利要求1所述的方法,还包括:
(F)直接将生成的组合特征应用于后续的机器学习步骤。
8.一种生成机器学习样本的组合特征的系统,包括:
单位特征获取装置,用于获取能够进行组合的单位特征;
显示装置,用于向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;
配置项获取装置,用于接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及
组合特征生成装置,用于基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。
9.一种用于生成机器学习样本的组合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如权利要求1至7任一所述的生成机器学习样本的组合特征的方法的计算机程序。
10.一种用于生成机器学习样本的组合特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如权利要求1至7任一所述的生成机器学习样本的组合特征的方法。
CN202010658034.5A 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统 Pending CN111797998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010658034.5A CN111797998A (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710898898.2A CN107766946B (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统
CN202010658034.5A CN111797998A (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201710898898.2A Division CN107766946B (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统

Publications (1)

Publication Number Publication Date
CN111797998A true CN111797998A (zh) 2020-10-20

Family

ID=61267329

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010658034.5A Pending CN111797998A (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统
CN201710898898.2A Active CN107766946B (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710898898.2A Active CN107766946B (zh) 2017-09-28 2017-09-28 生成机器学习样本的组合特征的方法及系统

Country Status (1)

Country Link
CN (2) CN111797998A (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710949A (zh) * 2018-04-26 2018-10-26 第四范式(北京)技术有限公司 用于创建机器学习建模模板的方法及系统
CN112130723B (zh) * 2018-05-25 2023-04-18 第四范式(北京)技术有限公司 用于针对数据执行特征处理的方法及系统
CN108985459A (zh) * 2018-05-30 2018-12-11 华为技术有限公司 训练模型的方法和装置
CN110895718A (zh) * 2018-09-07 2020-03-20 第四范式(北京)技术有限公司 用于训练机器学习模型的方法及系统
CN109634961B (zh) * 2018-12-05 2021-06-04 杭州大拿科技股份有限公司 一种试卷样本生成方法、装置、电子设备和存储介质
CN109685583B (zh) * 2019-01-10 2020-12-25 博拉网络股份有限公司 一种基于大数据的供应链需求预测方法
CN110956272B (zh) * 2019-11-01 2023-08-08 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN110851500B (zh) * 2019-11-07 2022-10-28 北京集奥聚合科技有限公司 一种用于机器学习建模所需的专家特征维度的生成方法
CN111625692B (zh) * 2020-05-27 2023-08-22 抖音视界有限公司 特征抽取方法、装置、电子设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130322741A1 (en) * 2012-06-05 2013-12-05 DRVision Technologies LLC. Teachable pattern scoring method
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置
CN106127531A (zh) * 2016-07-14 2016-11-16 北京物思创想科技有限公司 基于机器学习来执行差异化定价的方法及系统
CN106779088A (zh) * 2016-12-06 2017-05-31 北京物思创想科技有限公司 执行机器学习流程的方法及系统
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4891197B2 (ja) * 2007-11-01 2012-03-07 キヤノン株式会社 画像処理装置および画像処理方法
CN103353936B (zh) * 2013-07-26 2017-01-11 上海交通大学 人脸识别方法及系统
CN105260171B (zh) * 2015-09-10 2019-01-29 深圳市创梦天地科技有限公司 一种虚拟道具的生成方法及装置
CN107045503B (zh) * 2016-02-05 2019-03-05 华为技术有限公司 一种特征集确定的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130322741A1 (en) * 2012-06-05 2013-12-05 DRVision Technologies LLC. Teachable pattern scoring method
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置
CN106127531A (zh) * 2016-07-14 2016-11-16 北京物思创想科技有限公司 基于机器学习来执行差异化定价的方法及系统
CN106779088A (zh) * 2016-12-06 2017-05-31 北京物思创想科技有限公司 执行机器学习流程的方法及系统
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李婷婷 等: "基于SVM和CRF多特征组合的微博情感分析", 《计算机应用研究》, vol. 32, no. 4, pages 979 - 981 *

Also Published As

Publication number Publication date
CN107766946A (zh) 2018-03-06
CN107766946B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107766946B (zh) 生成机器学习样本的组合特征的方法及系统
WO2019129060A1 (zh) 自动生成机器学习样本的特征的方法及系统
CN107844837B (zh) 针对机器学习算法进行算法参数调优的方法及系统
CN112101562B (zh) 机器学习建模过程的实现方法和系统
US11327935B2 (en) Intelligent data quality
US10671507B2 (en) Application performance analytics platform
CN109670267B (zh) 一种数据处理方法和装置
CN108008942B (zh) 对数据记录进行处理的方法及系统
US20170109323A9 (en) Techniques to perform data reduction for statistical tests
WO2015153681A1 (en) Scalable business process intelligence and predictive analytics for distributed architectures
CN108228861B (zh) 用于执行机器学习的特征工程的方法及系统
CN112990486A (zh) 生成机器学习样本的组合特征的方法及系统
CN107273979B (zh) 基于服务级别来执行机器学习预测的方法及系统
CN110188910A (zh) 利用机器学习模型提供在线预测服务的方法及系统
CN111797927A (zh) 用于确定机器学习样本的重要特征的方法及系统
US20230252274A1 (en) Method of providing neural network model and electronic apparatus for performing the same
CN116882520A (zh) 针对预定预测问题的预测方法及系统
CN114298323A (zh) 生成机器学习样本的组合特征的方法及系统
CN107909141A (zh) 一种基于灰狼优化算法的数据分析方法及装置
CN110895718A (zh) 用于训练机器学习模型的方法及系统
US20210326761A1 (en) Method and System for Uniform Execution of Feature Extraction
CN111078500A (zh) 运行配置参数的调整方法、装置、计算机设备和存储介质
JP2019082874A (ja) 設計支援装置及び設計支援システム
JP2021500639A (ja) 多段階パターン発見およびビジュアル分析推奨のための予測エンジン
KR20210143460A (ko) 특징 추천 장치 및 그것의 특징 추천 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination