CN116235158A

CN116235158A - 实施自动化特征工程的系统和方法

Info

Publication number: CN116235158A
Application number: CN202180064761.1A
Authority: CN
Inventors: J·M·坎特; K·K·维拉马查内尼
Original assignee: Otrex Co ltd
Current assignee: Otrex Co ltd
Priority date: 2020-09-30
Filing date: 2021-09-16
Publication date: 2023-06-06
Also published as: AU2021353828B2; KR20230078764A; AU2021353828A1; CA3191371A1; WO2022072150A1; US20220101190A1; US11941497B2; EP4222651A1; JP2023544011A

Abstract

本发明公开了一种特征工程工具，其自动地生成用于训练机器学习模型的特征组。特征工程工具为数据集选择图元，并基于选择的图元和数据集合成多个特征。特征工程工具将多个特征迭代地应用到数据集的不同部分以评估多个特征的有用性。基于评估，它移除多个特征中的一些特征以获得特征组。特征工程工具也确定组中每个特征的重要性因子。机器学习模型是基于特征及其重要性因子生成的，并且能够用于基于新数据进行预测。

Description

实施自动化特征工程的系统和方法

相关申请的交叉引用

本申请要求于2020年9月30日提交的美国正式专利申请17/039,428号的优先权，其全部内容通过引用并入。

技术领域

所描述的实施例总体上涉及处理数据流，并且具体地涉及对流中的数据执行机器学习有用的工程特征。

背景技术

特征工程是在通常由商业和其他企业分析的复杂数据中识别和提取预测特征的过程。特征是机器学习模型预测准确的关键。因此，特征工程往往是数据分析项目是否成功的决定性因素。特征工程通常是一个耗时的过程。利用当前可用的特征工程工具，必须为每个数据分析项目构建全新的特征工程管道，因为很难重用以前的工作。此外，当前可用的特征工程工具通常需要大量数据以实现良好的预测准确度。因此，当前的特征工程工具无法高效地服务于企业的数据处理需求。

发明内容

上述和其他问题通过用于在数据分析系统中处理数据块的方法、计算机实施的数据分析系统和计算机可读存储器来解决。该方法的一个实施例包括从数据源接收数据集。该方法进一步包括基于接收到的数据集从图元池中选择图元。所选择的图元中的每个图元被配置为应用于数据集的至少一部分以合成一个或多个特征。该方法进一步包括通过将所选择的图元应用于接收到的数据集来合成多个特征。该方法进一步包括迭代地评估多个特征以从多个特征中移除一些特征以获得特征子集。每次迭代包括通过将数据集的不同部分应用于经评估的特征来评估多个特征中的至少一些特征的有用性，并基于经评估的特征的有用性移除经评估的特征中的一些特征以产生特征子集。该方法也包括为特征子集中的每个特征确定重要性因子。该方法也包括基于特征子集和特征子集中的每个特征的重要性因子生成机器学习模型。机器学习模型被配置为用于基于新数据进行预测。

计算机实施的数据分析系统的实施例包括用于执行计算机程序指令的计算机处理器。该系统也包括非暂时性计算机可读存储器，其存储可以由计算机处理器执行的计算机程序指令以执行操作。操作包括从数据源接收数据集。操作还包括基于接收到的数据集从图元池中选择图元。所选择的图元中的每个图元被配置为应用于数据集的至少一部分以合成一个或多个特征。操作进一步包括通过将所选择的图元应用于接收到的数据集来合成多个特征。操作进一步包括迭代地评估多个特征以从多个特征中移除一些特征以获得特征子集。每次迭代包括通过将数据集的不同部分应用于经评估的特征来评估多个特征中的至少一些特征的有用性，并基于经评估的特征的有用性移除经评估的特征中的一些特征以产生特征子集。操作也包括确定特征子集中的每个特征的重要性因子。操作也包括基于特征子集和特征子集中的每个特征的重要性因子生成机器学习模型。机器学习模型被配置为用于基于新数据进行预测。下文给出对本公开内容的一个或多个方面的概述，以便提供对这样的方面的基本理解。

非暂时性计算机可读存储器的实施例存储可执行的计算机程序指令。指令是可执行的以执行操作。操作包括从数据源接收数据集。操作进一步包括基于接收到的数据集从图元池中选择图元。所选择的图元中的每个图元被配置为应用于数据集的至少一部分以合成一个或多个特征。操作进一步包括通过将所选择的图元应用于接收到的数据集来合成多个特征。操作进一步包括迭代地评估多个特征以从多个特征中移除一些特征以获得特征子集。每次迭代包括通过将数据集的不同部分应用于经评估的特征来评估多个特征中的至少一些特征的有用性，并基于经评估的特征的有用性移除经评估的特征中的一些特征以产生特征子集。操作也包括确定特征子集中的每个特征的重要性因子。操作也包括基于特征子集和特征子集中的每个特征的重要性因子生成机器学习模型。机器学习模型被配置为用于基于新数据进行预测。

附图说明

图1是示出根据一个实施例的包括机器学习服务器的机器学习环境的框图。

图2是示出根据一个实施例的机器学习服务器的特征工程应用的更详细视图的框图。

图3是示出根据一个实施例的特征工程应用的特征生成模块的更详细视图的框图。

图4是示出根据一个实施例的生成机器学习模型的方法的流程图。

图5是示出根据一个实施例的训练机器学习模型并使用经训练的模型进行预测的方法的流程图。

图6是示出根据一个实施例的用作图1的机器学习服务器的典型计算机系统的功能视图的高级框图。

附图仅出于说明的目的描绘了各种实施例。本领域的技术人员将从以下讨论中容易地认识到，可以采用本文示出的结构和方法的替代实施例，而不会背离本文描述的实施例的原理。各种附图中相似的附图标记和名称表示相似的元素。

具体实施方式

图1是示出根据一个实施例的包括机器学习服务器110的机器学习环境100的框图。环境100还包括经由网络130连接到机器学习服务器110的多个数据源120。虽然示出的环境100仅包括一个机器学习服务器110耦合到多个数据源120，但是实施例可以具有多个机器学习服务器和单个数据源。

数据源120给数据分析系统110提供电子数据。数据源120可以是存储装置，例如硬盘驱动器(HDD)或固态驱动器(SSD)、管理和提供到多个存储装置的访问的计算机、存储区域网络(SAN)、数据库、或云存储系统。数据源120也可以是能够从另一个源检索数据的计算机系统。数据源120可以远离机器学习服务器110并且经由网络130提供数据。此外，一些或全部数据源120可以直接耦合到数据分析系统并提供数据，而不通过网络130传递数据。

由数据源120提供的数据可以被组织到数据记录中(例如，行)。每个数据记录包括一个或多个值。例如，由数据源120提供的数据记录可以包括一系列以逗号分隔的值。数据描述了与使用数据分析系统110的企业相关的信息。例如，来自数据源120的数据可以描述与可在网站上访问的内容和/或与应用程序的基于计算机的交互(例如，点击跟踪数据)。作为另一示例，来自数据源120的数据可以描述线上和/或店内的顾客交易。企业可以属于诸如制造、销售、金融、银行等各种行业中的一种或多种。

机器学习服务器110是基于计算机的系统，用于构建机器学习模型并提供机器学习模型以基于数据进行预测。示例预测包括客户是否会在一段时间内进行交易、交易是否是欺诈性的、用户是否将执行基于计算机的交互等。经由网络130从多个数据源120中的一个或多个数据源收集、采集或以其他方式访问数据。机器学习服务器110可以实施可扩展的软件工具和硬件资源，用于访问、准备、混合和分析来自各种数据源120的数据。机器学习服务器110可以是用于实施机器学习功能的计算装置，包括本文描述的特征工程和建模技术。

机器学习服务器110可以被配置为支持一个或多个软件应用，在图1中示出为特征工程应用140和建模应用150。特征工程应用140执行自动化特征工程，其中它从由数据源120提供的数据(例如，时间和关系数据集)中提取预测变量，即特征。每个特征都是潜在地与相应的机器学习模型将用于进行的预测(称为目标预测)相关的变量。

在一个实施例中，特征工程应用140基于数据从图元池中选择图元。图元池由特征工程应用140维护。图元定义单独的计算，其可以应用于数据集中的原始数据以创建一个或多个具有关联值的新特征。所选择的图元可以跨不同种类的数据集应用并堆叠以创建新的计算，因为它们限制了输入和输出数据类型。特征工程应用140通过将所选择的图元应用于由数据源提供的数据来合成特征。然后，它通过迭代过程评估特征以确定各个特征的重要性，在该迭代过程中，它在每次迭代中将数据的不同部分应用于特征。特征工程应用140在每次迭代中移除一些特征以获得与移除的特征相比对预测更有用的特征子集。

对于子集中的每个特征，特征工程应用140例如通过使用随机森林来确定重要性因子。重要性因子指示特征对目标预测的重要性/相关性。子集中的特征及其重要性因子可以被发送到建模应用150以建立机器学习模型。

特征工程应用140的一个优点是图元的使用使特征工程过程比传统的特征工程过程更高效，在传统的特征工程过程中特征是从原始数据中提取的。此外，特征工程应用140可以基于从图元生成的特征的评估和重要性因子来评估图元。它可以生成描述图元评估的元数据，并使用元数据来确定是否为不同的数据或不同的预测问题选择图元。传统的特征工程过程可以生成大量特征(例如数百万个)，而不提供任何指导或解决方案来更快更好地设计特征。特征工程应用140的另一个优点是它不需要大量数据来评估特征。相反，它应用迭代方法来评估特征，在每次迭代中使用数据的不同部分。

特征工程应用140可以提供允许用户参与特征工程过程的图形用户界面(GUI)。例如，与特征工程应用140相关联的GUI提供特征选择工具，其允许用户编辑由特征工程应用140选择的特征。它也可以为用户提供选项以指定要考虑的变量和修改特征的特性，例如特征的最大允许深度、生成特征的最大数量、要包括的数据的日期范围(例如，由截止时间指定)等。结合图2-4描述更多关于特征工程应用140的细节。

建模应用150使用从特征工程应用140接收到的特征和特征的重要性因子来训练机器学习模型。不同的机器学习技术，例如线性支持向量机(linear SVM)、其他算法的提升(例如，AdaBoost)、神经网络、逻辑回归、朴素贝叶斯、基于记忆的学习、随机森林、袋装树、决策树、提升树、或提升树桩，可以在不同的实施例中使用。生成的机器学习模型当被应用于从新的数据集(例如，来自相同或不同数据源120的数据集)提取到的特征时进行目标预测。新的数据集可能遗漏一个或多个特征，这些特征仍然可以包含在空值中。在一些实施例中，建模应用150应用降维(例如，经由线性判别分析(LDA)、主成分分析(PCA)等)以将新数据集的特征中的数据量减少为更小、更具代表性的数据集合。

在一些实施例中，建模应用150在部署到新数据集之前验证预测。例如，建模应用150将经训练的模型应用于验证数据集以量化模型的准确性。准确性测量中应用的常见度量包括：精确率＝TP/(TP+FP)和召回率＝TP/(TP+FN)，其中精确率是模型在预测的总数(TP+FP或假阳性)中正确预测(TP或真阳性)的结果的数量，召回率是模型在实际发生的总数(TP+FN或假阳性)中正确预测(TP)的结果的数量。F分数(F分数＝2*PR/(P+R))将精确率和召回率统一为单个衡量标准。在一个实施例中，建模应用150迭代地重新训练机器学习模型直到出现停止条件为止，例如机器学习模型足够准确的准确性测量指示，或者已经发生了多轮训练。

在一些实施例中，建模应用150针对具体业务需求调整机器学习模型。例如，建模应用150建立机器学习模型以识别欺诈性金融交易并调整模型以强调更重要的欺诈性交易(例如，高价值交易)，以反映企业的需求，例如，通过以突出更重要交易的方式转换预测概率。结合图5描述更多关于建模应用150的细节。

网络130表示机器学习服务器110和数据源120之间的通信路径。在一个实施例中，网络130是因特网并且使用标准通信技术和/或协议。因此，网络130可以包括使用诸如以太网、802.11、全球微波互联接入(WiMAX)、3G、长期演进(LTE)、数字用户线路(DSL)、异步传输模式(ATM)、无限带宽(InfiniBand)、PCI Express高级交换(PCI Express AdvancedSwitching)等。类似地，在网络130上使用的网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。

通过网络130交换的数据可以使用包括超文本标记语言(HTML)、可扩展标记语言(XML)等技术和/或格式来表示。此外，一些或全部链接可以使用常规加密技术来加密，例如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网(VPN)、互联网协议安全性(IPsec)等。在另一个实施例中，实体可以使用自定义和/或专用数据通信技术来替代或补充上述技术。

图2是示出根据一个实施例的特征工程应用200的框图。特征工程应用200是图1中的特征工程应用140的实施例。特征工程应用200包括图元选择模块210、特征生成模块220、模型生成模块230和数据库240。特征工程应用200从数据源120接收数据集并基于该数据集生成机器学习模型。本领域的技术人员将认识到其他实施例可以具有与本文描述的组件不同的和/或其他的组件，并且功能可以按不同的方式分布在这些组件中。

图元选择模块210从由特征工程应用200维护的图元池中选择一个或多个图元。图元池包括大量图元，例如数百或数千个图元。每个图元都包含算法，当算法被应用于数据时，对数据执行计算并生成具有关联值的特征。图元与一个或多个属性相关联。图元的属性可以是图元的描述(例如，指定当图元被应用于数据时所执行的计算的自然语言描述)、输入类型(即，输入数据的类型)、返回类型(即，输出数据的类型)、指示图元在先前特征工程过程中的有用程度的图元的元数据、或其他属性。

在一些实施例中，图元池包括多种不同类型的图元。一种类型的图元是聚合图元。当被应用于数据集时，聚合图元识别数据集中的相关数据，对相关数据执行确定，以及创建汇总和/或聚合该确定的值。例如，聚合图元“计数”识别数据集中相关的行中的值，确定每个值是否为非空值，并返回(输出)数据集的行中的非空值数量的计数。另一种类型的图元是转换图元。当被应用于数据集时，转换图元根据数据集中的一个或多个现有变量创建新变量。例如，转换图元“周末”评估数据集中的时间戳并返回二进制值(例如，真或假)，表示由时间戳指示的日期是否发生在周末。另一个示例性转换图元评估时间戳并返回表示到指定日期为止的天数(例如，到特定假期为止的天数)的计数。

图元选择模块210基于从数据源，例如图1中的数据源120中的一个数据源，接收到的数据集来选择图元集合。在一些实施例中，图元选择模块210使用粗略视图方法、概要视图方法或这两种方法选择图元。在粗略视图方法中，图元选择模块210识别数据集的一个或多个语义表示。数据集的语义表示描述了数据集的特性并且可以在不对数据集中的数据执行计算的情况下获得。数据集的语义表示的示例包括数据集中一个或多个特定变量(例如，列的名称)的存在、列的数量、行的数量、数据集的输入类型、数据集的其他属性以及一些它们的组合。为了使用粗略视图方法选择图元，图元选择模块210确定数据集的识别的语义表示是否匹配池中图元的属性。如果存在匹配，则图元选择模块210选择该图元。

粗略视图方法是基于规则的分析。对数据集的识别的语义表示是否与图元的属性相匹配的确定是基于由特征工程应用200维护的规则的。规则指定数据集的哪些语义表示匹配图元的哪些属性，例如，基于数据集的语义表示和图元的属性中的关键词的匹配。在一个示例中，数据集的语义表示是列名“出生日期”，图元选择模块210选择输入类型为“出生日期”的图元，其匹配数据集的语义表示。在另一示例中，数据集的语义表示是列名“时间戳”，图元选择模块210选择具有指示图元适合与指示时间戳的数据一起使用的属性的图元。

在概要视图方法中，图元选择模块210从数据集生成代表向量。代表向量对描述数据集的数据进行编码，例如至少数据集中表格的数量、每个表格的列数、每列的平均数和每行的平均数的数据。因此，代表向量用作数据集的指纹。指纹是数据集的紧凑表示，可以通过将一个或多个指纹函数，例如哈希函数、Rabin指纹算法或其他类型的指纹函数，应用于数据集来生成。

图元选择模块210基于代表向量选择数据集的图元。例如，图元选择模块210将数据集的代表向量输入到经机器学习的模型中。经机器学习的模型输出数据集的图元。经机器学习的模型例如由图元选择模块210训练，以基于代表向量选择数据集的图元。它可以基于包括多个训练数据集的多个代表向量和多个训练数据集中的每个的图元集合的训练数据来训练。用于多个训练数据集中的每个的图元集合已用于生成被确定为对于基于相应训练数据集进行预测有用的特征。在一些实施例中，经机器学习的模型被连续地训练。例如，图元选择模块210可以进一步基于数据集的代表向量和至少一些选定的图元来训练经机器学习的模型。

图元选择模块210可以提供所选择的图元以供在由特征工程应用200支持的GUI中向用户(例如，数据分析工程师)显示。GUI也可以允许用户编辑图元，例如将其他图元添加到图元集合、创建新图元、移除选定的图元、其他类型的动作、或其一些组合。

特征生成模块220生成特征组和该组中每个特征的重要性因子。在一些实施例中，特征生成模块220基于所选择的图元和数据集合成多个特征。在一些实施例中，特征生成模块220将每个所选择的图元应用于数据集的至少一部分以合成一个或多个特征。例如，特征生成模块220将“周末”图元应用于数据集中名为“时间戳”的列以合成指示日期是否出现在周末的特征。特征生成模块220可以合成数据集的大量特征，例如数百或者甚至数百万个特征。

特征生成模块220评估特征并基于评估移除一些特征以获得特征组。在一些实施例中，特征生成模块220通过迭代过程评估特征。在每一轮迭代中，特征生成模块220将未被先前迭代移除的特征(也称为“剩余特征”)应用于数据集的不同部分，并确定每个特征的有用性分数。特征生成模块220从剩余特征中移除具有最低有用性分数的一些特征。在一些实施例中，特征生成模块220通过使用随机森林确定特征的有用性分数。

在完成迭代并获得特征组之后，特征生成模块220确定组中每个特征的重要性因子。特征的重要性因子指示该特征对于预测目标变量的有多重要。在一些实施例中，特征生成模块220通过使用随机森林，例如基于数据集的至少一部分构建的随机森林来确定重要性因子。在一些实施例中，特征生成模块220通过将特征和数据集的不同部分输入到机器学习模型中来调整特征的重要性分数。机器学习模型输出特征的第二重要性分数。特征生成模块220将重要性因子与第二重要性分数进行比较，以确定是否要调整重要性因子。例如，特征生成模块220可以将重要性因子改变为重要性因子和第二重要性因子的平均值。

特征生成模块220然后将特征组及其重要性因子发送到建模应用，例如建模应用150，以训练机器学习模型。

在一些实施例中，特征生成模块220可以基于增量方法生成附加特征。例如，特征生成模块220接收由用户通过图元选择模块210添加的新图元，例如，在生成特征组并且确定它们的重要性因子之后。特征生成模块220生成附加特征，评估附加特征，和/或基于新图元确定附加特征的重要性因子而不改变已经生成和评估的特征组。

元数据生成模块230生成与用于合成组中的特征的图元相关联的元数据。图元的元数据指示图元对数据集的有用程度。元数据生成模块230可以基于从图元生成的特征的有用性分数和/或重要性因子而生成图元的元数据。元数据可以在随后的特征工程过程中由图元选择模块210使用，以选择用于其他数据集和/或不同预测的图元。元数据生成模块230可以检索用于合成组中的特征的图元的代表向量，并将代表向量和图元反馈回到经机器学习的模型中，用于基于代表向量选择图元以进一步训练经机器学习的模型。

在一些实施例中，元数据生成模块230生成组中特征的自然语言描述。特征的自然语言描述包括描述特征属性的信息，例如特征中包括的算法、将特征应用于数据的结果、特征的功能等。

数据库240存储与特征工程应用200相关联的数据，例如由特征工程应用200接收、使用和生成的数据。例如，数据库240存储从数据源接收到的数据集、图元、特征、特征的重要性因子、用于确定特征的有用性分数的随机森林、用于选择图元和用于确定特征的重要性因子的机器学习模型、由元数据生成模块230生成的元数据等。

图3是示出根据一个实施例的特征生成模块300的框图。特征生成模块300是图2中的特征生成模块220的实施例。它基于数据集生成特征，以用于训练机器学习模型。特征生成模块300包括合成模块310、评估模块320、排序模块330和最终确定模块340。本领域的技术人员将认识到其他实施例可以具有与本文描述的组件不同的和/或其他的组件，并且功能可以按不同的方式分布在这些组件中。

合成模块310基于数据集和针对数据集选择的图元合成多个特征。对于每个图元，合成模块310识别数据集的一部分，例如数据集的一列或多列。例如，对于具有出生日期输入类型的图元，合成模块310识别数据集中的出生列数据。合成模块310将图元应用于识别的列以生成该列的每一行的特征。合成模块310可以针对数据集生成大量的特征，例如数百甚至数百万个。

评估模块320确定合成的特征的有用性分数。特征的有用性分数指示该特征对于基于数据集进行的预测的有用程度。在一些实施例中，评估模块320迭代地将数据集的不同部分应用于特征以评估特征的有用性。例如，在第一次迭代中，评估模块320将数据集的预定百分比(例如25％)应用于特征以构建第一随机森林。第一随机森林包括多个决策树。每个决策树包括多个节点。每个节点对应于特征，并且包括条件，该条件描述如何基于特征的值将树传输通过节点(例如，如果某个日期发生在周末，则取一个分支，否则取另一个分支)。每个节点的特征是基于信息增益或基尼杂质减少决定的。最大化信息增益或减少基尼杂质的特征被选择作为分裂特征。评估模块320基于由于跨决策树的特征引起的信息增益或基尼杂质减少确定特征的个体有用性分数。该特征的个体有用性分数特定于一个决策树。在为随机森林中的每个决策树确定特征的个体有用性分数之后，评估模块320通过将特征的个体有用性分数进行组合来确定特征的第一有用性分数。在一个示例中，特征的第一有用性分数是特征的个体有用性分数的平均值。评估模块320移除具有最低第一有用性分数的20％的特征，使得剩余80％的特征。这些特征被称为第一剩余特征。

在第二次迭代中，评估模块320将第一剩余特征应用于数据集的不同部分。数据集的不同部分可以是不同于第一次迭代中使用的数据集部分的25％的数据集，或者它可以是包括第一次迭代中使用的数据集部分的50％的数据集。评估模块320使用数据集的不同部分构建第二随机森林，并通过使用第二随机森林确定每个剩余特征的第二有用性分数。评估模块320移除20％的第一剩余特征和剩余的第一剩余特征(即，80％的第一剩余特征形成第二剩余特征)。

类似地，在每个后续迭代中，评估模块320将来自前一轮的剩余特征应用到数据集的不同部分，确定来自前一轮的剩余特征的有用性分数，并且移除一些剩余特征以获得较小的特征组。

评估模块320可以继续迭代过程，直到它确定满足条件为止。条件可以是剩余的特征低于阈值数量、剩余特征的最低有用性分数高于阈值、整个数据集已应用于特征、迭代已完成阈值轮数、其他条件、或上述的一些组合。最后一轮的剩余特征，即未被评估模块320移除的特征，被选定以训练机器学习模型。

排序模块330对所选择的特征进行排序并且确定每个所选择的特征的重要性分数。在一些实施例中，排序模块330基于所选择的特征和数据集构建随机森林。排序模块330基于随机森林中的每个决策树确定所选择的特征的个体排序分数，并获得个体排序分数的平均值作为所选择的特征的排序分数。排序模块330基于所选择的特征的排序分数确定其重要性因子。例如，排序模块330基于其排序分数对所选择的特征进行排序，并确定排序最高的所选择的特征的重要性分数为1。排序模块330然后将每个剩余的所选择的特征的排序分数与排序最高的所选择的特征的排序分数的比率确定为对应的所选择的特征的重要性因子。

最终确定模块340最终确定所选择的特征。在一些实施例中，最终确定模块340对所选择的特征重新排序以确定每个所选择的特征的第二排序分数。响应于确定特征的第二排序分数与其初始排序分数不同，最终确定模块340可以从组中移除该特征，针对该特征生成指示该特征的重要性的不确定性的元数据，警告终端用户不一致和不确定性等。

图4是示出根据一个实施例的生成机器学习模型的方法400的流程图。在一些实施例中，该方法由特征工程应用140执行，虽然在其他实施例中该方法中的一些或全部操作可以由其他实体执行。在一些实施例中，流程图中的操作以不同的顺序被执行并且包括不同和/或附加的步骤。

特征工程应用140从数据源，例如数据源120之一接收410数据集。

特征工程应用140基于接收到的数据集从图元池中选择420图元。所选择的图元中的每个图元被配置为应用于数据集的至少一部分以合成一个或多个特征。在一些实施例中，特征工程应用140通过生成数据集的语义表示并选择与和数据集的语义表示相匹配的属性相关联的图元来选择图元。附加地或替代地，特征工程应用140生成数据集的代表向量并将代表向量输入机器学习模型中。机器学习模型基于向量输出所选择的图元。

特征工程应用140基于所选择的图元和接收到的数据集合成430多个特征。特征工程应用140将每个所选择的图元应用于数据集的相关部分以合成特征。例如，对于每个所选择的图元，特征工程应用140识别数据集中的一个或多个变量并将图元应用于变量以生成特征。

特征工程应用140迭代地评估440多个特征以从多个特征中移除一些特征以获得特征子集。在每次迭代中，特征工程应用140通过将数据集的不同部分应用于经评估的特征来评估多个特征中的至少一些特征的有用性，并且基于经评估的特征的有用性移除经评估的特征中的一些特征。

特征工程应用140确定450特征子集中的每个特征的重要性因子。在一些实施例中，特征工程应用140基于特征子集和数据集的至少一部分构建随机森林以确定特征子集的重要性因子。

特征工程应用140基于特征子集和特征子集中的每个特征的重要性因子生成460机器学习模型。机器学习模型被配置为用于基于新数据进行预测。

图5是示出根据一个实施例的训练机器学习模型并使用经训练的模型进行预测的方法500的流程图。在一些实施例中，该方法由建模应用150执行，虽然在其他实施例中该方法中的一些或全部操作可以由其他实体执行。在一些实施例中，流程图中的操作以不同的顺序被执行并且包括不同和/或附加的步骤。

建模应用150基于特征和特征的重要性因子训练510模型。在一些实施例中，特征和重要性因子由特征工程应用140生成，例如通过使用上文描述的方法400。在不同的实施例中，建模应用150可以使用不同的机器学习技术。示例机器学习技术包括例如线性支持向量机(linear SVM)、其他算法的提升(例如，AdaBoost)、神经网络、逻辑回归、朴素贝叶斯、基于记忆的学习、随机森林、袋装树、决策树、提升树、提升树桩等。

建模应用150从与企业相关联的数据源(例如，数据源120)接收520数据集。企业可以属于诸如制造、销售、金融、银行等各种行业中的一种或多种。在一些实施例中，建模应用150针对具体行业需求来调整经训练的模型。例如，经训练的模型用于识别欺诈性金融交易，建模应用150调整经训练的模型以强调更重要的欺诈性交易(例如，高价值交易)以反映企业的需求，例如，通过以突出显示更重要交易的方式转换预测概率。

建模应用150从接收到的数据集获得530特征的值。在一些实施例中，建模应用150从数据集检索特征的值，例如，在特征是被包括在数据集中的变量的实施例中。在一些实施例中，建模应用150通过将用于合成特征的图元应用到数据集来获得特征的值。

建模应用150将特征的值输入540经训练的模型。经训练的模型输出预测。预测可以是对客户是否会在一段时间内进行交易、交易是否是欺诈性的、用户是否会执行基于计算机的交互等的预测。

图6是示出根据一个实施例的用作图1中的机器学习服务器110的典型计算机系统600的功能视图的高级框图。

示出的计算机系统包括耦合到芯片组604的至少一个处理器602。处理器602可以包括同一管芯上的多个处理器核。芯片组604包括内存控制器中心620和输入/输出(I/O)控制器中心622。存储器606和图形适配器612耦合到内存控制器中心620并且显示器618耦合到图形适配器612。存储装置608、键盘610、定点装置614和网络适配器616可以耦合到I/O控制器中心622。在一些其他实施例中，计算机系统600可以具有附加的、更少的或不同的组件并且组件可以按不同的方式耦合。例如，计算机系统600的实施例可以没有显示器和/或键盘。此外，在一些实施例中，计算机系统600可以实例化为机架式刀片服务器或云服务器实例。

存储器606保存处理器602使用的指令和数据。在一些实施例中，存储器606是随机存取存储器。存储装置608是非暂时性计算机可读存储介质。存储装置608可以是HDD、SSD或其他类型的非暂时性计算机可读存储介质。由机器学习服务器110处理和分析的数据可以存储在存储器606和/或存储装置608中。

定点装置614可以是鼠标、轨迹球或其他类型的定点装置，并与键盘610组合使用以将数据输入到计算机系统600中。图形适配器612将图像和其他信息显示在显示器618上。在一些实施例中，显示器618包括用于接收用户输入和选择的触摸屏功能。网络适配器616将计算机系统600耦合到网络160。

计算机系统600适于执行用于提供本文描述的功能的计算机模块。如本文所用，术语“模块”是指用于提供指定功能的计算机程序指令和其他逻辑。模块可以用硬件、固件和/或软件实施。模块可以包括一个或多个过程，和/或仅由过程的一部分提供。模块典型地存储在存储装置608上，加载到存储器606中，以及由处理器602执行。

组件的具体命名、术语的大写、属性、数据结构、或任何其他编程或结构方面不是强制性的或重要的，并且实施所描述的实施例的机制可以具有不同的名称、格式或协议。此外，系统可以如所描述的那样经由硬件和软件的组合来实施，或者完全以硬件元件来实施。此外，本文描述的各种系统组件之间的具体功能划分仅仅是示例性的，而不是强制性的；由单个系统组件执行的功能可以改为由多个组件执行，而由多个组件执行的功能可以改为由单个组件执行。

以上描述的一些部分呈现了算法和信息操作的符号表示方面的特征。这些算法描述和表示是数据处理领域的普通技术人员用来最高效地将他们的工作内容传达给本领域其他普通技术人员的手段。这些操作虽然在功能上或逻辑上进行了描述，但应理解为通过计算机程序实施。此外，在不失一般性的情况下，有时也证明将这些操作布置称为模块或功能名称很方便。

除非从上面的讨论中具体说明或以其他方式是明显的，否则应当理解，贯穿整个说明书，讨论使用诸如“处理”或“运算”或“计算”或“确定”或“显示”等术语，指的是计算机系统或类似电子计算装置的操作和过程，其操作和转换在计算机系统存储器或寄存器或其他这样的信息存储、传输或显示装置中表示为物理(电子)量的数据。

本文描述的某些实施例包括以算法的形式描述的过程步骤和指令。应当注意的是，实施例的处理步骤和指令可以体现在软件、固件或硬件中，当体现在软件中时，可以下载驻留在实时网络操作系统所使用的不同平台上并运行。

最后，应该注意的是，申请文件中使用的语言主要是为了可读性和指导目的而选择的，可能不是为了描述或限制本发明的主题而选择的。因此，实施例的公开旨在是说明性的，而不是限制性的。

Claims

1.一种计算机实施的方法，包括：

从数据源接收数据集；

基于接收到的数据集从图元池中选择图元，所选择的图元中的每个图元被配置为应用于所述数据集的至少一部分以合成一个或多个特征；

通过将所选择的图元应用于接收到的数据集来合成多个特征；

迭代地评估所述多个特征以从所述多个特征中移除一些特征，从而获得特征子集，每次迭代包括：

通过将所述数据集的不同部分应用于经评估的特征来评估所述多个特征中的至少一些特征的有用性，以及

基于所述经评估的特征的有用性来移除所述经评估的特征中的一些特征，以产生所述特征子集；

确定所述特征子集中的每个特征的重要性因子；以及

基于所述特征子集和所述特征子集中的每个特征的所述重要性因子来生成机器学习模型，所述机器学习模型被配置为用于基于新数据进行预测。

2.根据权利要求1所述的方法，其中，基于接收到的数据集从所述多个图元中选择所述图元包括：

生成接收到的数据集的语义表示；以及

选择与和接收到的数据集的所述语义表示相匹配的属性相关联的图元。

3.根据权利要求1所述的方法，其中，基于接收到的数据集从所述多个图元中选择所述图元包括：

从接收到的数据集生成代表向量；

将所述代表向量输入到机器学习模型中，所述机器学习模型基于所述代表向量而输出所选择的图元。

4.根据权利要求1所述的方法，其中，迭代地评估所述多个特征以从所述多个特征中移除一些特征以获得所述特征子集包括：

将所述多个特征应用于所述数据集的第一部分以确定所述多个特征中的每个特征的第一有用性分数；

基于所述多个特征中的每个特征的所述第一有用性分数移除所述多个特征中的一些特征，以获得初步特征子集；

将所述初步特征子集应用于所述数据集的第二部分以确定所述初步特征子集中的每个特征的第二有用性分数；以及

基于所述初步特征子集中的每个特征的所述第二有用性分数，从所述初步特征子集中移除所述初步特征子集中的一些特征。

5.根据权利要求1所述的方法，其中，确定所述特征子集中的每个特征的所述重要性因子包括：

通过将所述特征子集和所述数据集的第一部分输入到机器学习模型中，对所述特征子集进行排序，所述机器学习模型输出所述特征子集中的每个特征的第一排序分数；以及

基于所述特征子集的排序分数，确定所述特征子集的所述重要性因子。

6.根据权利要求5所述的方法，还包括：

通过将所述特征子集和所述数据集的第二部分输入到机器学习模型中，对所述特征子集进行排序，所述机器学习模型输出所述特征子集中的每个特征的第二排序分数；

基于所述特征的所述排序分数，确定所述特征子集中的每个特征的第二重要性因子；以及

基于所述特征的所述第二重要性分数，调整所述特征子集中的每个特征的所述重要性分数。

7.根据权利要求1所述的方法，其中，基于图元子集和接收到的数据集来合成所述多个特征包括：

对于所述子集中的每个图元，

识别所述数据集中的一个或多个变量；以及

将所述图元应用于所述一个或多个变量以生成所述多个特征中的一个或多个特征。

8.一种系统，包括：

计算机处理器，其用于执行计算机程序指令；以及

非暂时性计算机可读存储器，其存储计算机程序指令，所述计算机程序指令能够由所述计算机处理器执行以执行操作，所述操作包括：

从数据源接收数据集；

迭代地评估所述多个特征以从所述多个特征中移除一些特征，以获得特征子集，每次迭代包括：

确定所述特征子集中的每个特征的重要性因子；以及

9.根据权利要求8所述的系统，其中，基于接收到的数据集从所述多个图元中选择所述图元包括：

生成接收到的数据集的语义表示；以及

10.根据权利要求8所述的系统，其中，基于接收到的数据集从所述多个图元中选择所述图元子集包括：

从接收到的数据集生成代表向量；

将所述代表向量输入到机器学习模型中，所述机器学习模型基于所述代表向量来输出所选择的图元。

11.根据权利要求8所述的系统，其中，迭代地评估所述多个特征以从所述多个特征中移除一些特征以获得所述特征子集包括：

基于所述多个特征中的每个特征的所述第一有用性分数来移除所述多个特征中的一些特征，以获得初步特征子集；

12.根据权利要求8所述的系统，其中，确定所述特征子集中的每个特征的所述重要性因子包括：

基于所述特征子集的排序分数来确定所述特征子集的所述重要性因子。

13.根据权利要求12所述的系统，还包括：

基于所述特征的所述排序分数来确定所述特征子集中的每个特征的第二重要性因子；以及

基于所述特征的所述第二重要性分数来调整所述特征子集中的每个特征的所述重要性分数。

14.根据权利要求8所述的系统，其中，基于所述图元子集和接收到的数据集合成所述多个特征包括：

对于所述子集中的每个图元，

识别所述数据集中的一个或多个变量；以及

15.一种非暂时性计算机可读存储器，其存储用于在数据分析系统中处理数据块的能够执行的计算机程序指令，所述计算机程序指令能够执行以执行以下操作，包括：

从数据源接收数据集；

确定所述特征子集中的每个特征的重要性因子；以及

16.根据权利要求15所述的非暂时性计算机可读存储器，其中，基于接收到的数据集从所述多个图元中选择所述图元包括：

生成接收到的数据集的语义表示；以及

17.根据权利要求15所述的非暂时性计算机可读存储器，其中，基于接收到的数据集从所述多个图元中选择所述图元包括：

从接收到的数据集生成代表向量；

将所述代表向量输入机器学习模型中，所述机器学习模型基于所述代表向量来输出所选择的图元。

18.根据权利要求15所述的非暂时性计算机可读存储器，其中，迭代地评估所述多个特征以从所述多个特征中移除一些特征以获得所述特征子集包括：

19.根据权利要求15所述的非暂时性计算机可读存储器，其中，确定所述特征子集中的每个特征的所述重要性因子包括：

20.根据权利要求19所述的非暂时性计算机可读介质，还包括：