CN109416765B - 用于系统的元数据驱动的机器学习 - Google Patents

用于系统的元数据驱动的机器学习 Download PDF

Info

Publication number
CN109416765B
CN109416765B CN201780041791.4A CN201780041791A CN109416765B CN 109416765 B CN109416765 B CN 109416765B CN 201780041791 A CN201780041791 A CN 201780041791A CN 109416765 B CN109416765 B CN 109416765B
Authority
CN
China
Prior art keywords
prediction
metadata
machine learning
predictive model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780041791.4A
Other languages
English (en)
Other versions
CN109416765A (zh
Inventor
K·M·汉森
A-B·波特兹
A·S·潘科
T·海尔斯伯格
M·佩里希克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN109416765A publication Critical patent/CN109416765A/zh
Application granted granted Critical
Publication of CN109416765B publication Critical patent/CN109416765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在此说明了训练预测模型以及将机器学习预测应用于数据。获得包括数据集以及与数据集相关联的、标识预测类型的元数据的预测实例。数据和元数据用于确定使用预测类型训练预测模型的实体。从实体获得经训练的预测模型。通知系统可以被配置为对监视上下文信息作出反应并且应用预测。工作流系统可以基于预测自动地执行工作流中的功能。

Description

用于系统的元数据驱动的机器学习
背景技术
计算机和计算系统已经影响现代生活的几乎每个方面。计算机通常涉及在工作、休闲、保健、交通、娱乐、家务管理等中。
计算系统可以用于采集、存储、管理和解译生成的数据。使用这样的系统,计算机用户可以监视数据。
以预测性方式使用由系统采集的数据可以是有用的。例如,数据可以用于预测何时某些事件将发生和/或某些事件将发生的概率。
先前,为了实现这样的预测性功能,数据将被提供给具有已知的专业功能的专业机器学习系统。因此,系统将采集数据并且将这样的数据提供到将提供可以然后由原始系统用于执行预测性功能的适当的预测函数的机器学习系统。然而,这要求使用大量的非常专业的机器学习系统,一个机器学习系统用于每种类型的机器学习预测性功能。
在此要求保护的主题不限于解决任何缺点或者仅在诸如上文所描述的那些环境的环境中操作的缺点的实施例。相反,该背景技术仅被提供以说明其中可以实践在此所描述的一些实施例的一个示例性技术区域。
发明内容
在此说明了训练预测模型并且将机器学习预测应用于数据。获得包括数据集以及与数据集相关联的、标识预测类型的元数据的预测实例。数据和元数据用于确定使用预测类型训练预测模型的实体。因此,从实体获得经训练的预测模型。
提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或基本特征,其也不旨在被用作辅助确定要求保护的主题的范围。
附加特征和优点将从下面的描述中被阐述并且部分地将从描述显而易见或者可以由本文中的教导的实践来学习。可以借助于在所附权利要求书中特别地指出的设备和组合实现和获得本发明的特征和优点。本发明的特征将从以下描述和所附权利要求变得更充分地明显,或者可以通过如在下文中所阐述的本发明的实践来学习。
附图说明
为了描述可以获得上文记载和其他优点和特征的方式,上文简要描述的主题的更特别的描述将通过参考在附图中图示的特定实施例而提供。理解这些附图描绘仅典型的实施例并且因此将不被认为是对范围的限制,通过使用附图利用附加的特殊性和细节将描述和解释实施例,其中:
图1图示了包括数据和机器学习数据的表;
图2图示了基系统和机器学习服务;
图3图示了图示用于训练模型的动作的流程图;
图4图示了图示用于执行预测的动作的流程图;
图5图示了示例用户界面;
图6图示了另一示例用户界面;
图7图示了将机器学习类型应用于数据的方法;
图8图示了用于确定向远程机器学习服务提供数据和元数据的方法;
图9图示了用于主动地提供预测模型的方法;
图10图示了用于监视当前条件并且基于将预测模型应用于预测实例来自动地执行功能的方法;以及
图11图示了用于确定不向远程机器学习服务提供数据和元数据的方法。
具体实施方式
预测和对未来事件作出反应已经通常涉及正被使用在做出预测中的专业特定信息。
“机器学习(ML)”可以从先前地采集的数据(“训练数据”)的示例学习、创建预测模型并且随后地基于新数据和预测模型进行预测。在在此所图示的实施例中,ML能够分析先前采集的数据并且在用户没有请求这样的洞察力的情况下提供“洞察力”。机器学习系统可以在后台中运行并且使用通知子系统让用户知道给定条件-或者甚至发起遵循预定义规则的工作流来发起有利的动作。
基于机器学习的预测的一个示例是库存预报,其中机器学习算法基于用于产品的随时间的库存水平和潜在地库存控制系统中的其他信息可能够测产品的未来库存水平。另一示例是用于销售发票的支付时间预测,其中使用来自支付系统的过往销售发票上的训练数据(例如,金额、支付条款、客户标识符和支付中的延迟天数)的机器学习算法可以预测在新销售发票上客户支付延迟的概率。
虽然以上示例说明了机器学习可以如何被使用在企业中,机器学习算法还可以被用于其他目的(诸如预测交通流量、天气类型、事件出席、疾病爆发或者实际上任何其他预测性分析)。
在此所图示的一些实施例可以以通过减少基系统与专业机器学习部件之间的接口的复杂性来简化基系统的方式来实现。特别地,在此所图示的实施例实现可以分析来自基系统的数据和元数据,并且确定应当在数据上执行的机器学习处理并且向用于执行机器学习处理的适当的部件提供数据的子系统。相反,先前的基系统将必然地具有与机器学习系统的更复杂的接口,其中基系统将需要具有构造到基系统自身中以用于向适当的机器学习部件发送数据的逻辑。
附加地或者备选地,可以实现其中预测可以被集成到终端用户的工作流中的实施例。例如,基于库存水平预测使新库存的采购自动化可以是有用的。这可以自动地基于预测性分析的结果来执行。
附加地或者备选地,可以实现其中预测可以被集成到终端用户的上下文中的实施例。例如,采购代理将通常地不使用预测性分析自身来创建采购发票,但是相反将等待来自他人的引导来基于另一预测性分析来创建采购发票。然而,在此所描述的一些实施例可以直接地向终端用户提供引导,例如,在没有附加引导的情况下提供上下文相关建议以简单地基于预测性分析来执行各种动作。
在此所说明的本发明的一些实施例通过将元数据与数据(诸如表中的表格数据和数据存储库和/或处理系统中的列)相关联来实现机器学习。在一些实施例中,这可以通过实际上将元数据添加到如图1中所图示的表单元中的表来完成,图1示出了表100,其包括适用于整个表100的表元数据102和适用于表100中的个体列的列元数据104。在表100中(或者在一些实施例中在与表相关联的侧结构中)的表元数据102描述应当被用于表100中的数据的一个或多个预测类型。例如,在图1中,表元数据102标识回归分析应当被用于表100中的数据来创建预测模型并且用于预测任务。在所图示的示例中,元数据可以是支持在表格数据上工作的预测类型的元数据。这样的预测类型可以包括时间序列预报(即,当时间序列中的未来值正被预测时),回归(即,当连续值正被预测时)、分类(两类和/或多类分类)(即,当数据正被用于预测类别时)、异常检测(即,标识不平常的数据点)和/或聚类(即,以相关的方式对数据进行分组)。
列元数据104将列的角色描述为标识符、特征或者标签。在图1中图示了这些中的每一个的示例。在该示例中,标识符标识特定实例。在机器学习中,特征是正被观察的东西的可量化的特性。监督式机器学习中的标签是将被预测的标签。在在此所图示中的机器学习示例中,预测实例可以被用于预测。如在此所使用的,预测实例可以包括以下各项中的一项或多项:训练数据、机器学习元数据(包括如下文所描述的表元数据和/或列元数据)、经训练的预测模型和/或用于预测的记录(即,丢失一个或多个标签的记录)。
初始地,预测实例将常常仅包括训练数据。训练数据是先前地采集的数据。该数据将包括特征和标签。
机器学习元数据可以被添加到如下文所图示的预测实例。机器学习元数据可以定义在训练数据上待执行的分析的类型(即,预测类型)以及标识训练数据中的特征和标签。训练可以根据元数据使用训练数据而被执行以创建帮助标识可以被用于预测的数据中的模式的预测模型。具有与其相关联的经训练的模型的预测实例在此被称为经训练的预测实例。
一些预测实例可以具有用于添加到其的预测记录。这是可以是丢失一个或多个标签的记录。预测模型可以适于预测一个或多个标签。备选地,在聚类或者分类分析中,当分析通常地在完整记录上执行时,用于预测的记录可以是完整的。现在图示了示例。
图1图示了具有描述表100中的数据被用于机器学习类型“回归”的表元数据102的表100。在这种情况下,预测模型使用从列106、108、110和112取得的过往训练数据(特征)来训练。用于被添加到包括所有数据但是标签的表的新记录的列114中的“延迟天数”(标签)将基于观察的特征来预测:用于由如在列106中所图示的标识符标识的特定销售发票的列106、108和110中的“客户平均延迟天数”、“总金额”和“支付条款”。因此,例如,对于具有标识符15的新发票(未示出)而言,“延迟天书”0可以基于知道“客户平均延迟天数”是3、“总金额”是13.4并且“支付条款”是COD并且使用来自先前的发票的训练数据而被预测,训练数据包括先前的“客户平均延迟天数”、“总金额”和“支付条款”和先前的标签(诸如本示例中的其他记录(例如,具有标识符12-14的记录)的“延迟天数”)。
给定标识预测类型的表元数据,本发明的实施例可以基于现有数据和标签自动地训练模型并且预测用于新数据的标签。例如,数据和元数据可以被提供给机器学习服务202(参见图2),其可以自动地使用数据204作为训练数据以及元数据206(其可以包括表元数据102和列元数据104)以确定应用于数据204的预测类型。数据204可以是被存储在数据存储中的历史数据。这样的数据可以包括通过列元数据被标记为特征的数据和被标记为标签的数据。
此外,由于机器学习是声明式的,因而机器学习可以在后台中运行和/或作为批次,这实现工作流中的预测和包括的主动通知。这启用要求较少的直接用户交互并且创建更高效的系统。实际上,用户交互可以影响作为用于中断的系统暂停的系统的性能并且使用硬件密集用户界面输入。相反,系统是更高效的,因为其能够在不需要标识某些条件或者预测的用户引导的需要的情况下自动地执行动作。
进一步地,如下文所描述的,实施例可以通过在适当时选择较低的成本资源优化资源使用。例如,如果预测分析(即,预测类型的评价)是简单的(使得其可以通过本地系统中的简单程序来计算),则计算机程序将不使用外部机器学习资源,而是允许本地系统执行分析。此示例将是基于决策树的分类或者回归或者基于天真模型的时间序列预报。一般而言,如果线性执行时间(在输入数据大小方面)程序可以被设计为执行预测,则可以本地执行预测。
在一些实施例中,基于特征的知识,本发明的实施例可以通过执行用于本地预处理数据的动作而不是向机器学习服务202发送数据来优化机器学习资源使用。例如,在时间序列预报中,本发明的实施例可以在本地系统200处并且特别地在如下面更详细地讨论的ML优化子系统212处决定时间序列是白噪声并且因此防止数据204和元数据206被发送到机器学习服务202,其中分析将是非生产性的,因此节省机器学习服务202处的远程机器学习资源。另一示例是如果训练数据大小低于阈值,则不执行用于分类或者回归的训练。一般而言,如果可以确定数据太嘈杂(作为在第一示例中)或者存在太少数据,则数据不应当被发送。
如上所述,实施例能够主动地基于机器学习向用户提供洞察力(即,在没有明确地请求这些洞察力的用户的情况下)。这通过例如通过与表和列相关联的元数据、由元数据描述实现的后台处理和上下文和工作流集成、基于元数据的机器学习资源使用的优化等通过例如实现机器学习来支持。
本发明的一些实施例可以实现如在图2中所图示的各种部件。图2图示了系统200中的机器学习的架构示图。一个这样的系统可以是从华盛顿雷德蒙德的微软公司的动力学NAV。虚线下面的子系统是系统200的一部分(除如下所述之外),在所图示的示例中,虚线上面的商品在系统200外部。
图2中所图示的这些部件包括被包括在系统200中的ML子系统208。注意,虽然ML子系统208被示出在系统200中,但是应当理解,在一些实施例中ML子系统可以被实现为分离的系统。
所图示的ML子系统208包括ML预测子系统210、ML优化子系统212、ML通知子系统214和ML工作流子系统216。现在图示了这些的细节。
ML预测子系统210使用与表相关联的元数据注释。图1示出了其中标已经被注释以使用在回归预测类型中的这样的注释的示例。预测类型可以然后在训练预测模型中由开发者实例化和使用。参考图3和图4考虑以下代码:
Figure BDA0001935657740000071
Figure BDA0001935657740000081
此处,如在图3中的301处所图示的,该表(发票延迟日期预测)被注释以通过表100上的表元数据102而被使用在机器学习中。这通过表元数据来图示:“机器学习类型=回归”,并且通过以上代码并且在图1中的表元数据100中图示。
在一些实施例中,可以省略该表元数据102,在该情况下,类型从标签和特征的类型被推断。列元数据104指定其是需要基于如由元数据“机器学习角色=特征”所指示的剩余列中的数据通过包括:“机器学习角色=标签”的列元数据预测的延迟天数。
图3图示了在302处创建预测实例并且在303处调用预测训练。考虑以编程方式示出这两个动作如何执行的以下附加代码。
Figure BDA0001935657740000082
Figure BDA0001935657740000091
基于表元数据102、列元数据104以及包括数据中的先前的记录的训练数据(具有还包含用于标签的值的记录),机器学习预测子系统210将选择适当的预测模型并且训练所选择的模型(或者本地或者使用机器学习服务202),这使其可用于系统200以用于不包含用于标签的值的记录的未来预测。
ML优化子系统212检测训练是否可以本地运行(在服务器上)以不使用外部ML预测资源。示例将是计算自相关函数(ACF)以检测时间序列是白噪声并且因此机器学习服务202处的超前预报是既不必要也不有用的。计算ACF是便宜的并且随后预测可以是历史值的简单平均值。因此,如在图3中的304处所图示的,训练可以本地发生(例如,在系统200的ML子系统208或者基系统218处)。
如果训练未被本地执行,则训练模型将在机器学习服务202处执行,如在305处所图示的。
在任一情况下,经训练的模型(或者经训练的模型的标识)可以返回给系统200,其中其可以被用于利用经训练的模型更新预测实例(如在306处所图示的)并且被用于后续预测。
这大幅度地简化了编程用于程序员的预测的任务,因为程序员可以在熟悉的抽象(例如,表和元数据/特性)而不是机器学习抽象(例如,实验、训练、统计数字)方面编程。这意味着程序员可以在其定制的方案中直接地使用预测。
图4图示了用于简单预测的流程图。图4图示了将记录插入到用于训练的预测实例中(参见动作401和402)。这通过将丢失标签(对于所图示的示例而言)的记录添加到由图3中所示的动作创建的经训练的预测实例来完成。这通过以下代码图示。
Figure BDA0001935657740000101
然后,在没有如由以下代码所图示的标签的情况下在包括记录的预测实例上发起预测:
支付时间预测.设置回调(代码单元::"支付时间训练",'回调');
支付时间预测.预测(支付时间);
结束;
可以关于预测是否应当本地或者由机器学习服务202执行做出确定,如上文所描述的。预测系统在200处本地执行,如在403处所图示,或者如404处所图示的由机器学习服务202来执行。在任一情况下,插入的记录利用预测的标签来更新,如在405处所图示的。
ML通知系统214使用预测值标识其中用户应当在其工作的上下文中被通知的情况。示例将在销售发票的上下文中,其中用户借助于客户可能支付延迟的无闭塞消息框而被通知。在备选示例中,可以通知用户,同时其正创建基于用户应当重新进货一个或多个商品并且将某些商品添加到采购发票的销售预报和库存的采购发票。在图5中图示了此示例。
特别地,图5图示了用户界面500。用户在创建来自基应用或者扩展224的用户界面500中的经销商的采购发票的上下文中(参见图2)。销售预报可以通过机器学习服务202来执行,其标识用于从经销商可用的灯的可能销售。ML通知子系统214可以将灯的当前库存与可能销售相比较并且标识附加灯需要能够实现订单。ML通知子系统214可以通知到基系统218的通知子系统222,其可以然后显示在基应用或者扩展224处正由用户创建的发票502中的通知504。通知504可以包括允许请求灯的采购线被添加到发票502的可选择的链路。
注意,在一些实施例中,可以自动地采取动作,而不是提示用户。例如,采购线可以在没有用户交互的情况下自动地被添加到发票。说明性地,ML工作流子系统216使用预测值产生通过基系统218中的工作流子系统220作出反应的事件。例如,脱销产品的预测可以开始创建采购发票再订购产品或者将线添加到采购发票的自动化工作流。因此,例如,当预测实例的评估标识基于销售预报和库存预测产品应当重新进货时,图5中所图示的采购发票502可以针对用户自动地创建或者线可以被添加到采购发票502。
图6图示了其中用户在查看用户界面600中的库存信息的上下文中的示例。在图6中所图示的示例中,用户被呈现有库存预报602。库存预报602可以由机器学习服务202提供到ML通知子系统214,其向通知子系统222提供预报602。通知子系统222可以在用户界面600中显示库存预报602。此处,各种提示可以被提供给用户,或者用户可以具有用户可以自然而然发起的各种用户接口选项。例如,用户可以利用要求用户是否将愿意根据一些调度自动化更新预报数据的提示604来进行提示。如果用户肯定地作出反应,则工作流项可以被添加到ML工作流子系统216以根据调度提供自动化预报数据。备选地或者附加地,用户可以手动地指定将使得工作流项到ML工作流子系统216的参数。
因此,用户可以根据接收预报数据手动地发起联机过程中的其他工作。特别地,实施例可以允许用户从提供机器学习预测的相同的用户界面手动地发起任务。因此,例如,用户可以查看预报602。用户可能能够右键点击预报602并且被呈现有若干选项。这样的选项可以包括允许用户看到导致所显示的预测(在该示例中,预报602)的不同的预测的选项。因此,在所图示的示例中,用户可以发起显示库存预报和/或销售预报。备选地,用户可能能够基于预报602发起动作。例如,如所图示的,用户可能能够创建采购库存的发票。
以下讨论现在指代可以执行的若干方法和方法动作。虽然可以以特定次序讨论或者以如以特定次序发生的流程图中图示方法步骤,但是除非特别说明或者要求,否则不要求特定排序,因为动作取决于另一动作在该动作被执行之前被完成。
现在参考图7,图示了方法700。方法700可以被实践在计算环境中。方法包括用于将机器学习预测类型应用于数据的动作。
方法包括获得包括数据集以及与数据集相关联的元数据的预测实例,元数据包括预测类型(动作702)。例如,在所图示的示例中,数据可以包括发票编号、发票上的平均延迟天数、特定发票的总金额、支付条款以及用于特定发票的潜在地延迟天数。在其他示例中,通常可以获得其他企业数据或者其他数据。数据可以包括与表连接或者其他操作或者与其相关联来获得数据。元数据可以包括机器学习类型(例如,回归)的标识、标识符的标识、特征的标识和/或数据202中的标签的标识。
方法700还包括基于数据和元数据确定使用预测类型训练预测模型的实体(动作704)。例如,系统200可以分析数据204和元数据206并且确定是否将数据发送到机器学习服务202来训练模型或者使模型本地训练。有时,数据204和元数据206将不被发送到机器学习服务202,因为分析可以本地执行和/或机器学习服务202将不提供有意义的分析。
因此,方法700还包括从实体获得经训练的预测模型(动作706)。因此,例如,可以从机器学习服务202或者从机器学习预测子系统210获得预测模型。
可以实践其中实体是远程机器学习服务的方法700。如在图3(在302处)和图4(在402处)中所图示的,训练和预测通过远程机器学习服务202来执行。进一步地,现在参考图8,其图示了用于确定向远程机器学习服务提供数据和元数据的方法。图8图示了分析数据和元数据(动作802)。图8进一步图示了标识利用数据训练预测实例超过预定复杂性阈值(例如,在训练数据的大小方面)(动作804)。因此,方法800还包括向机器学习服务提供数据和元数据(动作806)。
如上所述,元数据标识机器学习预测类型。在这种情况下,数据和元数据被提供到机器学习服务,其应用所标识的机器学习预测类型的一般示例。因此,在所图示的示例中,元数据206标识回归预测类型,其然后使得数据204在机器学习服务202处被应用于一般回归预测类型。
在一些实施例中,方法还包括监视用户上下文信息并且当上下文相关时主动地将预测模型应用于预测实例,并且基于将预测模型应用于预测实例的结果来提供上下文相关建议。这样的上下文可以是应用中的执行点、用户界面屏幕、用户物理位置、用户角色、工作流中的角色和状态、应用数据的状态等。可以自动地完成预测。实施例可以将预测与上下文匹配。基于上下文和预测匹配,可以向用户提供建议。例如,如上文所图示的,如果用户在采购发票用户界面上下文中并且做出商品的附加库存被需要的预测,则用户可以被提示以将商品添加到采购发票。例如,图9图示了用于主动地应用预测模型的方法900,包括确定用户上下文(动作902)。方法900还包括确定适用于预测模型的上下文(动作904)。方法900还包括确定用户上下文与适用于预测模型的上下文相匹配(动作906)。
在一些实施例中,方法700还包括监视当前条件并且基于将预测模型应用于预测实例来自动地执行功能。例如,如上文所图示的,发票可以在新库存被需要时自动地生成。例如,图10图示了用于监视当前条件并且基于将预测模型应用于预测实例自动地执行功能的方法1000。方法1000包括确定条件(动作1002)。方法1000还包括确定该条件与适用于预测模型的条件相匹配(动作1004)。因此,方法1000还包括执行任务集(动作1006)。
可以实践其中实体是本地系统的方法700。例如,如上文所图示的,ML优化子系统212可以确定时间序列是白噪声并且由机器学习服务202造成的分析将不是有用的。图11图示了用于确定向本地系统提供数据和元数据的方法。图11图示了分析数据和元数据(动作1102)。图2进一步图示了标识利用数据训练预测实例低于预定复杂性阈值或者将不通过外部服务从训练受益(动作1104)。
可以实践其中元数据被包括在具有数据的数据表中的方法700,诸如图1中所图示的。备选地,可以实践其中元数据被包括在与具有数据的表分离的侧结构中的方法700。
进一步地,可以通过包括一个或多个处理器和计算机可读介质(诸如计算机存储器)实践方法。特别地,计算机存储可以存储当由一个或多个处理器执行时使得各种功能被执行的计算机可执行指令(诸如实施例中所记载的动作)。
本发明的实施例可以包括或者利用包括计算机硬件的专用或通用计算机,如下面更详细地讨论的。本发明的范围内的实施例还包括用于携带或者存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是物理存储介质。携带计算机可执行指令的计算机可读介质是传输介质。因此,以示例而非限制的方式,本发明的实施例可以包括至少两个不同地不同的种类的计算机可读介质:物理计算机可读存储介质和传输计算机可读介质。
物理计算机可读存储介质包括RAM、ROM、EEPROM、CD-ROM或者其他光盘存储装置(诸如CD、DVD等)、磁盘存储装置或者其他磁性存储设备或者可以被用于以计算机可执行指令或数据结构的形式存储期望的程序代码装置并且可以由通用或专用计算机访问的任何其他介质。
“网络”被定义为实现计算机系统和/或模块和/或其他电子设备之间的电子数据的传输的一个或多个数据链路。当信息通过网络或另一通信连接(或者硬连线、无线或者硬连线或无线的组合)被传送或被提供到计算机时,计算机适当地将连接视为传输介质。传输介质可以包括可以被用于以计算机可执行指令或数据结构的形式携带期望的程序代码装置并且可以由通用或专用计算机访问的网络和/或数据链路。上文的组合也被包括在计算机可读介质的范围内。
进一步地,在到达各种计算机系统组件时,以计算机可执行指令或数据结构的形式的程序代码装置可以从传输介质自动地传送到物理计算机可读存储介质(或反之亦然)。例如,通过网络或数据链路接收到的计算机可执行指令或数据结构可以被缓冲在网络接口模块(例如,“NIC”)内的RAM中,并且然后最终地被传送到计算机系统RAM和/或计算机系统处的较少的易失性计算机可读物理存储介质。因此,计算机可读物理存储介质可以被包括在还(或甚至主要地)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如使得通用计算机、专用计算机或者专用处理设备以执行特定功能或功能组的指令和数据。计算机可执行指令可以是例如二进制、中间格式指令(诸如汇编语言或甚至源代码)。虽然已经以特定于结构特征和/或方法动作的语言描述主题,但是将理解到,所附权利要求中定义的主题不必限于上文所描述的特征或者动作。相反,所描述的特征和行为被公开为实现权利要求的示例形式。
本领域的技术人员将理解到,本发明可以被实践在具有许多类型的计算机系统配置的网络计算环境中,包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、可穿戴设备、多处理器系统、基于微处理器或可编程的消费者电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机,等等。本发明还可以被实践在其中通过网络链接(或者通过硬连线数据链路、无线数据链路或者通过硬连线数据链路和无线数据链路的组合)本地计算系统和远程计算机系统二者执行任务的分布式系统环境中。在分布式系统环境中,程序模块可以被定位在本地存储器存储设备和远程存储器存储设备二者中。
在不脱离其精神或特点的情况下,可以以其他特定形式实现本发明。所描述的实施例将在所有方面中仅被认为是说明性而非限制性的。因此,本发明的范围由所附权利要求书而不是由前述描述指示。落在权利要求的等效物的意义和范围内的所有改变将被包含在其范围内。

Claims (20)

1.一种计算机系统,包括:
一个或多个处理器;以及
一个或多个计算机可读介质,所述一个或多个计算机可读介质具有存储在其上的指令,所述指令由所述一个或多个处理器可执行以将所述计算机系统配置为将机器学习预测应用于数据,包括可执行以将所述计算机系统配置为至少执行以下各项的指令:
获得包括在表中的训练数据集的预测实例,其中所述表已经使用被存储在所述表中的元数据连同所述训练数据集被注释,所述元数据包括针对所述表中的所述训练数据集的预测类型;
基于所述训练数据集和所述元数据,确定用于使用所述预测类型来训练预测模型的实体;
作为结果,从所述实体获得经训练的预测模型,所述经训练的预测模型使用所述元数据中的所述预测类型来训练;以及
监视用户上下文信息,并且当上下文相关时主动地将所述预测模型应用于所述预测实例,以及基于将所述预测模型应用于所述预测实例的结果来提供上下文相关建议。
2.根据权利要求1所述的计算机 系统,其中所述实体是远程机器学习服务。
3.根据权利要求1所述的计算机 系统,其中所述一个或多个计算机可读介质还具有存储在其上的指令,所述指令由所述一个或多个处理器可执行以将所述计算机系统配置为:监视当前条件,以及基于所述预测模型到所述预测实例的应用来自动地执行功能。
4.根据权利要求1所述的计算机 系统,其中所述预测实例被更新以包括用于预测的记录,其中所述一个或多个计算机可读介质还具有存储在其上的指令,所述指令由所述一个或多个处理器可执行以将所述计算机系统配置为:确定预测应当使用所述经训练的预测模型和所述预测实例针对用于预测的所述记录而被本地执行。
5.根据权利要求1所述的计算机 系统,其中所述实体是本地系统。
6.根据权利要求5所述的计算机 系统,其中确定用于训练所述预测模型的所述实体被执行作为确定所述数据中的时间序列是白噪声的结果。
7.根据权利要求1所述的计算机 系统,其中所述元数据也被包括在与具有所述数据的所述表分离的侧结构中。
8.一种将机器学习预测应用于数据的计算机实现的方法,所述方法包括:
获得包括在表中的数据集以及在所述表中的与所述数据集相关联的元数据的预测实例,在所述表中的所述元数据包括:适用于整个表的元数据和适用于所述表中的各个个体列的所述表的列中的个体列元数据,所述元数据包括预测类型;
基于所述数据和所述元数据,确定用于使用所述预测类型来针对所述表中的所述数据集训练预测模型的实体;
作为结果,从所述实体获得经训练的预测模型,所述经训练的预测模型使用所述元数据中的所述预测类型来训练;以及
监视用户上下文信息,并且当上下文相关时主动地将所述预测模型应用于所述预测实例,以及基于将所述预测模型应用于所述预测实例的结果来提供上下文相关建议。
9.根据权利要求8所述的方法,其中所述实体是远程机器学习服务。
10.根据权利要求8所述的方法,还包括监视当前条件,以及基于所述预测模型到所述预测实例的应用来自动地执行功能。
11.根据权利要求8所述的方法,其中所述预测实例被更新以包括用于预测的记录,所述方法还包括确定预测应当使用所述经训练的预测模型和所述预测实例针对用于预测的所述记录而被本地执行。
12.根据权利要求8所述的方法,其中所述实体是本地系统。
13.根据权利要求12所述的方法,其中确定用于训练所述预测模型的所述实体被执行作为确定所述数据中的时间序列是白噪声的结果。
14.根据权利要求8所述的方法,其中所述元数据也被包括在与具有所述数据的所述表分离的侧结构中。
15.一种计算机系统,包括:
机器学习子系统,其包括:
机器学习优化系统,其被配置为:获得包括在表中的训练数据集以及在所述表中的与所述训练数据集相关联的元数据的预测实例,所述元数据针对所述表中的所述训练数据集标识预测类型;以及基于所述训练数据和所述元数据,确定用于使用所述预测类型来训练预测模型的实体,所述预测模型使用所述元数据中的所述预测类型来训练;以及
机器学习通知系统,其被配置为:监视用户上下文信息,并且当上下文相关时主动地将所述预测模型应用于所述预测实例,以及基于将所述预测模型应用于所述预测实例的结果来提供上下文相关建议。
16.根据权利要求15所述的计算机 系统,还包括机器学习工作流系统,其被配置为:监视当前条件,以及基于所述预测模型到所述预测实例的应用来自动地执行功能。
17.根据权利要求15所述的计算机 系统,还包括机器学习预测子系统,其被配置为:在所述机器学习子系统处根据所述预测类型来训练所述预测模型,并且利用经训练的所述预测模型来更新所述预测实例。
18.根据权利要求15所述的计算机 系统,其中所述实体是远程机器学习服务。
19.根据权利要求15所述的计算机 系统,其中所述实体是本地系统。
20.根据权利要求15所述的计算机 系统,其中确定用于训练所述预测模型的所述实体被配置为被执行作为确定所述数据中的时间序列是白噪声的结果。
CN201780041791.4A 2016-07-08 2017-07-03 用于系统的元数据驱动的机器学习 Active CN109416765B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662360170P 2016-07-08 2016-07-08
US62/360,170 2016-07-08
US15/288,978 2016-10-07
US15/288,978 US10885463B2 (en) 2016-07-08 2016-10-07 Metadata-driven machine learning for systems
PCT/US2017/040574 WO2018009474A1 (en) 2016-07-08 2017-07-03 Metadata-driven machine learning for systems

Publications (2)

Publication Number Publication Date
CN109416765A CN109416765A (zh) 2019-03-01
CN109416765B true CN109416765B (zh) 2022-03-25

Family

ID=60910924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780041791.4A Active CN109416765B (zh) 2016-07-08 2017-07-03 用于系统的元数据驱动的机器学习

Country Status (4)

Country Link
US (1) US10885463B2 (zh)
EP (1) EP3482352A1 (zh)
CN (1) CN109416765B (zh)
WO (1) WO2018009474A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240144131A1 (en) * 1924-11-09 2024-05-02 Zoho Corporation Private Limited Virtualization and instantiation of workflow assets
US10147079B2 (en) 2015-04-14 2018-12-04 Square, Inc. Open ticket payment handling with offline mode
US10762484B1 (en) * 2015-09-30 2020-09-01 Square, Inc. Data structure analytics for real-time recommendations
US11151528B2 (en) 2015-12-31 2021-10-19 Square, Inc. Customer-based suggesting for ticket splitting
US11030673B2 (en) * 2016-07-28 2021-06-08 International Business Machines Corporation Using learned application flow to assist users in network business transaction based apps
US11222270B2 (en) 2016-07-28 2022-01-11 International Business Machiness Corporation Using learned application flow to predict outcomes and identify trouble spots in network business transactions
US10210283B2 (en) 2016-09-28 2019-02-19 International Business Machines Corporation Accessibility detection and resolution
US10872383B2 (en) * 2017-02-14 2020-12-22 Oracle International Corporation Using a model to estimate a payment delinquency for an invoice
US20190172012A1 (en) * 2017-12-05 2019-06-06 Standvast Healthcare Fulfillment, LLC Healthcare supply chain management systems, methods, and computer program products
CN110334813A (zh) * 2018-03-28 2019-10-15 株式会社日立制作所 运营管理方法及运营管理系统
US10930395B2 (en) 2018-11-23 2021-02-23 Asheleigh Adeline Mowery System for surgical decisions using deep learning
US11354351B2 (en) 2019-01-31 2022-06-07 Chooch Intelligence Technologies Co. Contextually generated perceptions
US11410181B2 (en) * 2019-02-15 2022-08-09 Highradius Corporation Event prediction using artificial intelligence
US11347613B2 (en) 2019-10-15 2022-05-31 UiPath, Inc. Inserting probabilistic models in deterministic workflows for robotic process automation and supervisor system
EP4107925A4 (en) * 2020-02-17 2023-06-07 Bigid Inc. MACHINE LEARNING SYSTEMS AND METHODS FOR PREDICTING PERSONAL INFORMATION USING FILE METADATA
US11443144B2 (en) * 2020-03-17 2022-09-13 Microsoft Technology Licensing, Llc Storage and automated metadata extraction using machine teaching
US10956255B1 (en) 2020-04-24 2021-03-23 Moveworks, Inc. Automated agent for proactively alerting a user of L1 IT support issues through chat-based communication
US11651281B2 (en) * 2020-05-18 2023-05-16 International Business Machines Corporation Feature catalog enhancement through automated feature correlation
AU2021331645A1 (en) * 2020-08-31 2023-03-02 Honeywell International Inc. Enterprise spend optimization and mapping model architecture
US11568067B2 (en) * 2020-09-21 2023-01-31 Sap Se Smart direct access
US11941497B2 (en) * 2020-09-30 2024-03-26 Alteryx, Inc. System and method of operationalizing automated feature engineering
TR202018781A2 (tr) * 2020-11-23 2021-04-21 Tuerkiye Garanti Bankasi Anonim Sirketi Bi̇r ödeme öneri̇ si̇stemi̇
US20230177032A1 (en) * 2021-12-08 2023-06-08 International Business Machines Corporation Performing automated semantic feature discovery
KR20230089966A (ko) * 2021-12-14 2023-06-21 주식회사 엔젤게임즈 인공 지능 로봇의 학습 및 인공 지능 로봇을 학습시키는 인공 지능 모델의 거래를 제어하는 방법 및 시스템
CN114756211B (zh) * 2022-05-13 2022-12-16 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015088841A1 (en) * 2013-12-13 2015-06-18 Microsoft Technology Licensing, Llc Personalized machine learning models
US9269054B1 (en) * 2011-11-09 2016-02-23 BigML, Inc. Methods for building regression trees in a distributed computing environment

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5810014A (en) * 1997-03-25 1998-09-22 Davis; Dennis W. Method and system for detection of physiological conditions
US7624074B2 (en) * 2000-08-07 2009-11-24 Health Discovery Corporation Methods for feature selection in a learning machine
US6823334B2 (en) * 2002-03-07 2004-11-23 International Business Machines Corporation Metadata system for managing data mining environments
US6970882B2 (en) * 2002-04-04 2005-11-29 International Business Machines Corporation Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US9565275B2 (en) 2012-02-09 2017-02-07 Rockwell Automation Technologies, Inc. Transformation of industrial data into useful cloud information
US7437334B2 (en) * 2004-12-03 2008-10-14 Hewlett-Packard Development Company, L.P. Preparing data for machine learning
US7730448B2 (en) * 2005-08-11 2010-06-01 Microsoft Corporation Layered type systems
US7672909B2 (en) 2006-09-28 2010-03-02 Microsoft Corporation Machine learning system and method comprising segregator convergence and recognition components to determine the existence of possible tagging data trends and identify that predetermined convergence criteria have been met or establish criteria for taxonomy purpose then recognize items based on an aggregate of user tagging behavior
US7930639B2 (en) 2007-09-26 2011-04-19 Rockwell Automation Technologies, Inc. Contextualization for historians in industrial systems
US8417715B1 (en) * 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
US8595154B2 (en) * 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8843427B1 (en) * 2011-07-01 2014-09-23 Google Inc. Predictive modeling accuracy
US20150170048A1 (en) 2011-08-12 2015-06-18 Wei-Hao Lin Determining a Type of Predictive Model for Training Data
US8498986B1 (en) 2012-01-31 2013-07-30 Business Objects Software Ltd. Classifying data using machine learning
US9015086B2 (en) * 2012-03-23 2015-04-21 Sap Se Learnable contextual network
US20130325770A1 (en) * 2012-06-05 2013-12-05 Sap Ag Probabilistic language model in contextual network
US9253054B2 (en) 2012-08-09 2016-02-02 Rockwell Automation Technologies, Inc. Remote industrial monitoring and analytics using a cloud infrastructure
US9438648B2 (en) 2013-05-09 2016-09-06 Rockwell Automation Technologies, Inc. Industrial data analytics in a cloud platform
US9218574B2 (en) * 2013-05-29 2015-12-22 Purepredictive, Inc. User interface for machine learning
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
US20150006192A1 (en) * 2013-06-26 2015-01-01 WellDoc, Inc. Systems and methods for clinical decision-making
US20150026114A1 (en) 2013-07-18 2015-01-22 Dania M. Triff System and method of automatically extracting data from plurality of data sources and loading the same to plurality of target databases
WO2015192239A1 (en) 2014-06-20 2015-12-23 Miovision Technologies Incorporated Machine learning platform for performing large scale data analytics
US10026041B2 (en) 2014-07-12 2018-07-17 Microsoft Technology Licensing, Llc Interoperable machine learning platform
US10387794B2 (en) * 2015-01-22 2019-08-20 Preferred Networks, Inc. Machine learning with model filtering and model mixing for edge devices in a heterogeneous environment
WO2016130858A1 (en) * 2015-02-11 2016-08-18 Skytree, Inc. User interface for unified data science platform including management of models, experiments, data sets, projects, actions, reports and features
RU2015111013A (ru) * 2015-03-26 2016-10-20 ИЭмСи КОРПОРЕЙШН Представление и хранение метаданных
US10200824B2 (en) * 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
EP3278213A4 (en) * 2015-06-05 2019-01-30 C3 IoT, Inc. SYSTEMS, METHODS AND DEVICES FOR AN APPLICATION DEVELOPMENT PLATFORM OF AN INTERNET OF THE THINGS OF A COMPANY
US9690938B1 (en) * 2015-08-05 2017-06-27 Invincea, Inc. Methods and apparatus for machine learning based malware detection
US10387798B2 (en) * 2015-12-16 2019-08-20 Accenture Global Solutions Limited Machine for development of analytical models
US10438132B2 (en) * 2015-12-16 2019-10-08 Accenture Global Solutions Limited Machine for development and deployment of analytical models
US10607150B2 (en) * 2016-02-23 2020-03-31 Splunk Inc. Machine-learning data analysis tool
US10229186B1 (en) * 2016-03-18 2019-03-12 EMC IP Holding Company LLC Data set discovery engine comprising relativistic retriever

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9269054B1 (en) * 2011-11-09 2016-02-23 BigML, Inc. Methods for building regression trees in a distributed computing environment
WO2015088841A1 (en) * 2013-12-13 2015-06-18 Microsoft Technology Licensing, Llc Personalized machine learning models

Also Published As

Publication number Publication date
CN109416765A (zh) 2019-03-01
EP3482352A1 (en) 2019-05-15
US10885463B2 (en) 2021-01-05
US20180012143A1 (en) 2018-01-11
WO2018009474A1 (en) 2018-01-11

Similar Documents

Publication Publication Date Title
CN109416765B (zh) 用于系统的元数据驱动的机器学习
US11954112B2 (en) Systems and methods for data processing and enterprise AI applications
Zur Mühlen et al. Business process analytics
US20200125635A1 (en) Systems and methods for intelligently predicting accurate combinations of values presentable in data fields
Poll et al. Process forecasting: Towards proactive business process management
Castellanos et al. ibom: A platform for intelligent business operation management
US10902341B1 (en) Machine learning based list recommendations
Ingvaldsen et al. Industrial application of semantic process mining
US20200104723A1 (en) Industrial automation compute engine syndication
US11126946B2 (en) Opportunity driven system and method based on cognitive decision-making process
AU2019213379B2 (en) Platform product recommender
US11004005B1 (en) Electronic problem solving board
US20130212155A1 (en) Processing event instance data in a client-server architecture
US20100030604A1 (en) Executing Business Rules in a Business Process
US11715052B2 (en) Monitoring and adapting a process performed across plural systems associated with a supply chain
US9785918B2 (en) Predicting the severity of an active support ticket
US20210011465A1 (en) Industrial automation project acceleration
Scholz-Reiter et al. Engineering autonomously controlled logistic systems
US20220163950A1 (en) Industrial automation personalization engine
US20150346918A1 (en) Predicting the Severity of an Active Support Ticket
Franch et al. Quality-aware rapid software development project: the Q-rapids project
US20180046974A1 (en) Determining a non-optimized inventory system
US20200371999A1 (en) System and computer program for providing automated actions and content to one or more web pages relating to the improved management of a value chain network
Herden et al. An Agile approach to improve process-oriented software development
Luckham et al. Why Companies Should Develop Event Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant