CN110520872A

CN110520872A - 嵌入式预测机器学习模型

Info

Publication number: CN110520872A
Application number: CN201880020288.5A
Authority: CN
Inventors: S.安巴蒂; T.克拉尔杰维奇; P.斯特岑克; S.乔希
Original assignee: H2o Artificial Intelligence Co
Current assignee: H2o Artificial Intelligence Co
Priority date: 2017-03-31
Filing date: 2018-03-30
Publication date: 2019-11-29
Anticipated expiration: 2038-03-30
Also published as: WO2018183816A1; CN110520872B; EP3602420A1; US20180293462A1; EP3602420A4; WO2018183816A8

Abstract

与一个或多个数据源相关联的数据通过使用一个或多个变换器而被变换成与公共本体相关联的格式。至少部分地基于经变换的数据来生成一个或多个机器学习模型。所述一个或多个机器学习模型和所述一个或多个变换器被提供到远程设备。

Description

嵌入式预测机器学习模型

其他申请的交叉引用

本申请对2017年3月31日提交的、题为EMBEDDED PREDICTIVE MACHINE LEARNINGMODELS的、申请号为62/479,968的美国临时专利申请要求优先权，所述美国临时专利申请通过引用被并入本文中用于所有目的。

本发明的背景

与实体（例如个体、企业、设备、机器等等）相关联的信息可以跨多个数据库被存储。用来将与实体相关联的信息存储在第一数据库、即本体中的方式可能不一定与用来将信息存储在一个或多个其他数据库中的方式相同。例如，一个数据库可以通过个体的社保号来标识个体，而第二数据库可以通过个体的驾驶执照号来标识相同的个体。另一数据库可以将个体的生日标识为2000年1月1日，而另一数据库可以将个体的生日标识为01/01/00。作为结果，这些不一致性使得难以将来自多个数据库的与实体相关联的信息组合到单个数据库中。

机器学习是计算机科学的领域，其给予计算机在没有被显式编程的情况下学习的能力。计算机可以包括机器学习模型，所述机器学习模型能够被训练以实现复杂的函数，所述复杂的函数被配置成基于输入集合来生成一个或多个预测。经训练的机器学习模型被配置成像黑盒一样起作用：它接收生产数据，所述生产数据被应用到所述复杂函数，并且输出一个或多个预测标签。

然而，经训练的机器学习模型的准确性受用于训练机器学习模型的数据所限制。当用于训练机器学习模型的数据利用不同的本体而跨多个数据库被存储的时候，训练机器学习模型来输出准确的预测标签可能是困难的。

附图说明

在以下详细描述和附图中公开本发明的各种实施例。

图1是一框图，其图示了用于嵌入式预测机器学习模型的系统的实施例。

图2A是一图解，其图示了输入数据集的实施例。

图2B是一图解，其图示了所组合的数据集的实施例。

图3是一流程图，其图示了用于生成可导出的机器学习模型的过程的实施例。

图4是一流程图，其图示了用于生成预测的过程的实施例。

具体实施方式

本发明可以用众多方式来被实现，包括被实现为过程；装置；系统；物质的组成；在计算机可读存储介质上具体化的计算机程序产品；和/或处理器，诸如被配置成执行在耦合到处理器的存储器上所存储的和/或由该存储器所提供的指令的处理器。在本说明书中，这些实现方式、或本发明可以采取的任何其他形式可以被称为技术。通常，所公开的过程的步骤的次序可以在本发明的范围内变更。除非另行声明，否则诸如被描述为被配置成执行任务的处理器或存储器之类的部件可以被实现为在给定时间临时被配置成执行该任务的通用部件或被制造成执行该任务的特定部件。如本文中所使用的，术语“处理器”是指被配置成处理诸如计算机程序指令之类的数据的一个或多个设备、电路和/或处理核。

本发明的一个或多个实施例的详细描述在以下连同图示发明原理的附图一起被提供。结合这样的实施例来描述本发明，但是本发明不限于任何实施例。仅仅通过权利要求来限制本发明的范围，并且本发明涵盖众多可替换方案、修改和等同物。在以下描述中阐明众多特定细节以便提供对本发明的透彻理解。这些细节被提供用于示例的目的，并且可以根据权利要求、在没有这些特定细节中一些或全部的情况下实践本发明。为了清楚的目的，在与本发明有关的技术领域中已知的技术材料没有被详细描述以便不会不必要地使本发明模糊。

计算设备可以被配置成实现机器学习模型。机器学习模型可以被训练以基于输入数据集合来输出预测。输入数据集合包括多个条目。每个条目相关联于具有对应特征值的多个特征。每个条目可以相关联于对应的预测标签。输入数据集合可以被分类成训练数据和验证数据。训练数据可以用于训练机器学习模型。机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被动态地调谐以改进机器学习模型的准确性。在输入数据集合中所包括的验证数据可以用于验证所训练的机器学习模型。在机器学习模型具有在阈值准确性以上的准确性的情况中，所述机器学习模型准备好供生产数据使用。否侧，所述机器学习模型被重新训练并且重新验证以产生更准确的机器学习模型。

在机器学习模型被训练和验证之后，生产数据可以被应用到所述机器学习模型。然而，这样的应用假定生产数据包括用于训练/验证机器学习模型的相同特征，以及具有与用于训练/验证机器学习模型的特征值相同的类型和/或格式的对应值的特征。作为结果，在生产数据不遵从用于训练/验证机器学习模型的本体的情况中，机器学习模型可能不输出准确的预测。

公开了与多个数据类型和/或格式兼容的嵌入式预测机器学习模型。

可以从多个源累积数据。在一些实施例中，可以从多个类型的设备（例如IoT设备、传感器、医学设备等等）接收数据。所述数据可以包括与设备相关联的时间序列数据。可以从时间序列数据生成一个或多个元数据特征。可以基于与ECG设备相关联的时间序列数据来生成例如心率、心率变化、PQRST斜率等等的特征（例如幅度相对于时间）。由设备输出的时间序列数据可以与实体（例如患者、个体、公司等等）相关联。例如，ECG设备可以被连接到患者，并且时间序列数据可以被标识为是患者的数据。在一些实施例中，可以基于由所述设备输出的时间序列数据来标识人员。

在一些实施例中，从多个不同的数据库接收数据。所述多个不同的数据库可以使用不同的本体来存储数据。例如，一个数据库可以通过使用GPS坐标来存储位置数据，而另一数据库可以通过使用地址信息来存储位置数据。不一致的数据本体使得难以将来自多个数据库的数据组合到单个数据库中，因为难以确定第一数据库的条目是第二数据库的相同条目还是不同条目。例如，与患者相关联的信息可以被存储在与第一保险提供商相关联的数据库中。患者可以更换保险提供商。当患者访问与第二保险提供商相关联的医学专业人员的时候，患者的信息可以被存储在与第二保险提供商相关联的数据库中。将被存储在与第一保险提供商相关联的数据库中的患者信息与被存储在与第二保险提供商相关联的数据库中的患者信息组合到单个数据库中可能是困难的，因为这两个数据库可以存储相同类型的数据，但是不一定以相同格式。例如，与第一保险提供商相关联的数据库可以用“名姓”格式来存储患者的名字，而与第二保险提供商相关联的数据库可以用“姓、名、中间名缩写”格式来存储患者的名字。第一数据库可以用“123456789”格式来存储个体的社保号，而第二数据库可以用“123-45-6789”格式来存储个体的社保号。

与多个数据库相关联的数据可以被组合以生成经组合的数据集。不一致的数据本体也使得将来自多个数据库的数据组合到单个数据库中变得困难，因为难以确定与第一数据库的条目相关联的特征是否是与第二数据库的条目相关联的相同特征。例如，与第一数据库相关联的条目以及与第二数据库相关联的条目二者都可以存储位置数据，但是特征值的格式不同。与第一数据库相关联的条目可以存储完整地址（例如街道、城市、国家、邮政编码），并且与第二数据库相关联的条目仅仅可以存储邮政编码信息。

不一致的数据本体使得难以在所组合的数据集上执行机器学习，因为与实体相关联的条目可以在所组合的数据集内具有多于一个条目，并且与特征相关联的特征值可以通过使用不一致的格式来被存储。可以至少部分地通过将与多个数据库相关联的数据变换成公共本体而生成机器学习型机器。一个或多个变换器可以被应用到数据以将数据变换成公共格式。例如，与条目相关联的名字信息可以从“姓、名、中间名缩写”被转换成“名姓”格式。与条目相关联的社保号信息可以从“123-45-6789”格式被转换成“123456789”格式。将与条目相关联的标识信息转换成公共格式跨能够被合并的多个数据库而标识条目。可以通过组合与第一数据库相关联的特征以及与一个或多个其他数据库相关联的特征来合并具有相同标识的条目。例如，与第一数据库相关联的条目可以包括诸如“名字、社保号、年龄、职业、工资、政治面貌”之类的特征。与第二数据库相关联的条目可以包括诸如“名字、社保号、身高、体重、性别、年龄”之类的特征。第一数据库和第二数据库的特征可以被合并到单个条目中，所述单个条目包括特征“名字、社保号、年龄、职业、工资、政治面貌、身高、体重、性别”。在一些实施例中，与条目相关联的特征可以与从设备的时间序列数据所生成的特征元数据相组合。例如，与条目相关联的特征可以包括“名字、社保号、年龄、职业、工资、政治面貌、身高、体重、性别、心率、心率变化、PQRST斜率”。

一个或多个变换器可以被应用到特征值，以将所述特征值变换成公共格式，用于确保在一致的特征值上训练机器学习模型。例如，第一数据库可以具有与作为GPS坐标被存储的位置特征相关联的特征值。第二数据库可以具有与作为五数位邮政编码被存储的位置特征相关联的特征值。如果第一数据库与第二数据库相组合，则一些条目将具有针对位置特征的GPS坐标，而一些条目将具有作为特征值的五数位邮政编码。GPS坐标可以被转换成五数位邮政编码。当第一数据库与第二数据库相组合以生成经组合的数据集的时候，每个条目将具有五数位邮政编码作为针对位置特征的特征值。通过使用公共本体来转换数据库数据使得能够在一致的特征值上训练机器学习模型。

一个或多个变换器可以被应用到所组合的数据集以生成一个特征或新特征。变换在一个或多个特征上执行操作以创建新特征。例如，变换可以执行一操作，所述操作组合与两个不同的特征相关联的特征值以创建新特征。可以基于与特征值相关联的数据类型来选择变换。与特征值相关联的数据类型可以是浮动值、整数值、序数值、分类值、字符串等等。变换可以使用字符串作为输入，并且具有针对特征值的字符串值的特征可以被选择并且被变换。可以随机选择变换。

在一些实施例中，选择所述多个特征中的一特征。在其他实施例中，选择没有被包括在所述多个特征中的一特征。所选特征是如下一种特征：针对所述特征，将训练机器学习模型以预测对应的特征标签（例如特征值）。

特征集合和对应的特征值被选择并且用于训练机器学习模型。在一些实施例中，所述特征集合包括在所组合的数据集中所包括的一个或多个特征。在其他实施例中，所述特征集合包括所述一个或多个新特征中的至少一个。在其他实施例中，所述特征集合包括所述一个或多个新特征中的至少一个以及在所组合的数据集中所包括的所述一个或多个特征的组合。

所组合的数据集可以被分类成训练数据和验证数据。可以通过使用机器学习算法来生成机器学习模型，所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习、梯度提升机器、广义线性模型、数学平均等等。在一些实施例中，机器学习模型被配置成输出与在所组合的数据集中所包括的特征中之一相关联的预测标签。在其他实施例中，机器学习模型被配置成输出与数据集的条目相关联的预测标签（例如条目展现异常行为，条目与心脏病相关联）。在其他实施例中，机器学习模型被配置成输出与没有被包括在所组合的数据集中的特征相关联的预测标签。例如，没有被包括在数据集中的特征可以是“最大速度”。然而，数据集可以包括“制造”和“建模”特征。考虑到特征集合以及对应的特征值，机器学习模型可以被配置成预测与条目相关联的“最大速度”。

通过使用所组合的数据集（例如训练数据）的子集来训练机器学习模型，所述所组合的数据集（例如训练数据）的子集包括具有特征集合以及对应的特征值的多个条目。所组合的数据集的条目可以具有相关联的预测标签。机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被动态地调谐以改进机器学习模型的准确性。

在所组合的数据集中所包括的验证数据可以用于验证所训练的机器学习模型。验证数据可以核实所训练的机器学习模型的准确性。机器学习模型可以经历训练/验证的一个或多个迭代，直到达到阈值验证评分（例如准确性）为止。

经训练和验证的机器学习模型和相关联的变换器可以被提供给远程设备。远程设备可以执行应用并且存储与应用相关联的数据。所述应用可以不被配置成做出一个或多个预测，并且与所述应用相关联的数据可以不通过使用如下本体来被存储：所述本体与同经训练和验证的机器学习模型相关联的本体一致。重写应用来执行预测可能需要许多资源（例如时间、金钱等等），并且可能是对资源的低效使用，因为难以预测应用用户可能有的未来查询的类型。改变用来存储与应用相关联的数据的方式可能是困难的，因为它还将需要将应用重写以用与公共本体相一致的格式输出数据。

提供经训练和验证的机器学习模型及其相关联的变换器可以提供解决方案，因为所提供的机器学习模型可以被嵌入在应用内，并且使得应用能够做出该应用先前没有被配置的预测，而不必重写应用。提供变换器允许与应用相关联的数据被转换成可由机器学习模型使用而不必重写应用的格式。

图1是一框图，其图示了用于嵌入式预测机器学习模型的系统的实施例。在所示出的示例中，系统100包括数据库112、114、116、（一个或多个）设备118、模型生成平台120和远程设备130。

数据库112、114、116被配置成存储与多个实体相关联的数据。实体可以是例如人员、银行、金融机构、企业、医院、政府机构、机器、设备、航空公司等等。与实体相关联的数据可以是半结构化或结构化的。与实体相关联的数据可以包括多个条目。例如，数据库可以存储与多个患者相关联的医学记录。每个条目可以相关联于多个特征和对应的特征值。例如，条目可以相关联于特征“名字、地址、出生日期、性别、体重、身高、血压、温度”，其具有特征值“约翰·史密斯、123 Main St.、01/01/00、男性、180磅、72英寸、120:80、99”。

数据库112可以被配置成通过使用第一本体来存储数据。数据库114可以被配置成通过使用第二本体来存储数据。数据库116可以被配置成通过使用第n本体来存储数据。本体以特定的方式来描述与实体相关联的数据。在一些实施例中，由本体用来描述数据的方式不同于由另一本体用来描述数据的方式。例如，数据库112可以被配置成通过使用度量单位来存储数据，而数据库114可以被配置成通过使用英制单位来存储数据。在一些实施例中，由本体用来描述数据的方式与由另一本体用来描述数据的方式相同。例如，数据库114和数据库116二者都可以被配置成以“MM/DD/YYYY”格式来存储“出生日期”信息。

与数据库112、114、116相关联的数据可以被提供到模型生成平台120。在一些实施例中，在周期性基础（例如每日、每周、每月等等）上提供数据。在其他实施例中，响应于来自模型生成平台120的请求而提供数据。

数据库112、114、116可以经由网络连接而被连接到模型生成平台120。网络连接可以包括以下中的一个或多个：局域网、广域网、有线网络、无线网络、因特网、内联网或任何其他适当的通信网络。数据库112、114、116可以通过使用一个或多个服务器、一个或多个计算设备、一个或多个存储设备和/或其组合来被存储。

（一个或多个）设备118可以被配置成将时间序列数据提供到模型生成平台120。时间序列数据可以与实体相关联。实体可以是例如人员、银行、金融机构、企业、医院、政府机构、机器、设备、航空公司等等。设备可以是ECG设备，并且提供与患者相关联的时间序列数据。设备可以是IoT设备，并且提供与设备（例如自动调温器、灯泡、门锁、冰箱、车辆、植入器件、起搏器等等）相关联的时间序列数据。设备可以是输出时间序列数据的传感器。例如，传感器数据可以包括温度传感器值、邻近传感器值、电感传感器值、电容值、光电值、超声传感器值、加速度传感器值、亮度传感器值、压力传感器值、力值、水品质值、电导率传感器值、浊度传感器值、总有机碳传感器值、氯残留传感器值、pH传感器值、化学传感器值、气体传感器值、二氧化碳传感器值、酒精气息检测器值、一氧化碳传感器值、催化珠传感器值、氢传感器值、空气污染传感器值、氮氧化物传感器值、氧传感器值、臭氧监测器值、电化学气体传感器值、湿度计值、烟雾传感器值、红外传感器值、图像传感器、运动检测器传感器、陀螺仪传感器值、湿度传感器值、光学传感器值等等。

（一个或多个）设备118可以经由网络连接而被连接到模型生成平台120。网络连接可以包括以下中的一个或多个：局域网、广域网、有线网络、无线网络、因特网、内联网或任何其他适当的通信网络。

模型生成平台120可以包括一个或多个固态驱动器、一个或多个硬盘驱动器、云存储装置或其组合。模型生成平台120可以包括一个或多个处理器，所述处理器被耦合到存储驱动器并且被配置成将输入数据存储在存储装置（未被示出）中。模型生成平台120包括元数据特征生成器122、变换器124以及一个或多个机器学习模型126。

模型生成平台120被配置成从数据库112、114、116以及（一个或多个）设备118接收数据。

元数据特征生成器122被配置成基于从（一个或多个）设备118所接收的时间序列数据来生成一个或多个元数据特征。例如，可以从ECG设备接收时间序列数据。元数据特征生成器122可以生成与时间序列数据相关联的一个或多个元数据特征，诸如心率、心率变化、PQRST斜率等等。所生成的元数据特征和对应的特征值可以与实体相关联并且被存储在模型生成平台120处。

（一个或多个）变换器122被配置成将与多个数据库相关联的数据变换成公共本体。公共本体被指定，使得与所述多个数据库相关联的数据以一致的格式被描述。这允许通过使用来自多个不同数据源的数据来生成机器学习模型，并且确保通过使用以一致格式的特征值来训练机器学习模型。（一个或多个）变换器122可以包括将数据变换成公共格式的一个或多个变换器。例如，（一个或多个）变换器122可以包括用于将与条目相关联的名字信息从“姓、名、中间名缩写”格式转换成“名姓”格式的变换器。该变换器可以使得来自多个数据库的条目被组合成单个条目，因为这些条目可以相关联于相同的实体。作为结果，所组合的数据集的条目的数目可以减少。与特征相关联的特征值可以被分析以确定与特征相关联的数据类型和/或格式。在一些实施例中，基于与特征相关联的特征值的数据类型和/或格式来选择将被应用到与特征相关联的特征值的变换器。例如，特征的特征值可以是以字符串格式。被配置成变换字符串的变换器可以被应用到特征值。在其他实施例中，变换器不被应用到与特征相关联的特征值，因为该特征已经处于与公共本体相关联的格式。例如，数据库可以用“磅”来存储“体重”特征，并且公共本体使用“磅”来用于“体重”特征。在一些实施例中，基于数据源来选择变换器。例如，第一变换器可以被应用到与第一数据源相关联的数据，并且第二变换器可以被应用到与第二数据源相关联的数据。在一些实施例中，基于数据源来为特定的特征值选择变换器。例如，第一变换器可以被应用到与从第一源接收的数据的特征相关联的特征值，并且第二变换器可以被应用到与从第二源接收的数据的特征相关联的特征值。

（一个或多个）变换器122被配置成生成一个或多个新特征。变换器可以在一个或多个特征上执行操作以创建新特征。可以基于与所述一个或多个重要特征的特征值相关联的数据类型来选择变换器。与特征值相关联的数据类型可以是浮动值、整数值、序数值、分类值、字符串等等。变换器可以使用字符串作为输入，并且可以选择具有针对特征值的字符串值的特征。可以随机选择变换器。在一些实施例中，特征可以经历变换以生成新特征。在其他实施例中，多个特征可以经历变换以生成新特征。

变换器可以包括滤波器变换器、频率变换器、批量交互变换器、被截断的SVD数值变换器、交叉验证目标编码、交叉验证分类至数值编码变换器、日期变换器、日期极变换器、文本变换器、分类目标编码变换器、数值至分类目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重和/或数值至分类证据权重变换器。过滤变换器对数据集中的每个数值进行计数。频率变换器对数据集中的每个分类值进行计数。该计数可以是原始计数或经归一化的计数。批量交互变换器将对特征数据集中的两个列进行加、除、乘和/或减。经截断的奇异值分解（SVD）数值变换器在数据集中所选的数值列上进行训练。经截断的SVD的分量将是新特征。交叉验证目标编码在分类列上进行。交叉验证分类至数值编码变换器将分类列变换成数值列。交叉验证编码在分类列上进行。日期变换器将任何数据值（例如年、季度、月、日、积日、星期、工作日、小时、分钟、秒等等）检索成数值。日期极变换器通过使用极坐标来扩展日期。日期变换器将仅仅把日期扩展成不同的单位，例如月。这不捕获在十二月和一月（12和1）或23时和0时之间的相似性。极坐标通过将数据单位表示为循环中的点而捕获这些情况之间的相似性。极变换器可以将极变换与时间序列滤波器相组合，以产生玫瑰曲线或利萨茹曲线。文本变换器通过使用TFIDF（术语频率-逆文档频率）或计数（词语的计数）来变换文本列。这可以继之以通过使用经截断的SVD的降维。分类目标编码变换器可以在分类列上执行交叉验证目标编码。数值至分类目标编码变换器通过装仓而将数值列转换成分类。交叉验证目标编码在经装仓的数值列上进行。聚类目标编码变换器对数据中所选的列进行聚类，并且在聚类ID上进行目标编码。聚类距离变换器对数据中的所选列进行聚类，并且计算至所选聚类中心的距离。证据权重通过使用证据权重（weights of evidence，WOE）变换方法来创建似然性类型的特征。证据权重告知自变量相对于因变量的预测能力。

所组合的数据集可以被分类成训练数据和验证数据。模型生成平台120可以被配置成基于训练数据来生成多个机器学习模型126。可以通过使用机器学习算法来生成机器学习模型，所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习等等。机器学习模型可以通过使用与另一机器学习模型相同的特征集合来被训练，但是使用不同的机器学习算法。机器学习模型可以通过使用与不同的机器学习模型相同的机器学习算法来被训练，但是通过使用不同的特征子集来被训练。

机器学习模型被配置成输出与所组合的数据集的一个或多个条目相关联的预测标签（例如条目展现异常行为，条目与心脏病相关联）。在一些实施例中，机器学习模型被配置成输出与被包括在所组合的数据集中的特征相关联的预测标签。在一些实施例中，机器学习模型被配置成输出与没有被包括在所组合的数据集中的特征相关联的预测标签。例如，没有被包括在数据集中的特征可以是“最大速度”。然而，数据集可以包括“制造”和“建模”特征。考虑到特征集合以及对应的特征值，机器学习模型可以被配置成预测与条目相关联的“最大速度”。

机器学习模型通过使用特征集合以及对应的特征值来被训练。在一些实施例中，所述特征集合包括在所组合的数据集中所包括的特征的子集。在一些实施例中，所述特征集合包括基于在所组合的数据集中所包括的所述一个或多个特征的一个或多个新特征。可以通过（一个或多个）变换器124来生成所述一个或多个新特征。用于训练第一机器学习模型的特征集合可以与同用于训练第二机器学习模型的特征集合相关联的特征中的全部、一些重叠或不与所述特征中任一个重叠。机器学习模型可以通过使用与另一机器学习模型相同的特征集合来被训练，但是使用不同的机器学习算法。机器学习模型可以通过使用与不同的机器学习模型相同的机器学习算法来被训练，但是通过使用不同的特征集合来被训练。

在一些实施例中，训练数据的所述一个或多个条目具有相关联的预测标签。机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与由机器学习模型127中之一所确定的条目相关联的预测标签可以与同被包括在输入数据中的条目相关联的预测标签相比较。机器学习模型可以基于所述比较来被重新训练，例如以精细地调谐机器学习模型来做出更准确的预测。在一些实施例中，与机器学习模型相关联的一个或多个权重被动态地调谐以改进机器学习模型的准确性。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被调谐以改进机器学习模型的准确性。

在一些实施例中，验证数据的所述一个或多个条目具有相关联的预测标签。验证数据包括与多个特征以及对应的特征值相关联的多个条目。验证数据可以核实所训练的机器学习模型的准确性。机器学习模型可以经历训练/验证的一个或多个迭代，直到达到阈值验证评分（例如准确性）为止。

可以通过计算针对条目的所预测的特征标签与实际特征值之间的差异来确定机器学习模型的验证评分。针对条目的机器学习模型的验证评分（例如针对条目的准确性）可以被确定为：

。

针对所有条目的机器学习模型的总体验证评分（例如总体准确性）可以被确定为：

。

所述总体验证评分可以与阈值验证评分进行比较。在总体验证评分大于或等于阈值验证评分的情况中，在模型生成平台120处保留并且存储机器学习模型。在总体验证评分小于阈值验证评分的情况中，重新训练机器学习模型。

模型生成平台120可以被配置成将机器学习模型126与相关联的变换器124中之一提供到远程设备130。可以响应于请求来提供机器学习模型与相关联的变换器。模型生成平台120被配置成存储多个机器学习模型。所述请求可以针对被配置成做出特定预测的机器学习模型。被配置成做出特定预测的机器学习模型及其相关联的变换器可以从存储器和/或存储装置被检索并且被提供到远程设备130。

远程设备130可以包括一个或多个服务器、一个或多个计算设备、一个或多个存储设备、和/或其组合。远程设备可以是服务器、移动设备、计算机、膝上型电脑、移动电话、平板设备、可穿戴设备、个人数字助理等等。远程设备130可以包括应用132、中间层应用134、操作系统136以及生产数据138。模型生成器平台120可以经由与中间层应用134（例如Intersystems Caché）相关联的API来将机器学习模型126与相关联的变换器124中之一提供到中间层应用134。可以在经模型对象优化（MOJO）的文件中提供机器学习模型与相关联的变换器。可以通过使用MOJO模型交换机制来创建MOJO文件，该MOJO模型交换机制允许模型数据中的全部被保存到单个文件中。可以为代码库以及相关联的语言绑定提供机器学习模型和相关联的变换器。

响应于接收到机器学习模型、其相关联的变换器、以及代码库和相关联的语言绑定，远程设备130可以存储机器学习模型、其相关联的变换器、以及代码库和相关联的语言绑定。机器学习模型可以通过使用代码库来被加载到应用132中。这使得应用132能够通过使用机器学习模型来提供一个或多个预测。为代码库和相关联的语言绑定提供机器学习模型和相关联的变换器可以使得任何应用都能够与机器学习模型兼容，使得该应用可以被配置成做出先前不能做出的预测。在一些实施例中，用与同机器学习模型相关联的编程语言不同的计算机语言来编写应用132。语言绑定集合桥接应用的编程语言和代码库，使得用第二编程语言所编写的代码库可以用第一编程语言来被使用。

应用132可以实现一个或多个MOJO读取器后端，这些后端是能够从各种源（例如文件系统、网络、数据库、源存档等等）读取MOJO的服务。应用132可以实现MOJO读取器服务，其目的是解码MOJO文件并且实例化新的模型实例。

生产数据138包括与一个或多个实体相关联的一个或多个条目。例如，生产数据138可以包括与多个患者相关联的医学记录数据。所述一个或多个条目与具有对应特征值的一个或多个特征相关联。通过使用与远程设备130相关联的本体来存储生产数据138。与电子记录系统相关联的本体不同于与机器学习模型相关联的公共本体。

远程设备130可以分析生产数据，用于确定与同生产数据的一个或多个特征相关联的对应特征值相关联的数据类型和/或格式。远程设备130可以至少部分地基于与生产数据的特征值相关联的数据类型和/或格式来选择要应用的变换器。在一些实施例中，远程设备130不选择变换器来应用到与生产数据的特征相关联的特征值，因为特征值已经是以与公共本体相关联的格式。在一些实施例中，基于生产数据的上下文来选择变换器。

图2A是一图解，其图示了输入数据集的实施例。输入数据集200包括第一数据集202和第二数据集204。可以由数据库、诸如数据库112来存储输入数据集202。可以由数据库、诸如数据库114来存储输入数据集204。

在所示出的示例中，第一数据集202包括条目A₁、A₂…A_n。每个条目包括具有对应特征值的一个或多个特征。例如，条目A₁包括具有对应特征值X₁、Y₁…Z₁的特征F₁、F₂…F_n。条目A₂包括具有对应特征值X₂、Y₂…Z₂的特征F₁、F₂…F_n。条目A_n包括具有对应特征值X_n、Y_n…Z_n的特征F₁、F₂…F_n。在一些实施例中，特征值可以对应于特征的实际值（例如温度=98°）。在其他实施例中，特征值可以对应于值的范围或类别之一（例如值“2”指示$100K - $200K的银行账户余额）。在其他实施例中，特征值可以对应于可能的非数值之一（例如“0”=男性，“1”=女性）。在其他实施例中，特征值可以是文本字符串（例如“红色”、“黄色”）。

第二数据集204还包括条目A₁、A₂…A_n。每个条目包括具有对应特征值的一个或多个特征。在该示例中，条目A₁包括具有对应特征值XX₁、YY₁…ZZ₁的特征F₁、F_n+1…F_n+n。条目A₂包括具有对应特征值XX₂、YY₂…ZZ₂的特征F₂、F_n+1…F_n+n。条目A_n包括具有对应特征值XX_n、YY_n…ZZ_n的特征F₁、F_n+1…F_n+n。

在所示出的示例中，条目A₁、A₂…A_n存在于第一数据集202与第二数据集204二者中。在其他实施例中，第一数据集202的条目中的一些还存在于第二数据集204中。在其他实施例中，第一数据集202的条目中没有任何存在于第二数据集204中。

第一数据集202可以通过使用第一本体来存储数据。第二数据集204可以通过使用第二本体来存储数据。在所示出的示例中，第一数据集202和第二数据集204二者都包括特征F₁和对应的特征值。在一些实施例中，与特征相关联的特征值跨不同数据集可以不用相同的格式。例如，F₁可以对应于位置特征。第一数据集202可以存储与F₁相关联的特征值作为GPS坐标。第二数据集204可以存储与F₂相关联的特征值作为五数位邮政编码。在其他实施例中，与特征相关联的特征值跨不同数据集以相同的格式被存储。例如，F₁可以对应于体重特征。第一数据集202和第二数据集204二者都可以以磅为单位存储与F₁相关联的特征值。

在一些实施例中，条目可以与预测标签（未被示出）相关联。预测标签可以提供一指示，其指示条目是否相关联于所预测的行为。例如，条目可以对应于传感器，并且预测标签可以提供传感器是否展现异常行为的指示预测。预测标签可以指示对应的条目是否指示特定的结果（例如洗钱、对心脏病的诊断）。预测标签可以指示对应的条目相关联于特定性质的概率（例如80%的机会已结婚）。

图2B是一图解，其图示了所组合的数据集的实施例。所组合的数据集250可以由诸如模型生成平台120之类的平台生成和存储。

基于公共本体的所组合的数据集可以通过将一个或多个数据集组合在一起而被生成。来自不同数据集的条目可以被组合以生成单个条目。例如，所组合的数据集250包括条目A₁、A₂…A_n。每个条目包括具有对应特征值的一个或多个特征。与所组合的数据集250的条目相关联的特征可以包括与输入数据集202相关联的特征以及与输入数据集204相关联的特征。例如，所组合的数据集250的条目A₁相关联于特征F₁、F₂…F_n+n，其包括来自输入数据集202的特征F₁、F₂…F_n，以及来自输入数据集204的特征F₁、F_n+1…F_n+n。

在条目相关联于相同实体的情况中，来自不同数据集的条目可以被合并以形成单个条目。例如在条目具有用于标识信息（例如名字、社保号、生日、地址、DNA信息、指纹信息、生物计量数据等等）的相同的一个或多个片段的情况中，条目可以被确定成与相同实体相关联。

在一些实施例中，来自不同数据集的条目被组合，但是与特征相关联的特征值具有不同的格式。例如，输入数据集202、204的特征F₁可以对应于名字特征。输入数据集202可以用“名姓”格式来存储与名字特征相关联的特征值，而输入数据集204可以用“姓、名、中间名缩写”格式来存储与名字特征相关联的特征值。在一些实施例中，选择与两个数据集兼容的格式。例如，“名姓”格式可以被选择用于名字特征，因为两个输入数据集202、204都具有针对所选格式的必要信息。在其他实施例中，特征值相关联的输入数据集被变换成由与所组合的数据集相关联的公共本体所指定的格式。例如，公共本体可具有用于名字特征的“姓名”格式。

在一些实施例中，所组合的数据集250可以被修改以包括根据与设备相关联的时间序列数据所生成的一个或多个元数据特征（例如MF₁）。例如，可以从ECG设备接收时间序列数据。元数据特征生成器122可以生成与时间序列数据相关联的元数据特征，诸如心率、心率变化、PQRST斜率等等。条目可以对应于特定的患者。针对MF₁的特征值可以对应于特定患者的心率值、心率变化值、或PQRST斜率。所生成的元数据特征和对应的特征值可以与实体相关联并且被存储在模型生成平台120处。

所组合的数据集250可以被分类成训练数据和验证数据。在一些实施例中，用作训练数据的条目的数目大于用作验证数据的条目的数目。在其他实施例中，用作训练数据的条目的数目等于用作验证数据的条目的数目。在其他实施例中，用作验证数据的条目的数目大于用作训练数据的条目的数目。

所组合的数据集250的一个或多个条目可以对应于训练数据。训练数据的所述一个或多个条目可以具有对应的预测标签。机器学习模型可以被训练以输出与相关联于条目的预测标签相匹配的预测。可以基于比较来重新训练机器学习模型，例如用于精细调谐机器学习模型来做出更接近于预测标签的预测。在一些实施例中，与机器学习模型相关联的一个或多个权重被调谐以改进机器学习模型的准确性。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被动态地调谐以改进机器学习模型的准确性。

所组合的数据集250的一个或多个条目可以对应于验证数据。验证数据的所述一个或多个条目可以具有对应的预测标签。所训练的机器学习模型可以被验证以查看其对应的预测标签是否与输入数据集中所包括的预测标签相匹配。在如下情况中可验证机器学习型机器：与其预测标签相关联的验证评分大于或等于验证评分阈值。否则，重新训练机器学习模型。

图3是一流程图，其图示了用于生成可导出的机器学习模型的过程的实施例。在所示出的示例中，可以通过模型平台、诸如模型生成平台120来执行过程300。

在302处，从多个源接收数据。在一些实施例中，从多个不同的数据库接收数据。在一些实施例中，可以从多种类型的设备（例如IoT设备、传感器、医学设备等等）接收数据。所述数据可以包括来自设备的时间序列数据。

在304处，数据被变换成公共本体。可以通过使用用于将数据变换成公共格式的一个或多个变换器将与多个数据库相关联的数据变换成公共本体。可以基于与特征的特征值相关联的数据类型和/或格式来选择变换器。为了确保在一致的特征值上训练机器学习模型，一个或多个变换器可以被应用到特征值以将特征值变换成公共格式。可以基于数据源来选择变换器。

在306处，所接收的数据被组合以生成所组合的数据集。所组合的数据集基于公共本体。在一些实施例中，来自不同数据集的条目可以被组合以生成单个条目。例如在条目具有用于标识信息（例如名字、社保号、生日、地址、DNA信息、指纹信息、生物计量数据等等）的相同的一个或多个片段的情况中，条目可以被确定成与相同实体相关联。在其他实施例中，来自不同数据集的条目可以不被组合（例如相关联于不同实体），并且为所组合的数据集生成多个条目。在一些实施例中，来自不同数据集的条目被组合，但是与特征相关联的特征值具有不同的格式。在一些实施例中，选择与两个数据集兼容的格式。在其他实施例中，特征值相关联的输入数据集被变换成由与所组合的数据集相关联的公共本体所指定的格式。与所组合的数据集相关联的条目可以被修改以包括根据与设备相关联的时间序列数据所生成的一个或多个元数据特征（例如MF₁）。

在308处，基于在所组合的数据集中所包括的一个或多个特征来生成一个或多个特征。一个或多个变换器可以被应用到所组合的数据集以生成一个或多个特征。变换在一个或多个特征上执行操作以创建新特征。例如，变换可以执行一种操作，所述操作组合与两个不同的特征相关联的特征值以创建新特征。可以基于与所述一个或多个重要特征的特征值相关联的数据类型和/或格式来选择变换。与特征值相关联的数据类型可以是浮动值、整数值、序数值、分类值、字符串等等。与特征相关联的格式可以是“MM/DD/YYYY”或“千克”。变换可以使用字符串作为输入，并且可以选择具有针对特征值的字符串值的重要特征。可以随机选择变换。

在308处，生成一个或多个机器学习模型。在一些实施例中，在所组合的数据集中的特征被选择为机器学习模型将为其做出预测的特征。在其他实施例中，没有被包括在所组合的数据集中的特征被选择为机器学习模型将为其做出预测的特征。所选特征是如下一种特征：针对所述特征，将训练机器学习模型以预测对应的特征标签（例如特征值）。

所组合的数据集可以被分类成训练数据和验证数据。特征集合和对应的特征值用于训练机器学习模型。在一些实施例中，所述特征集合包括与所组合的数据集相关联的特征的子集。在一些实施例中，所述特征集合包括根据在所组合的数据集中所包括的特征所生成的一个或多个新特征。在一些实施例中，所述特征集合包括与所组合的数据集相关联的特征的子集以及根据与所组合的数据集相关联的特征所生成的一个或多个新特征的组合。

可以通过使用机器学习算法来生成机器学习模型，所述机器学习算法诸如决策树、朴素贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络、深度学习、梯度提升机器、广义线性模型、数学平均等等。通过使用训练数据来训练机器学习模型，所述训练数据包括具有特征集合以及对应的特征值的多个条目。机器学习模型可以被调谐以更好地匹配与训练数据相关联的预测标签。例如，与机器学习模型中所包括的所述一个或多个特征相关联的一个或多个权重可以被动态地调谐以改进机器学习模型的准确性。

在所组合的中所包括的验证数据可以用于验证所训练的机器学习模型。验证数据可以核实所训练的机器学习模型的准确性。机器学习模型可以经历训练/验证的一个或多个迭代，直到达到阈值验证评分（例如准确性）为止。

在310处，导出所述一个或多个机器学习模型以及相关联的变换器。所述一个或多个机器学习模型以及相关联的变换可以经由API被提供到中间层应用。可以在经模型对象优化（MOJO）的文件中提供所述一个或多个机器学习模型与相关联的变换器。可以为代码库以及相关联的语言绑定提供机器学习模型和相关联的变换器。所述一个或多个机器学习模型与相关联的变换器可以被导出到一器具。

图4是一流程图，其图示了用于生成预测的过程的实施例。在所示出的示例中，可以通过远程设备、诸如远程设备130执行过程400。

在402处，接收一个或多个机器学习模型以及相关联的变换器。可以在中间层应用处经由API来接收所述一个或多个机器学习模型和相关联的变换器。可以在经模型对象优化（MOJO）的文件中接收所述一个或多个机器学习模型和相关联的变换器。可以利用所述一个或多个机器学习模型和相关联的变换器来接收代码库和相关联的语言绑定。

在404处，从存储装置检索生产数据的集合。所述生产数据集包括与具有对应特征值的多个特征相关联的一个或多个条目。在生产数据集中所包括的所述一个或多个条目不包括对应的预测标签。在一些实施例中，通过使用诸如H2O流之类的流来将生产数据导入到机器学习模型中。所述流可以允许生产数据的一个或多个条目被修改、重新布置或保存到库。每个条目包含输入字段，所述输入字段允许用户录入命令、定义函数、调用其他函数、以及访问页面上的其他单元或对象。

在406处，所接收的变换器的一个或多个变换器被应用到生产数据集。与生产数据的特征相关联的特征值可以被分析以确定与特征值相关联的数据类型和/或格式。可以至少部分地基于与特征值相关联的数据类型和/或格式来选择所接收的变换器并且将其应用到与特征相关联的特征值。将变换器应用到生产数据将生产数据变换成通过所述一个或多个所接收的机器学习模型可用的格式。在一些实施例中，变换器不被应用到与生产数据的特征相关联的特征值，因为特征值已经是以与公共本体相关联的格式。在一些实施例中，基于远程设备的身份来选择变换器。例如，可以选择第一变换器以应用到与针对第一远程设备的特征相关联的特征值，并且可以选择第二变换器以应用到与针对第二远程设备的特征相关联的特征值。

在408处，将经变换的数据应用到机器学习模型。所述机器学习模型被配置成部分地基于经变换的数据来输出预测标签。在一些实施例中，生产数据中的一些不被变换，因为与一个或多个特征相关联的特征值遵从公共本体。遵从公共本体的经变换的数据和生产数据可以被应用到机器学习模型。

在410处，预测被输出。预测标签可以指示对应的条目是否指示特定的结果（例如洗钱、对心脏病的诊断）。预测标签可以指示对应的条目相关联于特定性质的概率（例如80%的机会已结婚）。

尽管为了清楚理解的目的，已经相当详细地描述了前述实施例，但是本发明不限于所提供的细节。存在实现本发明的许多可替换方式。所公开的实施例是说明性的而不是限制性的。

Claims

1.一种方法，包括：

通过使用一个或多个变换器将与一个或多个数据源相关联的数据变换成与公共本体相关联的格式；

至少部分地基于经变换的数据来生成一个或多个机器学习模型；以及

向远程设备提供所述一个或多个机器学习模型和所述一个或多个变换器。

2.根据权利要求1所述的方法，此外包括从一个或多个数据库接收与一个或多个数据源相关联的数据。

3.根据权利要求1所述的方法，其中所述一个或多个数据库通过使用对应的本体来存储数据。

4.根据权利要求1所述的方法，其中所述一个或多个数据库中至少一个的对应本体不同于公共本体。

5.根据权利要求1所述的方法，此外包括基于所述经变换的数据来生成一个或多个新特征。

6.根据权利要求5所述的方法，其中至少部分地基于所述一个或多个新特征来训练所述一个或多个机器学习模型。

7.根据权利要求1所述的方法，其中通过使用以下各项中的至少一个来变换数据：滤波器变换器、频率变换器、批量交互变换器、被截断的SVD数值变换器、交叉验证目标编码、交叉验证分类至数值编码变换器、日期变换器、日期极变换器、文本变换器、分类目标编码变换器、数值至分类目标编码变换器、聚类目标编码变换器、聚类距离变换器、证据权重、和/或数值至分类证据权重变换器。

8.根据权利要求1所述的方法，其中所述远程设备被配置成通过使用所述一个或多个变换器来将生产数据变换成公共本体。

9.根据权利要求8所述的方法，其中所述远程设备被配置成通过使用所述一个或多个机器学习模型和经变换的生产数据来做出一个或多个预测。

10.根据权利要求8的方法，其中为了通过使用所述一个或多个变换器来将生产数据变换成公共本体，所述远程设备此外被配置成：

分析与生产数据相关联的特征以及对应的特征值；

确定与所述对应的特征值相关联的格式类型；并且

基于所确定的格式类型来选择所述一个或多个变换器中之一。

11.根据权利要求1所述的方法，其中至少部分地基于将通过远程设备所执行的预测的类型来选择所述一个或多个机器学习模型。

12.根据权利要求1所述的方法，此外包括从一个或多个设备接收与一个或多个数据源相关联的数据。

13.根据权利要求1所述的方法，其中与所述一个或多个数据源相关联的数据包括时间序列数据。

14.根据权利要求13所述的方法，此外包括基于时间序列数据来生成一个或多个元数据特征。

15.根据权利要求13所述的方法，其中一个或多个机器学习模型至少部分地基于所述一个或多个元数据特征。

16.一种系统，包括：

处理器，所述处理器被配置成：

至少部分地基于经变换的数据来生成一个或多个机器学习模型；并且

向远程设备提供所述一个或多个机器学习模型和所述一个或多个变换器；以及

存储器，其耦合到所述处理器并且被配置成向所述处理器提供指令。

17.根据权利要求16所述的系统，其中从一个或多个数据库接收与一个或多个数据源相关联的数据。

18.根据权利要求16所述的系统，其中所述远程设备被配置成通过使用所述一个或多个变换器来将生产数据变换成公共本体。

19.根据权利要求16所述的系统，其中所述远程设备被配置成通过使用所述一个或多个机器学习模型和经变换的生产数据来做出一个或多个预测。

20.一种计算机程序产品，所述计算机程序产品被具体化在有形计算机可读存储介质中并且包括计算机指令，用于：