CN110188910A

CN110188910A - 利用机器学习模型提供在线预测服务的方法及系统

Info

Publication number: CN110188910A
Application number: CN201810749109.3A
Authority: CN
Inventors: 马龙飞; 马云哲; 康执玺; 肖贝贝; 孙磊; 杜飞
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2019-08-30
Anticipated expiration: 2038-07-10
Also published as: CN110188910B

Abstract

提供了一种利用机器学习模型提供在线预测服务的方法及系统，所述方法包括：按照至少一个模型更新方案，基于持续获取的训练数据来不断更新至少一个机器学习模型组，其中，每个机器学习模型组包括按照对应的模型更新方案得到的至少一个候选机器学习模型；根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型；在接收到关于针对预测数据提供预测结果的在线服务请求的情况下，提供由在线机器学习模型针对预测数据产生的预测结果。

Description

利用机器学习模型提供在线预测服务的方法及系统

技术领域

本发明总体说来涉及人工智能(AI)领域，更具体地讲，涉及一种利用机器学习模型提供在线预测服务方法及系统。

背景技术

随着海量数据的出现，AI技术迅速发展，而机器学习是AI发展到一定阶段的必然产物，其致力于通过计算的手段，从大量数据中挖掘有价值的潜在信息。

在机器学习领域，往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数，而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。对于一套完整的AI开发及应用平台，不仅要包括数据采集、数据处理、特征抽取、模型训练等离线调研环节，也需要包括模型上线(即，模型提供在线预测服务)等环节。然而，现有的机器学习平台往往仅关注于离线调研，无法方便地将调研产生的模型或模型训练方案应用于在线服务环节。

实践中，很多实际的线上业务问题难以只靠一个固定模型来解决，而依靠人为操作来更新和替换模型需要耗费大量人力，无法实现自动化开发部署运维，并因此带来模型上线成本高、更新频率低、灵活性差等问题。

发明内容

本发明的示例性实施例提供了一种利用机器学习模型提供在线预测服务的方法，所述方法可以包括：按照至少一个模型更新方案，基于持续获取的训练数据来不断更新至少一个机器学习模型组，其中，每个机器学习模型组包括按照对应的模型更新方案得到的至少一个候选机器学习模型；根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型；在接收到关于针对预测数据提供预测结果的在线服务请求的情况下，提供由在线机器学习模型针对预测数据产生的预测结果。

根据本发明的示例性实施例，其中，所述模型更新方案至少可以包括：数据记录获取步骤，获取数据记录；特征抽取步骤，对所述数据记录的属性字段执行处理以获取特征；模型训练步骤，基于由所述特征和数据记录的标记组成的训练样本，按照机器学习算法来训练模型。

根据本发明的示例性实施例，其中，所述预定策略可以是关于模型选取规则、模型更换时机和/或模型更换方式的策略。

根据本发明的示例性实施例，其中，所述模型选取规则可以用于限定如何基于模型效果和/或根据人为指定来确定准备提供在线预测服务的预备在线机器学习模型；并且/或者，所述模型更换时机可以用于限定如何根据预设时间和/或根据评估结果来确定由预备在线机器学习模型替代当前提供在线预测服务的当前在线机器学习模型的时间点；并且/或者，所述模型更换方式可以用于限定如何按照流量分配比例完成由预备在线机器学习模型替代当前在线机器学习模型的过程。

根据本发明的示例性实施例，其中，所述至少一个模型更新方案可以包括单个模型更新方案，其中，根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型的步骤包括：按照预定策略，从单个机器学习模型组中将一个候选机器学习模型选作在线机器学习模型。

根据本发明的示例性实施例，其中，所述至少一个模型更新方案可以包括多模型更新方案，其中，根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型的步骤包括：按照预定策略，分别从每个机器学习模型组中将一个候选机器学习模型选作在线机器学习模型；并且/或者，按照预定策略，从所有机器学习模型组中将多个候选机器学习模型选作在线机器学习模型。

根据本发明的示例性实施例，其中，提供由在线机器学习模型针对预测数据产生的预测结果的步骤可以包括：提供对由多个在线机器学习模型分别针对预测数据产生的预测结果进行加权而得到的预测结果。

根据本发明的示例性实施例，利用机器学习模型提供在线预测服务的方法还可以包括销毁或备份被替代的所述当前在线机器学习模型。

根据本发明的示例性实施例，其中，不同模型更新方案具有相同的数据记录获取步骤和特征抽取步骤且按照不同的机器学习算法。

本发明的示例性实施例提供了一种利用机器学习模型提供在线预测服务的系统，所述系统可以包括：模型更新单元，按照至少一个模型更新方案，基于持续获取的训练数据来不断更新至少一个机器学习模型组，其中，每个机器学习模型组包括按照对应的模型更新方案得到的至少一个候选机器学习模型；在线策略单元，根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型，其中，当服务单元接收到关于针对预测数据提供预测结果的在线服务请求时，服务单元提供由在线机器学习模型针对预测数据产生的预测结果；以及服务单元，在接收到关于针对预测数据提供预测结果的在线服务请求的情况下，提供由在线机器学习模型针对预测数据产生的预测结果。

根据本发明的示例性实施例，其中，所述模型更新方案至少包括：据记录获取步骤，获取数据记录；特征抽取步骤，对所述数据记录的属性字段执行处理以获取特征；以及模型训练步骤，基于由所述特征和数据记录的标记组成的训练样本，按照机器学习算法来训练模型；并且，所述模型更新单元至少可以包括：数据记录获取单元，获取数据记录；特征抽取单元，对所述数据记录的属性字段执行处理以获取特征；以及模型训练单元，基于由所述特征和数据记录的标记组成的训练样本，按照机器学习算法来训练模型。

根据本发明的示例性实施例，其中，所述至少一个模型更新方案可以包括单个模型更新方案，其中，在线策略单元按照预定策略，从单个机器学习模型组中将一个候选机器学习模型选作在线机器学习模型。

根据本发明的示例性实施例，其中，所述至少一个模型更新方案可以包括多模型更新方案，其中，在线策略单元按照预定策略，分别从每个机器学习模型组中将一个候选机器学习模型选作在线机器学习模型；并且/或者，在线策略单元按照预定策略，从所有机器学习模型组中将多个候选机器学习模型选作在线机器学习模型。

根据本发明的示例性实施例，其中，所述在线策略单元可以对由多个在线机器学习模型分别针对预测数据产生的预测结果进行加权，并将加权结果用作预测结果。

根据本发明的示例性实施例，所述系统还包括：销毁/备份单元，销毁或备份被替代的所述当前在线机器学习模型。

根据本发明的示例性实施例，其中，不同模型更新方案具有相同的数据记录获取步骤和特征抽取步骤且按照不同的机器学习算法来训练。

本发明的示例性实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有用于执行上述任一项所述的利用机器学习模型提供在线预测服务的方法的计算机程序。

本发明的示例性实施例提供了一种计算装置，所述计算装置包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行上述任一项所述的利用机器学习模型提供在线预测服务的方法。

附图说明

从下面结合附图对本申请实施例的详细描述中，本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的系统的框图；

图2是示出根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的方法的流程图；

图3是示出根据本申请的示例性实施例的模型更新步骤的流程图；

图4是示出根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的系统的框图；

图5是示出根据本申请的另一示例性实施例的利用机器学习模型提供在线预测服务的系统的框图。

具体实施方式

为了使本领域技术人员更好地理解本申请，下面结合附图和具体实施方式对本申请的示例性实施例作进一步详细说明。

这里，机器学习是AI研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。不论是训练机器学习模型，还是利用训练好的机器学习模型进行预测，数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外，还应注意，在训练和应用模型的过程中，还可结合统计算法等其他手段。

图1是示出根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的系统10的框图。

如图1所示，根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的系统10可以包括服务单元200、模型更新单元300和在线策略单元400。

参照图1，服务单元200可以用于接收包括预测数据的在线服务请求并提供预测结果。

模型更新单元300可以通过机器学习方法，基于从外部获取的数据记录来训练一个或更多个机器学习模型组。这里，模型更新单元300既可以利用不断输入的数据记录，按照模型训练方案，从头训练出候选机器学习模型；也可以在已有候选机器学习模型的基础上，通过增量学习的方式对已有候选机器学习模型进行更新。机器学习模型组中包括至少一个候选机器学习模型，并且当机器学习模型组为多个时，每个机器学习模型组可以与彼此不同的模型更新方案对应。模型更新方案可限定用于执行模型训练的数据拼接、特征抽取、利用预设机器学习算法进行模型训练、参数调优等步骤。此外，采用相同的模型更新方案训练得到的候选机器学习模型属于同一机器学习模型组。作为示例，不同模型更新方案可具有相同的数据记录获取步骤和特征抽取步骤且按照不同的机器学习算法。作为示例，所采用的机器学习算法可以是例如神经网络、贝叶斯网络、支持向量机、决策树、遗传算法、专家系统等各种机器学习方法，然而，机器学习算法并不受具体的限制。并且，每个机器学习模型可以是任何类型的机器学习模型，例如，逻辑回归(LR)模型、支持向量机(SVM)、梯度提升决策树或深度神经网络等，但不限于此。

在线策略单元400可以存储关于模型选取规则、模型更换时机和/或模型更换方式的预定策略。在线策略单元400可以按照预定策略中的一种或更多种将在模型更新单元300中不断更新出的至少一个机器学习模型组中的至少一个候选机器学习模型选作在线机器学习模型。在线机器学习模型包括预备在线机器学习模型和当前提供在线预测服务的当前在线机器学习模型。

其中，模型选取规则可以用于限定如何基于模型效果和/或根据人为指定来确定准备提供在线预测服务的预备在线机器学习模型。作为示例，可通过衡量机器学习模型的关键指标来确定，例如，可使用关于模型评价指标的评价值来衡量模型的效果。例如，机器学习模型的评价指标可以是AUC(ROC(受试者工作特征，Receiver OperatingCharacteristic)曲线下的面积，Area Under ROC Curve)、精准率、召回率、准确率、MAE(平均绝对误差，Mean Absolute Error)或对数损失函数(logloss)等。作为示例，可以在一些关键指标上设置阈值(例如，设置预备在线机器学习模型的AUC不得低于0.8)，满足阈值要求的候选机器学习模型可被选作预备在线机器学习模型。此外，这些关键指标也可以联合使用。另外，也可以人为指定特定的候选机器学习模型作为预备在线机器学习模型而不受关键指标的限制。

其中，模型更换时机可以用于限定如何根据预设时间和/或根据评估结果来确定由预备在线机器学习模型替代当前提供在线预测服务的当前在线机器学习模型的时间点。例如，可以设定预设的时间条件(例如，凌晨2点)，当达到预设的时间条件后，才开始执行由预备在线机器学习模型替代当前在线机器学习模型的替代过程。作为示例，可以在执行替代过程之前对预备在线机器学习模型进行评估(该评估可以是在选取了预备在线机器学习模型之后进行的再次评估，例如，可以是人为评估)，根据评估的结果确定是否执行执行替代过程。

其中，模型更换方式可以用于限定如何按照流量分配比例完成由预备在线机器学习模型替代当前在线机器学习模型的替代过程。作为示例，模型更换方式可被设定为在预定时间点即刻执行替代操作。作为另一示例，模型更换方式可被设定为在预定时间段期间缓慢执行替代过程，更具体地，在不断地接收到关于针对预测数据提供预测结果的在线服务请求的情况下，在预定时间段开始时，将全部的在线服务请求分配给当前在线机器学习模型，并完全由当前在线机器学习模型提供预测结果。在所述预定时间段内，随时间增加，分配给预备在线机器学习模型的在线服务请求的流量逐渐增加(如，从0％逐渐增加至60％)，而分配给当前在线机器学习模型的在线服务请求的流量逐渐减小(如，从100％逐渐减小至40％)。在所述预定时间段结束时，将全部的在线服务请求分配给预备在线学习模型，并完全由预备在线学习模型提供预测结果。从而，可以平滑地完成替代过程。

综上所述，根据本申请的示例性实施例的提供在线预测服务的系统10可以通过利用模型更新单元300基于不断输入的数据记录来训练或更新候选机器学习模型，通过在线策略单元400将至少一个候选机器学习模型选作在线机器学习模型并由在线机器学习模型给出与在线服务请求对应的预测结果。因此，提供在线预测服务的系统10可以在不增加人力成本的情况下自动更新机器学习模型，降低提供在线预测服务的成本，提高机器学习模型的更新频率并且改善机器学习模型的灵活性，从而避免机器学习模型滞后于业务的变化并因此导致影响新业务的运作。

需要说明的是，尽管在示例性实施例中提及了以上关于模型选取规则、模型更换时机和/或模型更换方式的预定策略的几种情况，但是本领域技术人员清楚的是，预定策略的具体选择不限于以上示例。

此外，根据示例性实施例，提供在线预测服务的系统10可部署在云端或本地。提供在线预测服务的系统10可部署在例如公有云、私有云或混合云上，并可向期望获得相应预测结果的实体(例如，期望获取预测结果的银行、企业、学校等)提供与预测数据有关的机器学习服务。可选地，提供在线预测服务的系统10也可部署在本地，例如，内容运营商的本地系统。

需要说明的是，尽管以上在描述提供在线预测服务的系统10时，为描述方便，将提供在线预测服务的系统10划分为用于分别执行相应处理的单元(例如，服务单元200、模型更新单元300和在线策略单元400)，然而，本领域技术人员清楚的是，上述各单元执行的处理也可在本身在不进行任何具体的单元划分或者各单元之间并无明确划界的情况下执行。此外，以上参照图1描述的提供在线预测服务的系统10并不限于包括以上描述的单元，而是可根据需要增加/减少一些单元，并且也可以是以上单元的组合。

图2是示出根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的方法的流程图。下面将参照图1和图2详细描述提供在线预测服务的系统10提供在线预测服务的方法。

参照图1和图2，在步骤S1中，模型更新单元300可以按照至少一个模型更新方案，基于从外部持续获取的数据记录来不断更新至少一个机器学习模型组，其中，每个机器学习模型组可以包括按照对应的模型更新方案得到的至少一个候选机器学习模型。

在步骤S2中，在线策略单元400可以根据预定策略从至少一个机器学习模型组中选取一个或多个候选机器学习模型用作提供在线预测服务的在线机器学习模型。

在步骤S3中，服务单元200在接收到关于针对预测数据提供预测结果的在线服务请求的情况下，提供由在线机器学习模型针对预测数据产生的预测结果。

这里，应注意，图2所示的方法可针对源源不断流入的数据记录来执行，而且，各个步骤之间并无严格的时序关系，例如，模型更新、在线机器学习模型选择和预测结果提供等步骤完全可按照各自的时序来独立执行，也可设置一定的时间关系，本发明的示例性实施对此不作任何限制。

图3是示出根据本申请的示例性实施例的按照图2中步骤S1中的至少一个模型更新方案对至少一个机器学习模型组执行模型更新的步骤的流程图。这里应注意，图3所示的方案既可用于从头训练一个新的模型，也可以用于在已有模型的基础上实现增量学习。

参照图3，按照至少一个模型更新方案，对至少一个机器学习模型组执行模型更新的步骤可以包括：数据记录获取步骤S11、特征抽取步骤S12、模型训练步骤S13。

在数据记录获取步骤S11中，数据记录获取单元(未示出)持续地获取数据记录，这里的数据记录为后面的特征抽取步骤S12的原材料，其中，每条数据记录可以具有各种类型的字段以及相应的字段值以便体现该条记录的特征或属性。此外，在有监督机器学习的情况下，数据记录还可以包括标记(label)。

在特征抽取步骤S12中，特征抽取单元(未示出)对数据记录的字段值执行数据处理以获取预定特征的特征值，至少部分基于特征值抽取步骤S12获取的特征值，形成特征向量，作为机器学习的样本。作为示例，该步骤可包括或不包括关于数据拼接的处理，在不包括数据拼接处理的情况下，可在数据获取步骤S11中一并完成数据的拼接，也可以进一步设置单独的数据拼接步骤。

在模型训练步骤S13中，模型训练单元(未示出)基于步骤S12中由特征抽取单元产生的样本按照对应的模型更新方案进行机器学习，需要说明的是，模型更新单元300在步骤S13中可以将机器学习的样本拆分为训练样本和验证样本。通过训练样本可以训练候选机器学习模型，并且可以在得到候选机器学习模型后，将验证样本输入到训练得到的候选机器学习模型中，以判断模型的性能。

图4是示出根据本申请的示例性实施例的利用机器学习模型提供在线预测服务的系统10的框图。

图4中示出的提供在线预测服务的系统10可参照针对与图1中所示的系统10的单元相同或相似的单元的描述来理解，因此将省略重复的描述。在图4中，系统10包括服务单元200、模型更新单元300、在线策略单元400、数据仓库DB和模型仓库MH，其中，服务单元200包括接口单元210和特征抽取单元220(作为示例，还可包括单独的数据拼接单元等)，模型更新单元300包括模型更新方案320。

数据仓库DB可以存储用于训练和更新模型的数据记录，所述数据记录可以是非实时数据，数据仓库DB中的数据记录可以包括由数据获取单元(未示出)或其他数据获取装置从外部数据源(例如，服务器、数据库等)获取的数据，或者可以是通过输入装置(未示出)输入的数据，例如，数据记录可以包括利用基于至少一部分预测数据及其真实结果形成的数据、由数据获取装置通过监测真实行为(诸如，鼠标点击、键盘输入等)而获得的数据等。数据记录可以被预先处理为呈预定格式以便直接用于后续的机器学习模型训练，也可以通过模型更新单元300处理为预定格式以便用于后续的机器学习模型训练。

模型仓库MH可以存储由模型更新单元300产生的至少一个机器学习模型组。

接口单元210可以是包括预测数据的在线服务请求以及向外提供的预测结果的接口。这里，接口单元210可接收不同来源的结构化或非结构化的预测数据，例如，文本预测数据或数值预测数据等。此外，预测数据可来源于期望获取模型预测结果的实体内部(例如，来源于期望获取预测结果的银行、企业、学校等)，或者，预测数据也可来源于上述实体以外，例如，来源于数据提供商、互联网(例如，社交网站)、移动运营商、APP运营商、快递公司、信用机构等。

特征抽取单元220可以在接口单元210接收预测数据之后，按照特征抽取步骤S12(见图3)(或数据拼接步骤连同特征抽取步骤)将预测数据处理成预定格式的样本以用于后续的预测处理。此外，预测数据也可以在接收之前被预先处理为呈所述预定格式以便直接用于后续的预测处理，在这种情况下，可以省略特征抽取单元220。另外，需要说明的是，本申请对这里的预测数据的产生方式、存在形式、种类、来源以及获取方式等均不做任何限制。

在图4中，模型更新单元300从数据仓库DB中获取数据记录，并按照如图3描述的执行模型更新的步骤按照模型更新方案320训练得到机器训练模型组MG，其中，机器训练模型组MG中包括与模型更新方案320对应的不断更新的多个候选机器训练模型M1、M2、……、Mn(其中，n为大于1的正整数)。

在本示例中，在线策略单元400可以根据预定策略从与模型更新方案320对应的机器学习模型组MG中将一个候选机器学习模型选作预备在线机器学习模型。如图4中所示，假设之前基于预定策略，候选机器训练模型M1被选作在线机器学习模型。为了便与描述，这里假设候选机器训练模型M1为初始机器训练模型，那么作为在线机器学习模型的候选机器训练模型M1可以接收经由服务单元200接收的包括预测数据的在线服务请求并给出预测结果，也就是说，此时，候选机器训练模型M1可被称为当前在线机器学习模型。接着，当基于预定策略，候选机器训练模型M2被选作在线机器学习模型时，候选机器训练模型M2可被称为预备在线机器学习模型。可以根据预定策略，执行由预备在线机器学习模型(即，本示例中的候选机器训练模型M2)替代当前在线机器学习模型(即，本示例中的候选机器训练模型M1)的替代过程。

例如，本示例中的预定策略可以包括模型选取规则(例如，AUC值大于或等于0.8)和/或模型更换方式(例如，在预定时间段内按照流量分配比例完成替代过程)。在这种情况下，当候选机器训练模型M2满足模型选取规则时，其可被选作在线机器学习模型，并且作为将要替代当前在线机器学习模型的预备在线机器学习模型。进一步根据模型更换方式，在预定时间段内，分配给候选机器训练模型M2的在线服务请求的流量从0％逐渐增加至100％，与之相对的，分配给候选机器训练模型M1的在线服务请求的流量从100％逐渐减小至0％，从而，可以平滑地完成替代(升级)过程。替代过程完成后，候选机器训练模型M2可被称为当前在线机器学习模型。

在另一实施例中，预定策略可以仅包括模型选取规则(例如，AUC值大于或等于0.8)，在这种情况下，当候选机器训练模型M2满足模型选取规则时，即可执行由作为预备在线机器学习模型的候选机器训练模型M2替代作为当前在线机器学习模型的候选机器训练模型M1的替代过程。在替代过程完成后，销毁/备份单元(未示出)可以销毁或备份已被替换的候选机器训练模型M1，然后，候选机器训练模型M2可被称为当前在线机器学习模型。

预定策略的选择仅是示例，并且不限于以上示例。

在本示例中，模型更新单元300仅包括一个模型更新方案320，相应地，在线策略单元400可以根据预定策略从与模型更新方案320对应的机器学习模型组MG中将一个候选机器学习模型选作预备在线机器学习模型。由于机器学习模型组中的候选机器学习模型能够基于数据仓库DB中的数据记录不断更新，从而具有更强的适应性。具体地说，在提供基于单一业务场景的单模型在线预测服务的情况下，可以确保针对该业务的时效性并可以确保预测服务的质量稳定。

在本示例中，销毁或备份已被替换的候选机器训练模型可以减少生产环境的存储占用，备份已被替换的候选机器训练模型可以用于后续再利用(例如，A/B测试)或者审计(例如，追溯在线预测服务的效果)。

图5是示出根据本申请的另一示例性实施例的利用机器学习模型提供在线预测服务的系统10的框图。

图5中示出的提供在线预测服务的系统10可参照针对与图5中所示的系统10的单元相同或相似的单元的描述来理解，因此将省略重复的描述。在图5中，系统10包括服务单元200、模型更新单元300、在线策略单元400、数据仓库DB和模型仓库MH，其中，服务单元200包括接口单元210和特征抽取单元220，模型更新单元300包括模型更新方案320A、模型更新方案320B、模型更新方案320C。

在图5中，模型更新单元300从数据仓库DB中获取数据记录，并按照如图3描述的执行模型更新的步骤按照模型更新方案320A、模型更新方案320B和模型更新方案320C分别训练得到机器训练模型组MGA、机器训练模型组MGB和机器训练模型组MGC，其中，机器训练模型组MGA中包括与模型更新方案320A对应的不断更新的多个候选机器训练模型MA1、MA2、……、MAn(其中，n为大于1的正整数)；机器训练模型组MGB中包括与模型更新方案320B对应的不断更新的多个候选机器训练模型MB1、MB2、……、MBn(其中，n为大于1的正整数)；机器训练模型组MGC中包括与模型更新方案320C对应的不断更新的多个候选机器训练模型MC1、MC2、……、MCn(其中，n为大于1的正整数)。在本示例中，不同的模型更新方案320A、320B和320C具有相同的数据记录获取步骤和特征抽取步骤。另外，不同的模型更新方案320A、320B和320C可以采用同一算法，也可以采用不同的算法。在采用同一算法时，不同的模型更新方案320A、320B和320C可以采用不同的参数。

在本示例中，在线策略单元400可以根据预定策略分别从机器学习模型组320A、320B和320C的每个中将一个候选机器学习模型选作在线机器学习模型，例如，如图5所示，可以将候选机器训练模型MA1、候选机器训练模型MB1和候选机器训练模型MC1选作在线机器学习模型。为了便与描述，这里假设候选机器训练模型MA1、MB1和MC1均为初始机器训练模型，那么作为在线机器学习模型的候选机器训练模型MA1、MB1和MC1可以接收经由服务单元200接收的包括预测数据的在线服务请求并分别给出预测结果，在这种情况下，可以对由作为在线机器学习模型的候选机器训练模型MA1、MB1和MC1产生的预测结果进行加权(例如，候选机器训练模型MA1的权重为0.5，候选机器训练模型MB1的权重为0.3，候选机器训练模型MC1的权重为0.2)来获得预测结果，并将加权得到的预测结果通过服务单元200输出到外部。此时，候选机器训练模型MA1、MB1和MC1可被称为当前在线机器学习模型。接着，在图5示出的示例中，当基于预定策略，候选机器训练模型MA2、MB2和MC2被选作在线机器学习模型时，候选机器训练模型MA2、MB2和MC2可被称为预备在线机器学习模型。可以根据预定策略，执行由预备在线机器学习模型(即，本示例中的候选机器训练模型MA2、MB2和MC2)替代当前在线机器学习模型(即，本示例中的候选机器训练模型MA1、MB1和MC1)的替代过程。

例如，本示例中的预定策略可以包括模型选取规则(例如，AUC值大于或等于0.8)和模型更换方式(例如，在预定时间段内按照流量分配比例完成替代过程)。在这种情况下，当候选机器训练模型MA2、MB2和MC2满足模型选取规则时，其可被选作在线机器学习模型，并且作为将要替代当前在线机器学习模型的预备在线机器学习模型。进一步根据模型更换方式，在预定时间段内，分配给候选机器训练模型MA2、MB2和MC2的在线服务请求的流量从0％逐渐增加至100％，与之相对的，分配给候选机器训练模型MA1、MB1和MC1的在线服务请求的流量从100％逐渐减小至0％，当在线服务请求分配给候选机器训练模型MA2、MB2和MC2时，则对由候选机器训练模型MA2、MB2和MC2分别产生的预测结果进行加权以获得预测结果；当在线服务请求分配给候选机器训练模型MA1、MB1和MC1时，则对由候选机器训练模型MA1、MB1和MC1分别产生的预测结果进行加权以获得预测结果。从而，可以平滑地完成替代(升级)过程。在替代过程完成后，销毁/备份单元(未示出)可以销毁或备份已被替换的候选机器训练模型MA1、MB1和MC1，然后，候选机器训练模型MA2、MB2和MC2可被称为当前在线机器学习模型。

需要说明的是，在线策略单元400可以根据不同业务场景手动或自动调整不同机器学习模型组的权重比(例如，候选机器训练模型MA1的权重调整为0.4，候选机器训练模型MB1的权重为0.25，候选机器训练模型MC1的权重为0.35)，所述场景可以是诸如在线内容(诸如，新闻、广告、音乐等)推荐、信用卡欺诈检测、异常行为检测、智能营销、智能投资顾问、网络流量分析等。因为不同的机器学习模型组综合使用了不同机器学习方案下训练的模型，从而使得提供在线预测服务的系统10可以具有更强的适应性和灵活性，可应对更复杂的业务场景，并在复杂的业务场景下预测服务的质量也相对更稳定。此外，由于具有依赖不同模型更新方案的多个机器学习模型组，不同机器学习方案可以看作是彼此的备选方案，在面对不太明确的业务领域时，可以利用多个机器学习模型组进行快速试错，便于更快地得到哪个机器学习方案更适合该业务领域。从而更快速地部署在线预测服务、降低部署成本、改善适应性和灵活性。

预定策略的选择仅是示例，并且不限于以上示例。

需要说明的是，上述的模型选择仅是示例，由于不同模型更新方案的训练周期、更新频率可以彼此不同，所以可以根据预定策略，在机器训练模型组MGA、MGB和MGC中选择任一个候选机器训练模型组作为在线机器学习模型。作为示例，在其他示例中，根据预定策略，也可以将候选机器训练模型MA2、候选机器训练模型MB1和候选机器训练模型MC3选作当前在线机器学习模型，在这种情况下可以将候选机器训练模型MA3、候选机器训练模型MB3和候选机器训练模型MC4选作预备在线机器学习模型，并根据预定策略执行替代过程。

以上已参照图1至图5描述了根据本申请示例性实施例的利用机器学习模型提供在线预测服务的方法及系统。然而，应理解的是：图1所示出的系统及其单元可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置或单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的单元。此外，这些装置或单元所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算可读介质上的程序来实现，例如，根据本申请示例性实施例，可提供一种用于执行自动机器学习的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组；持续获取预测数据；监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化；在出现超出阈值的分布状态变化的情况下，自动更新初始机器学习模型组。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图2进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本申请示例性实施例的自动机器学习装置可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个装置通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图1所示的系统或单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本申请的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行包括以下步骤的方法：通过自动机器学习方式获取包括至少一个机器学习模型的初始机器学习模型组；持续获取预测数据；监测持续获取的预测数据中是否出现超出预设阈值的分布状态变化；在出现超出阈值的分布状态变化的情况下，自动更新初始机器学习模型组。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本申请示例性实施例的利用机器学习模型提供在线预测服务的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本申请示例性实施例的执行自动机器学习的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个逻辑装置或按照非确切的边界进行操作。

以上已经结合示例性实施例描述了根据本申请的利用机器学习模型提供在线预测服务的方法及系统，其可广泛应用于数据非独立同分布的任何机器学习场景，例如，这些机器学习场景可以是诸如在线内容(诸如，新闻、广告、音乐等)推荐、信用卡欺诈检测、异常行为检测、智能营销、智能投资顾问、网络流量分析等的机器学习场景。

尽管以上描述了本申请的示例性实施例，但是应理解：上述描述仅是示例性的，并非穷尽性的。本申请不限于所披露的各示例性实施例，并且在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种利用机器学习模型提供在线预测服务的方法，包括：

按照至少一个模型更新方案，基于持续获取的训练数据来不断更新至少一个机器学习模型组，其中，每个机器学习模型组包括按照对应的模型更新方案得到的至少一个候选机器学习模型；

根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型；以及

在接收到关于针对预测数据提供预测结果的在线服务请求的情况下，提供由在线机器学习模型针对预测数据产生的预测结果。

2.如权利要求1所述的方法，其中，所述模型更新方案至少包括：

数据记录获取步骤，获取数据记录；

特征抽取步骤，对所述数据记录的属性字段执行处理以获取特征；以及模型训练步骤，基于由所述特征和数据记录的标记组成的训练样本，按照机器学习算法来训练模型。

3.如权利要求1所述的方法，其中，所述预定策略是关于模型选取规则、模型更换时机和/或模型更换方式的策略。

4.如权利要求3所述的方法，其中，所述模型选取规则用于限定如何基于模型效果和/或根据人为指定来确定准备提供在线预测服务的预备在线机器学习模型；并且/或者，所述模型更换时机用于限定如何根据预设时间和/或根据评估结果来确定由预备在线机器学习模型替代当前提供在线预测服务的当前在线机器学习模型的时间点；并且/或者，所述模型更换方式用于限定如何按照流量分配比例完成由预备在线机器学习模型替代当前在线机器学习模型的过程。

5.如权利要求4所述的方法，其中，所述至少一个模型更新方案包括单个模型更新方案，

其中，根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型的步骤包括：按照预定策略，从单个机器学习模型组中将一个候选机器学习模型选作在线机器学习模型。

6.如权利要求4所述的方法，其中，所述至少一个模型更新方案包括多模型更新方案，

其中，根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型的步骤包括：按照预定策略，分别从每个机器学习模型组中将一个候选机器学习模型选作在线机器学习模型；并且/或者，按照预定策略，从所有机器学习模型组中将多个候选机器学习模型选作在线机器学习模型。

7.如权利要求6所述的方法，其中，提供由在线机器学习模型针对预测数据产生的预测结果的步骤包括：提供对由多个在线机器学习模型分别针对预测数据产生的预测结果进行加权而得到的预测结果。

8.一种利用机器学习模型提供在线预测服务的系统，包括：

模型更新单元，按照至少一个模型更新方案，基于持续获取的训练数据来不断更新至少一个机器学习模型组，其中，每个机器学习模型组包括按照对应的模型更新方案得到的至少一个候选机器学习模型；

在线策略单元，根据预定策略从所述至少一个机器学习模型组中将一个或多个候选机器学习模型选作用于提供在线预测服务的在线机器学习模型；以及

服务单元，在接收到关于针对预测数据提供预测结果的在线服务请求的情况下，提供由在线机器学习模型针对预测数据产生的预测结果。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有用于执行如权利要求1至7中任一项所述的利用机器学习模型提供在线预测服务的方法的计算机程序。

10.一种计算装置，包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行如权利要求1至7中任一项所述的利用机器学习模型提供在线预测服务的方法。