CN113673707A

CN113673707A - 一种应用机器学习的方法、装置、电子设备及存储介质

Info

Publication number: CN113673707A
Application number: CN202010415370.7A
Authority: CN
Inventors: 张青; 周振华; 张世健; 石光川; 方荣; 陈雨强; 戴文渊; 郑曌; 黄缨宁
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-19
Also published as: EP4152224A1; US20230342663A1; WO2021228264A1

Abstract

本公开涉及应用机器学习的方法、装置、电子设备及存储介质，直接对接业务场景，积累业务场景相关数据进而探索模型方案，保证线下模型方案探索用到的数据和模型在线预估服务用到的数据同源，实现线下线上数据的同源性。为避免离线模型直接部署上线后由于线上特征计算和线下特征计算得到的数据存在不一致，导致预估效果较差的问题，只部署模型方案上线，而不部署离线模型上线。模型方案部署上线后接收预估请求可得到带特征和反馈的样本数据，进而可使用样本数据进行模型自学习，自学习得到的模型可部署上线，保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案一致，实现模型自学习效果和模型预估效果一致性。

Description

一种应用机器学习的方法、装置、电子设备及存储介质

技术领域

本公开实施例涉及机器学习技术领域，具体涉及一种应用机器学习的方法、装置、电子设备及存储介质。

背景技术

机器学习的应用可包括但不限于：问题定义、机器学习模型建立(简称建模)、模型上线服务、反馈信息收集和模型迭代更新等过程。目前，建模是基于离线数据探索模型，进而基于离线评估方式确定模型效果，在模型效果达标(也即达到预设要求)后由IT人员将模型部署上线，进行模型上线服务。

但是离线效果达标的模型上线效果可能达不到要求，本申请发明人发现是因为建模所用的数据与线上的数据存在不一致，建模过程中计算的特征很难保证一致，导致模型效果线上线下差别很大，达不到预期，使得模型上线服务难度较大。

上述对问题的发现过程的描述，仅用于辅助理解本公开的技术方案，并不代表承认上述内容是现有技术。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种应用机器学习的方法、装置、电子设备及存储介质。

第一方面，本公开实施例提出一种应用机器学习的方法，所述方法包括：

基于数据服务接口在线获取指定业务场景的相关数据流；

将所述相关数据流中的数据积累到第一数据库中；

当第一预设条件被满足时，基于所述第一数据库中的数据探索模型方案；所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数；

将探索得到的模型方案部署上线以提供模型在线预估服务，其中，所述模型在线预估服务基于所述数据服务接口在线获取的所述指定业务场景的相关数据流进行。

第二方面，本公开实施例提出一种应用机器学习的装置，所述装置包括：

数据管理模块，用于基于数据服务接口在线获取指定业务场景的相关数据流；将所述相关数据流中的数据积累到第一数据库中；

模型方案探索模块，用于当第一预设条件被满足时，基于所述第一数据库中的数据探索模型方案；所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数；

模型在线预估服务模块，用于将所述模型方案探索模块得到的模型方案部署上线以提供模型在线预估服务，其中，所述模型在线预估服务基于所述数据服务接口在线获取的所述指定业务场景的相关数据流进行。

第三方面，本公开实施例提出一种电子设备，包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行如第一方面所述应用机器学习的方法的步骤。

第四方面，本公开实施例提出一种非暂态计算机可读存储介质，用于存储程序或指令，所述程序或指令使计算机执行如第一方面所述应用机器学习的方法的步骤。

可见，本公开的至少一个实施例中，直接对接业务场景，积累业务场景相关数据进而探索模型方案，得到模型方案及离线模型，保证线下模型方案探索用到的数据和模型在线预估服务用到的数据是同源的，实现线下线上数据的同源性。为避免离线模型直接部署上线后由于线上特征计算得到的数据和线下特征计算得到的数据存在不一致，导致部署上线的离线模型的预估效果较差的问题，只部署模型方案上线，而不部署离线模型上线。模型方案部署上线后接收预估请求(也即请求数据流的数据)可得到带特征和反馈的样本数据，进而可使用带特征和反馈的样本数据进行模型自学习，自学习得到的模型可部署上线，保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的，实现模型自学习效果和模型预估效果一致性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种应用机器学习的装置的示例性架构图；

图2是本公开实施例提供的另一种应用机器学习的装置的示例性架构图；

图3是图2所示的应用机器学习的装置的示例性流程逻辑框图；

图4是图2所示的应用机器学习的装置的示例性数据流向图；

图5是本公开实施例提供的一种电子设备的示例性架构图；

图6是本公开实施例提供的一种应用机器学习的方法的示例性流程图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

各行各业不同的业务场景具有不同的业务处理逻辑，但是不同的业务场景中大多需要应用机器学习来处理业务数据，可减少人工处理业务数据带来的多种问题，例如耗时、人工成本高、不准确等问题。为此，图1为本公开实施例提供的一种应用机器学习的装置的示例性架构图，其中所述应用机器学习的装置适用于各类不同数据的有监督学习人工智能建模，包括但不仅限于二维结构化数据、图像、NLP(Natural Language Processing，自然语言处理)、语音等。所述应用机器学习的装置可应用于指定业务场景，其中所述指定业务场景中预先定义了业务场景的相关数据流的信息，其中所述相关数据流可包括但不限于：请求数据流、展示数据流、反馈数据流和业务数据流，其中所述展示数据流的数据为所述指定业务场景基于请求数据流展示的数据。以短视频应用程序场景为例，请求数据例如为用户滑动或点击用户终端等刷新短视频的操作后，应用后台会筛选出一个候选视频集合，形成需要做模型预估的请求数据。展示数据就是短视频应用程序实际给用户展示了哪些短视频。反馈数据例如为用户是否点击或者观看短视频应用程序展示的短视频。业务数据例如为用户在观看短视频时的评论数据、点赞数据等与业务逻辑相关的数据。

预先定义的业务场景的相关数据流的信息可以理解为相关数据所包括的字段，例如，所述相关数据流为请求数据流，相应地，预先定义的请求数据流的信息可以理解为所述请求数据流中请求数据所包括的字段，所述字段可以为用户ID、请求内容、请求时间、候选物料ID等。

在指定业务场景后，即可通过图1所示的应用机器学习的装置提供模型在线预估服务。如图1所示，应用机器学习的装置可包括但不限于：数据管理模块100、模型方案探索模块200、模型在线预估服务模块300以及其他应用机器学习所需的组件，例如离线数据库、在线数据库等。

数据管理模块100，用于存储和管理来源于指定业务场景的数据以及所述模型在线预估服务模块300产出的数据。其中所述来源于指定业务场景的数据为所述数据管理模块100基于数据服务接口直接对接所述指定业务场景而在线获取的相关数据流。所述数据服务接口为应用编程接口(API，Application Programming Interface)。在一些实施例中，所述数据服务接口为所述数据管理模块100基于预先定义的所述指定业务场景的相关数据流的信息而创建的。在一些实施例中，所述数据管理模块100可以提供用户界面，并基于所述用户界面接收用户输入的关于所述指定业务场景的相关数据流的信息，本实施例中，所述用户可以为所述指定业务场景的运维工程师。所述数据管理模块100可基于所述用户输入的关于所述指定业务场景的相关数据流的信息创建数据服务接口。在一些实施例中，所述数据服务接口与所述相关数据流一对一，例如请求数据流、展示数据流、反馈数据流和业务数据流分别对应不同的数据服务接口。

在一些实施例中，数据管理模块100可将所述指定业务场景的相关数据流中的数据积累到第一数据库中，其中所述第一数据库为离线数据库，例如，所述离线数据库可以为分布式文件存储系统(HDFS，Hadoop Distributed File System)，还可以为其他离线数据库。在一些实施例中，所述数据管理模块100可处理请求数据流的数据得到样本数据，其中所述处理的方式例如包括但不限于：使用过滤器(filter)进行处理和压平(flatten)处理。所述数据管理模块100可将请求数据流的数据、所述样本数据、反馈数据流的数据和业务数据流的数据积累到所述第一数据库中。在一些实施例中，所述数据管理模块100基于数据服务接口在线获取所述指定业务场景的展示数据流的数据后，可使用过滤器(filter)基于所述展示数据流的数据对所述请求数据流的数据进行过滤，得到交集数据。例如，展示数据流有10条数据，请求数据流有12条数据，展示数据流和请求数据流有5条相同数据，那么通过filter过滤，得到这5条相同数据即为交集数据，把不同数据滤除掉。所述数据管理模块100可通过压平(flatten)处理交集数据(这5条相同数据)得到样本数据。所述数据管理模块100可将展示数据流的数据和过滤处理得到的样本数据积累到第一数据库中。

在一些实施例中，数据管理模块100可通过用户界面接收用户输入的数据表属性信息，其中所述数据表属性信息描述了数据表包括的列数及每列的数据属性，所述数据属性例如用户ID为离散类字段、请求时间为时间字段、浏览时长数值类字段等。所述数据管理模块100可通过用户界面接收用户输入的数据表之间的拼接方案，其中所述拼表方案包括拼接不同数据表的拼接键，以及主副表之间同拼接键的数量关系、时序关系和聚合关系。在一些实施例中，所述数据管理模块100可基于所述数据表属性信息和所述拼表方案，通过所述第一数据库维护逻辑关系信息；其中所述逻辑关系信息为描述不同数据表之间关系的信息，所述逻辑关系信息包括：所述数据表属性信息和所述拼表方案。

模型方案探索模块200，用于当第一预设条件被满足时，基于所述第一数据库中的数据(例如所述逻辑关系信息、所述请求数据流的数据、所述样本数据、反馈数据流的数据和业务数据流的数据、所述展示数据流的数据中一个或多个)探索模型方案。其中所述第一预设条件可以包括数据量、时间和人工触发中的至少一个，例如，第一预设条件可以为所述第一数据库中的数据量达到预设数据量，也可以为所述第一数据库中数据积累的时长达到预设时长。所述第一预设条件的设置可以使所述模型方案探索模块200迭代更新模型方案。所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数。所述特征工程方案基于所述逻辑关系信息探索得到，因此，所述特征工程方案至少具有拼表功能，需要说明的是，特征工程方案的拼表方式与用户输入的拼表方案可以相同，也可以不同。所述特征工程方案还可以具有其他功能，例如从数据中提取特征以供模型算法或模型使用。所述模型算法可以为目前常用的机器学习算法，例如有监督学习算法，包括但不限于：LR(Logistic Regression，逻辑回归)、GBDT(Gradient Boosting Decision Tree，梯度提升迭代决策树)、DeepNN(Deep Neural Network，深度神经网络)等。所述模型的超参数是在机器学习之前预先设置的用于辅助模型训练的参数，例如聚类算法中的类别个数、梯度下降法的步长、神经网络的层数、训练神经网络的学习速率等。

在一些实施例中，模型方案探索模块200在探索模型方案时，可生成至少两个模型方案，例如，可基于所述第一数据库维护的逻辑关系信息生成至少两个模型方案。其中，不同模型方案之间至少有一个方案子项不同。在一些实施例中，所述模型方案探索模块200基于所述第一数据库中的数据分别采用所述至少两个模型方案进行模型训练，可得到模型本身的参数，其中所述模型本身的参数例如：神经网络中的权重、支持向量机中的支持向量、线性回归或逻辑回归中的系数等。在一些实施例中，所述模型方案探索模块200可基于机器学习模型评价指标，对所述至少两个模型方案所分别训练出的模型进行评价，进而基于评价结果从所述至少两个模型方案中进行选择，得到探索到的模型方案。其中所述机器学习模型评价指标例如为AUC(Area Under Curve)值等。

模型在线预估服务模块300，用于将模型方案探索模块200探索得到的模型方案部署上线以提供模型在线预估服务，其中，所述模型在线预估服务基于所述数据服务接口在线获取的所述指定业务场景的相关数据流进行。在一些实施例中，所述模型在线预估服务模块300仅将模型方案部署上线，而没有将模型方案探索模块200探索过程中得到的离线模型部署上线，可避免离线模型直接部署上线后由于线上特征计算和线下特征计算得到的数据存在不一致，导致部署上线的离线模型的预估效果较差的问题。另外，由于所述模型在线预估服务模块300仅将模型方案部署上线，没有将离线模型部署上线，因此在提供模型在线预估服务时，并不会生成预估结果，当接收到请求数据时，向所述指定业务场景发送的是默认的预估结果，所述指定业务场景接收到默认的预估结果后不予理会，因此，图1中模型方案探索模块200以虚箭头指向模型在线预估服务模块300，表示模型方案不会提供在线预估服务，但仍会反馈默认的预估结果。在一些实施例中，所述模型在线预估服务模块300将模型方案部署上线时，还将模型方案探索模块200探索过程中得到的离线模型部署上线，所述离线模型是基于所述第一数据库(即离线数据库)中积累的所述指定业务场景的相关数据训练得到，并且离线模型部署上线后是对所述指定业务场景的相关数据进行预估服务，因此，虽然线上线下特征计算得到的数据可能不一致，但仍实现了线上线下数据同源。

在一些实施例中，模型在线预估服务模块300将模型方案部署上线后，可将所述数据服务接口获取的所述指定业务场景的相关数据流存储到第二数据库中，其中所述第二数据库为在线数据库，例如实时特征存储引擎(rtidb)，rtidb是面向AI硬实时场景的分布式特征数据库，具备高效计算、读写分离、高并发、高性能查询等特性；所述第二数据库也可以为其他在线数据库。所述模型在线预估服务模块300接收到请求数据时，基于部署上线的模型方案中的特征工程方案，利用所述第二数据库中的数据和接收的请求数据进行线上实时特征计算，得到预估样本的特征数据。在一些实施例中，所述模型在线预估服务模块300接收到请求数据时，基于部署上线的模型方案中的特征工程方案，对所述第二数据库中的数据和接收的请求数据进行拼表和线上实时特征计算得到宽表特征数据，得到的预估样本的特征数据为宽表特征数据。

在一些实施例中，模型在线预估服务模块300可基于部署上线的模型方案得到预估样本的特征数据(或宽表特征数据)，拼接特征数据和反馈数据生成带特征和反馈的样本数据，所述样本数据还可包括其他数据，例如时间戳数据等；所述反馈数据来源于反馈数据流。在一些实施例中，所述模型在线预估服务模块300拼接所述特征数据和反馈数据之前，拼接所述特征数据和展示数据，得到带展示数据的特征数据，所述展示数据来源于展示数据流；进而拼接所述带展示数据的特征数据和反馈数据，生成带展示、特征和反馈的样本数据。在一些实施例中，所述模型在线预估服务模块300将所述带特征和反馈的样本数据回流到所述第一数据库中，以便进行模型自学习，自学习得到的模型可部署上线，保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的，实现模型自学习效果和模型预估效果一致性。

基于以上关于数据管理模块100、模型方案探索模块200和模型在线预估服务模块300的描述，结合图1可见，数据管理模块100、模型方案探索模块200和模型在线预估服务模块300构成了一个机器学习闭环，由于模型方案探索用到的数据为第一数据库中的数据，而第一数据库为离线数据库，因此，模型方案探索用到的数据可以理解为线下数据，而模型在线预估服务用到的数据为线上数据，且所述线下数据和线上数据都是由数据服务接口从指定业务场景中获取，因此，可保证模型方案探索用到的数据(简称线下数据)和模型在线预估服务用到的数据(简称线上数据)是同源的，实现线下线上数据的同源性。

图2为本公开实施例提供的另一种应用机器学习的装置，所述应用机器学习的装置除了包括图1所示的数据管理模块100、模型方案探索模块200和模型在线预估服务模块300，还包括模型自学习模块400以及其他应用机器学习所需的组件，例如离线数据库、在线数据库等。

其中所述模型自学习模块400，用于当第二预设条件被满足时，基于所述第一数据库中的带特征和反馈的样本数据进行模型自学习。其中所述第二预设条件可以包括数据量、时间和人工触发中的至少一个，例如，第二预设条件可以为所述第一数据库中的数据量达到预设数据量，也可以为所述第一数据库中数据积累的时长达到预设时长。所述第二预设条件的设置可以使所述模型自学习模块400迭代更新模型。

在一些实施例中，所述模型自学习模块400当第二预设条件被满足时，基于所述带特征和反馈的样本数据，通过所述模型方案中的模型算法和模型的超参数进行训练，得到机器学习模型。在一些实施例中，若所述模型在线预估服务模块300部署模型方案上线时，还将初始模型部署上线，其中所述初始模型为所述模型方案探索模块200探索模型方案的过程中产生的离线模型，则所述模型自学习模块400通过所述模型方案中的模型算法和模型的超参数训练初始模型，更新所述初始模型本身的参数取值，得到机器学习模型。在一些实施例中，若所述模型在线预估服务模块300将模型方案部署上线时，没有将初始模型部署上线，则所述模型自学习模块400通过所述模型方案中的模型算法和模型的超参数训练随机模型，得到机器学习模型，其中所述随机模型为基于所述模型算法生成的模型，且所述模型本身的参数取值为随机值。

所述模型在线预估服务模块300可将所述模型自学习模块400得到的模型部署上线以提供模型在线预估服务。在一些实施例中，所述模型在线预估服务模块300将所述模型自学习模块400得到的模型部署上线后，当接收到请求数据时，基于所述第二数据库中的数据和接收的请求数据生成带特征的预估样本，并通过部署上线的模型得到所述预估样本的预估结果，与模型方案的不同在于：部署上线的模型可得到所述预估样本的预估结果。所述模型在线预估服务模块300可向所述指定业务场景发送所述预估结果，以供业务场景使用或参考。

在一些实施例中，所述模型在线预估服务模块300可将所述模型自学习模块400得到的模型替换已部署上线的机器学习模型；或，将所述模型自学习模块400得到的模型部署上线，并与已部署上线的机器学习模型共同提供模型在线预估服务。在一些实施例中，所述模型在线预估服务模块300可将所述模型方案探索模块200得到的模型方案替换已部署上线的模型方案；或，将所述模型方案探索模块200得到的模型方案部署上线，且不下线已部署上线的模型方案。

基于以上关于所述模型自学习模块400和所述模型在线预估服务模块300的描述，结合图2可见，数据管理模块100、模型自学习模块400和模型在线预估服务模块300构成了一个机器学习闭环，由于模型自学习模块400训练模型所用的带特征和反馈的样本数据是模型方案部署上线后基于第二数据库(也即在线数据库)中的数据和接收的请求数据在线生成的，并且模型在线预估服务模块300将模型自学习模块400训练得到的模型部署上线后，也是基于第二数据库中的数据提供预估服务，因此，保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的，实现模型自学习效果和模型预估效果一致性。

在一些实施例中，应用机器学习的装置中各模块的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如数据管理模块100、模型方案探索模块200、模型在线预估服务模块300和模型自学习模块400中的至少两个模块可以实现为一个模块；数据管理模块100、模型方案探索模块200、模型在线预估服务模块300或模型自学习模块400也可以划分为多个子模块。可以理解的是，各个模块或子模块能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图3是图2所示的应用机器学习的装置的示例性流程逻辑框图，如图3所示，指定业务场景的定义301中，用户可通过用户界面输入所述指定业务场景的相关数据流的信息，用户也可以在模型方案探索303进行的过程中通过用户界面输入数据表属性信息和拼表方案。图3中，数据管理302、模型自学习305、模型在线预估服务304构成小闭环；数据管理302、模型方案探索303、模型在线预估服务304构成大闭环。其中，小闭环保证模型自学习305用到的数据和特征工程方案分别与模型在线预估服务304用到的数据和特征工程方案，实现模型自学习效果和模型预估效果一致性。大闭环保证模型方案探索303用到的数据(简称线下数据)和模型在线预估服务304用到的数据(简称线上数据)是同源的，实现了线下线上的数据同源。

图4为图2所示的应用机器学习的装置的示例性数据流向图。图4中各英文单词说明如下：

GW为指定业务场景的网关；

retain-mixer用于实现数据管理模块100中将所述指定业务场景的相关数据流中的数据积累到第一数据库中的功能；

trial1-mixer和trial2-mixer可以理解为两个并行的模型在线预估服务模块300；

HDFS为第一数据库；

rtidb1和rtidb2为两个第二数据库；

AutoML为模型方案探索模块200；

self-learn1和self-learn2为两个模型自学习模块400；

request为请求数据；impression为展示数据；action为反馈数据；BOes为业务数据；enrich1和enrich2为宽表特征数据；viewlog1和viewlog2为带反馈的宽表特征数据；

fedb1和fedb2可以理解为模型方案中的特征工程方案。

基于以上英文单词说明，应用机器学习的装置的数据流向描述如下：

retain-mixer基于数据服务接口从指定业务场景中获取request、impression、action及BOes，并且对request、impression、action分别增加eventTime或者ingestionTime，便于数据管理模块100维护逻辑关系信息中的数据时序关系信息。其中增加eventTime属于数据管理模块100的数据管理功能。

retain-mixer将request积累到HDFS中，便于后续运维使用。retain-mixer对impression、action及BOes分别增加ingestionTime，得到impression’、action’及BOes’，并将impression’、action’及BOes’积累到HDFS中。其中增加ingestionTime属于数据管理模块100的数据管理功能。

retain-mixer通过filter操作处理request和impression，得到交集数据，例如impression有10条数据，request有12条数据，request和impression有5条相同数据，那么通过filter操作得到这5条相同数据即交集数据，把不同数据滤除掉；进而通过flatten操作处理交集数据(这5条相同数据)，得到flatten_req(样本数据)。retain-mixer将flatten_req积累到HDFS中。

AutoML可基于HDFS中的flatten_req、impression’、action’及BOes’进行模型方案探索。

trial1-mixer和trial2-mixer分别将不同的模型方案部署上线后，impression’、action’及BOes’被积累到rtidb1和rtidb2中，用户的历史数据，例如用户行为数据可被同步到rtidb1和rtidb2中。

trial1-mixer和trial2-mixer分别将不同的模型方案部署上线后，每获取一条请求数据，通过fedb1和fedb2从rtidb1和rtidb2中获取积累的数据进行特征工程，得到enrich1和enrich2。

trial1-mixer和trial2-mixer将enrich1和enrich2分别与impression和action进行join(拼接)和flatten操作，得到viewlog1和viewlog2。trial1-mixer和trial2-mixer将viewlog1和viewlog2积累到HDFS中。

self-learn1和self-learn2分别基于viewlog1和viewlog2进行模型自学习，得到机器学习模型。trial1-mixer和trial2-mixer分别将self-learn1和self-learn2得到的机器学习模型部署上线，提供模型在线预估服务。

由图4可见，retain-mixer与trial1-mixer、trial2-mixer的数据来源一致，并且将数据积累到HDFS中，保证AutoML用到的数据和模型方案部署上线后用到的数据是同源的，实现线上线下数据同源。另外self-learn1和self-learn2用到的数据和特征工程方案分别与模型部署上线后用到的数据和特征工程方案是一致的，实现模型自学习效果和模型预估效果一致性。

可见，本实施例公开的应用机器学习的装置可以不依赖从其他数据库导入历史离线数据，可以从零开始收集数据。

图5是本公开实施例提供的一种电子设备的结构示意图。如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解地，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例提供的应用机器学习的方法的程序可以包含在应用程序中。

在本公开实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本公开实施例提供的应用机器学习的方法各实施例的步骤。

本公开实施例提供的应用机器学习的方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的应用机器学习的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成方法的步骤。

图6为本公开实施例提供的一种应用机器学习的方法的示例性流程图。该方法的执行主体为电子设备。为便于描述，以下实施例中以电子设备为执行主体说明应用机器学习的方法的流程。

在一些实施例中，电子设备可提供用户界面，基于所述用户界面接收用户输入的关于指定业务场景的相关数据流的信息，其中，所述相关数据流包括但不限于：请求数据流、展示数据流、反馈数据流和业务数据流。所述关于所述指定业务场景的相关数据流的信息可以理解为相关数据所包括的字段。进而电子设备基于所述关于所述指定业务场景的相关数据流的信息创建数据服务接口，例如请求数据流、展示数据流、反馈数据流和业务数据流分别对应不同的数据服务接口。

在一些实施例中，电子设备可基于所述用户界面接收用户输入的数据表属性信息，其中所述数据表属性信息描述了数据表包括的列数及每列的数据属性。所述电子设备还可通过用户界面接收用户输入的数据表之间的拼接方案，其中所述拼表方案包括拼接不同数据表的拼接键，以及主副表之间同拼接键的数量关系、时序关系和聚合关系。在一些实施例中，电子设备可基于所述数据表属性信息和所述拼表方案，通过所述第一数据库维护逻辑关系信息；其中所述逻辑关系信息为描述不同数据表之间关系的信息，所述逻辑关系信息包括：数据表属性信息和所述拼表方案。

在步骤601中，电子设备基于数据服务接口在线获取指定业务场景的相关数据流。例如，电子设备可基于数据服务接口在线获取所述指定业务场景的展示数据流，其中所述展示数据的数据为所述指定业务场景基于请求数据流展示的数据。

在步骤602中，电子设备将所述相关数据流中的数据积累到第一数据库中。其中所述第一数据库为离线数据库。在一些实施例中，电子设备处理所述请求数据流的数据得到样本数据；进而将所述请求数据流的数据、所述样本数据、所述反馈数据流的数据和所述业务数据流的数据积累到所述第一数据库中。其中所述处理的方式例如包括但不限于：使用过滤器(filter)进行处理和压平(flatten)处理。在一些实施例中，电子设备使用过滤器(filter)基于所述展示数据流的数据对所述请求数据流的数据进行过滤，得到交集数据；进而通过压平(flatten)处理所述交集数据得到样本数据。所述电子设备将所述展示数据和过滤处理得到的样本数据积累到所述第一数据库中。

在步骤603中，电子设备当第一预设条件被满足时，基于所述第一数据库中的数据(例如所述逻辑关系信息、所述请求数据流的数据、所述样本数据、反馈数据流的数据和业务数据流的数据、所述展示数据流的数据中一个或多个)探索模型方案；所述模型方案包括以下方案子项：特征工程方案、模型算法和模型的超参数。所述特征工程方案基于所述逻辑关系信息探索得到，因此，所述特征工程方案至少具有拼表功能，需要说明的是，特征工程方案的拼表方式与用户输入的拼表方案可以相同，也可以不同。所述特征工程方案还可以具有其他功能，例如从数据中提取特征以供模型算法或模型使用。在一些实施例中，所述第一预设条件可以包括数据量、时间和人工触发中的至少一个，例如，第一预设条件可以为所述第一数据库中的数据量达到预设数据量，也可以为所述第一数据库中数据积累的时长达到预设时长。

在一些实施例中，电子设备在第一预设条件被满足时，生成至少两个模型方案，例如，可基于所述第一数据库维护的逻辑关系信息生成至少两个模型方案，其中，不同模型方案之间至少有一个方案子项不同；进而基于所述第一数据库中的数据分别采用所述至少两个模型方案进行模型训练；然后基于机器学习模型评价指标，对所述至少两个模型方案所分别训练出的模型进行评价；最后基于评价结果从所述至少两个模型方案中进行选择，得到探索到的模型方案。

在步骤604中，电子设备将探索得到的模型方案部署上线以提供模型在线预估服务，其中，所述模型在线预估服务基于所述数据服务接口在线获取的所述指定业务场景的相关数据流进行。在一些实施例中，电子设备仅将模型方案部署上线，而没有将模型方案探索过程中得到的离线模型部署上线，可避免离线模型直接部署上线后由于线上特征计算和线下特征计算得到的数据存在不一致，导致部署上线的离线模型的预估效果较差的问题。另外，由于仅将模型方案部署上线，没有将离线模型部署上线，因此在提供模型在线预估服务时，并不会生成预估结果，当接收到请求数据时，向所述指定业务场景发送的是默认的预估结果，所述指定业务场景接收到默认的预估结果后不予理会。在一些实施例中，电子设备将模型方案部署上线时，还将模型方案探索过程中得到的离线模型部署上线，所述离线模型是基于所述第一数据库(即离线数据库)中积累的所述指定业务场景的相关数据训练得到，并且离线模型部署上线后是对所述指定业务场景的相关数据进行预估服务，因此，虽然线上线下特征计算得到的数据可能不一致，但仍实现了线上线下数据同源。

在一些实施例中，电子设备将探索得到的模型方案部署上线后，将所述相关数据流的数据存储到第二数据库中，其中所述第二数据库为在线数据库。电子设备在接收到请求数据时，基于部署上线的模型方案中的特征工程方案，利用所述第二数据库中的数据和接收的请求数据进行线上实时特征计算，得到预估样本的特征数据。在一些实施例中，电子设备将探索得到的模型方案部署上线后，在接收到请求数据时，基于部署上线的模型方案中的特征工程方案，对所述第二数据库中的数据和接收的请求数据进行拼表和线上实时特征计算得到宽表特征数据，得到的预估样本的特征数据为宽表特征数据。

在一些实施例中，电子设备基于部署上线的模型方案得到预估样本的特征数据(或宽表特征数据)，拼接特征数据和反馈数据生成带特征和反馈的样本数据，所述样本数据还可包括其他数据，例如时间戳数据等；所述反馈数据来源于反馈数据流。在一些实施例中，所述电子设备拼接所述特征数据和反馈数据之前，拼接所述特征数据和展示数据，得到带展示数据的特征数据，所述展示数据来源于展示数据流；进而拼接所述带展示数据的特征数据和反馈数据，生成带展示、特征和反馈的样本数据。

在一些实施例中，电子设备将所述带特征和反馈的样本数据回流到所述第一数据库中，当第二预设条件被满足时，基于所述第一数据库中的带特征和反馈的样本数据进行模型自学习。其中所述第二预设条件可以包括数据量、时间和人工触发中的至少一个，例如，第二预设条件可以为所述第一数据库中的数据量达到预设数据量，也可以为所述第一数据库中数据积累的时长达到预设时长。

在一些实施例中，电子设备将在第二预设条件被满足时，基于所述带特征和反馈的样本数据，通过所述模型方案中的模型算法和模型的超参数进行训练，得到机器学习模型。在一些实施例中，若电子设备部署模型方案上线时，还将初始模型部署上线，其中所述初始模型为探索模型方案的过程中产生的离线模型，则电子设备通过所述模型方案中的模型算法和模型的超参数训练初始模型，更新所述初始模型本身的参数取值，得到机器学习模型。在一些实施例中，若电子设备将模型方案部署上线时，没有将初始模型部署上线，则电子设备通过所述模型方案中的模型算法和模型的超参数训练随机模型，得到机器学习模型，其中所述随机模型为基于所述模型算法生成的模型，且所述模型本身的参数取值为随机值。

在一些实施例中，电子设备将所述机器学习模型部署上线以提供模型在线预估服务。在一些实施例中，电子设备将所述机器学习模型部署上线后，当接收到请求数据时，基于所述第二数据库中的数据和接收的请求数据生成带特征的预估样本，并通过部署上线的模型得到所述预估样本的预估结果，与模型方案的不同在于：部署上线的模型可得到所述预估样本的预估结果。电子设备可向所述指定业务场景发送所述预估结果，以供业务场景使用或参考。

在一些实施例中，电子设备将所述模型自学习得到的模型替换已部署上线的机器学习模型；或，将所述模型自学习得到的模型部署上线，并与已部署上线的机器学习模型共同提供模型在线预估服务。在一些实施例中，电子设备将所述探索得到的模型方案替换已部署上线的模型方案；或，将所述探索得到的模型方案部署上线，且不下线已部署上线的模型方案。

可见，以上实施例公开的应用机器学习的方法，由于模型方案探索用到的数据为第一数据库中的数据，而第一数据库为离线数据库，因此，模型方案探索用到的数据可以理解为线下数据，而模型在线预估服务用到的数据为线上数据，且所述线下数据和线上数据都是由数据服务接口从指定业务场景中获取，因此，可保证模型方案探索用到的数据(简称线下数据)和模型在线预估服务用到的数据(简称线上数据)是同源的，实现线下线上数据的同源性。

另外，以上实施例公开的应用机器学习的方法，由于模型自学习所用的带特征和反馈的样本数据是模型方案部署上线后基于第二数据库(也即在线数据库)中的数据和接收的请求数据在线生成的，并且模型自学习模块得到的模型部署上线后，也是基于第二数据库中的数据提供预估服务，因此，保证模型自学习用到的数据和特征工程方案分别与模型在线预估服务用到的数据和特征工程方案是一致的，实现模型自学习效果和模型预估效果一致性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如应用机器学习的方法各实施例的步骤，为避免重复描述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种应用机器学习的方法，其特征在于，所述方法包括：

基于数据服务接口在线获取指定业务场景的相关数据流；

将所述相关数据流中的数据积累到第一数据库中；

2.根据权利要求1所述的方法，其特征在于，在所述基于数据服务接口在线获取指定业务场景的相关数据流的步骤之前，该方法还包括：

提供用户界面，基于所述用户界面接收用户输入的关于所述指定业务场景的相关数据流的信息；

基于所述关于所述指定业务场景的相关数据流的信息创建所述数据服务接口。

3.根据权利要求1所述的方法，其特征在于，所述相关数据流包括：请求数据流、反馈数据流和业务数据流。

4.根据权利要求3所述的方法，其特征在于，所述将所述相关数据流中的数据积累到第一数据库中包括：

处理所述请求数据流的数据得到样本数据；

将所述请求数据流的数据、所述样本数据、所述反馈数据流的数据和所述业务数据流的数据积累到所述第一数据库中。

5.根据权利要求4所述的方法，其特征在于，所述相关数据流还包括展示数据流；其中所述展示数据流的数据为所述指定业务场景基于所述请求数据流展示的数据；

相应地，处理所述请求数据流的数据得到样本数据包括：基于所述展示数据流的数据对所述请求数据流的数据进行过滤，得到交集数据；处理所述交集数据得到样本数据；

相应地，将所述展示数据流的数据和所述样本数据积累到所述第一数据库中。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述第一数据库中的数据探索模型方案包括：

生成至少两个模型方案，其中，不同模型方案之间至少有一个方案子项不同；

基于所述第一数据库中的数据分别采用所述至少两个模型方案进行模型训练；

基于机器学习模型评价指标，对所述至少两个模型方案所分别训练出的模型进行评价；

基于评价结果从所述至少两个模型方案中进行选择，得到探索到的模型方案。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于用户界面接收用户输入的数据表属性信息和拼表方案；

基于所述数据表属性信息和所述拼表方案，通过所述第一数据库维护逻辑关系信息；所述逻辑关系信息为描述不同数据表之间关系的信息；

相应地，所述生成至少两个模型方案包括：

基于所述逻辑关系信息生成至少两个模型方案。

8.一种应用机器学习的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。