CN112508067A

CN112508067A - 分布式机器学习系统、模型训练方法、节点设备及介质

Info

Publication number: CN112508067A
Application number: CN202011344608.8A
Authority: CN
Inventors: 施亚东; 蒋乾; 郭棋林; 高磊; 冯可; 王崟垄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-16

Abstract

本申请提供了一种分布式机器学习系统、模型训练方法、节点设备及存储介质；系统包括：参数更新节点、以及至少两个执行器节点；其中，参数更新节点用于响应于至少两个执行器节点的模型获取请求，发送机器学习模型至各执行器节点；执行器节点用于接收机器学习模型并获取相应的训练样本子集，通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，并确定预测结果与相应的样本标签之间的差异；基于差异确定目标参数，并发送目标参数至参数更新节点；参数更新节点还用于基于各执行器节点发送的目标参数，更新机器学习模型的模型参数，以得到训练完成的机器学习模型；通过本申请，能够提升机器学习模型的训练效率，降低硬件资源的消耗。

Description

分布式机器学习系统、模型训练方法、节点设备及介质

技术领域

本申请涉及云技术和人工智能技术领域，尤其涉及一种分布式机器学习系统、模型训练方法、节点设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

相关技术中，机器学习模型的训练一般通过采样的方式将训练数据集缩小至单机能承受的范围，然后通过单机内存与CPU计算能力来完成模型的训练。但是基于单机CPU计算效率低下，模型训练时间过长，而且采样训练数据集可能会遗漏掉重要的信息，导致模型学习效果不佳。

发明内容

本申请实施例提供一种分布式机器学习系统、模型训练方法、节点设备及存储介质，能够提升机器学习模型的训练效率，降低硬件资源的消耗。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种分布式机器学习系统，所述系统包括：参数更新节点、以及至少两个执行器节点；其中，

所述参数更新节点，用于响应于至少两个所述执行器节点的模型获取请求，发送机器学习模型至各所述执行器节点；

所述执行器节点，用于接收所述机器学习模型并获取相应的训练样本子集，通过所述机器学习模型对所述训练样本子集中的训练样本进行预测，得到预测结果，并确定所述预测结果与相应的样本标签之间的差异；

其中，每个所述执行器节点分别对应一个训练样本子集，所述训练样本子集，为对用于训练所述机器学习模型的训练样本集拆分得到；

所述执行器节点，还用于基于所述差异确定目标参数，并发送所述目标参数至所述参数更新节点；

所述参数更新节点，还用于基于各所述执行器节点发送的目标参数，更新所述机器学习模型的模型参数，以得到训练完成的机器学习模型。

本申请实施例还提供一种基于分布式机器学习系统的模型训练方法，所述系统包括：参数更新节点、以及至少两个执行器节点；其中，每个所述执行器节点分别对应一个训练样本子集，所述训练样本子集，为对用于训练机器学习模型的训练样本集拆分得到；所述方法包括：

执行器节点获取机器学习模型以及相应的训练样本子集；

通过所述机器学习模型对相应的训练样本子集中的训练样本进行预测，得到预测结果；

基于所述预测结果与相应的样本标签之间的差异，确定所述机器学习模型对应的目标参数并发送至参数更新节点；

其中，所述目标参数，用于供所述参数更新节点基于所述目标参数更新所述机器学习模型的模型参数，以得到训练完成的机器学习模型。

本申请实施例还提供一种节点设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于分布式机器学习系统的模型训练方法。

本申请实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本申请实施例提供的基于分布式机器学习系统的模型训练方法。

本申请实施例具有以下有益效果：

各执行器节点从参数更新节点处获取机器学习模型，并获取相应的训练样本子集，进而通过机器学习模型对训练样本子集进行预测，并基于预测得到的预测结果与相应的样本标签之间的差异，确定用于更新模型参数的目标参数，以发送至参数更新节点进行机器学习模型的模型参数的更新。

这里，分布式机器学习系统中包含至少两个执行器节点，每个执行器节点单独计算用于更新模型参数的目标参数，并由参数更新节点根据各执行器节点的目标参数进行模型参数的更新，能够提升机器学习模型的训练效率，降低硬件资源的消耗；同时，训练样本子集是对用于训练机器学习模型的训练样本集拆分得到，避免了样本采样导致的信息丢失问题，提升了模型学习的效果。

附图说明

图1是本申请实施例提供的分布式机器学习系统10的架构示意图；

图2是本申请实施例提供的基于分布式机器学习系统的模型训练方法的节点设备500的结构示意图；

图3是本申请实施例提供的分布式机器学习系统中各节点设备之间的交互流程示意图；

图4是本申请实施例提供的分布式机器学习系统的系统架构图；

图5是本申请实施例提供的分布式机器学习系统中各节点设备之间的交互流程示意图；

图6是本申请实施例提供的分布式机器学习系统的系统架构图；

图7是本申请实施例提供的分布式机器学习系统中各节点设备之间的交互流程示意图；

图8是本申请实施例提供的基于分布式机器学习系统的模型训练方法的流程示意图；

图9A是本申请实施例提供的媒体信息流页面的预测任务的流程示意图；

图9B是本申请实施例提供的待推荐媒体信息的预测任务的流程示意图；

图10A是本申请实施例提供的信息流产品的智能决策运营平台的界面示意图；

图10B是本申请实施例提供的目标用户群的呈现示意图；

图11为本申请实施例提供的基于分布式机器学习系统的模型训练方法的流程示意图；

图12是机器学习模型的训练时长对比示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)客户端，终端中运行的用于提供各种服务的应用程序，例如即时通讯客户端、视频播放客户端。

2)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3)参数更新节点，即参数服务器(Parameter Server，PS)，在分布式训练架构中，承担着集群的创建、模型参数的汇总、更新，分发和储存等工作的节点(服务器或服务器集群)。

4)机器学习模型：一种由大量的、简单的处理单元广泛地互相连接而形成的复杂网络系统，反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。本申请实施例中的机器学习模型不局限任何结构、类型、应用场景。

5)COX回归模型，又称“比例风险回归模型(proportional hazards model，简称Cox模型)”，是一种半参数回归模型。该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。

6)Pytorch，是个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。

基于上述对本申请实施例中涉及的名词和术语的解释，下面说明本申请实施例提供的分布式机器学习系统。参见图1，图1是本申请实施例提供的分布式机器学习系统10的架构示意图，该分布式机器学习系统包括：参数更新节点以及至少两个执行器节点为实现支撑一个示例性应用，终端(示例性示出了终端400-1)通过网络300连接至少两个执行器节点(示例性示出了执行器节点100-1、100-2以及100-3)、以及参数更新节点200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端(如终端400-1)，用于响应于用户操作，发送训练指令至执行器节点(如执行器节点100-1)；

执行器节点(如执行器节点100-1)，用于响应于训练指令，发送机器学习模型的模型获取请求至参数更新节点200；

参数更新节点200，用于响应于至少两个执行器节点的模型获取请求，发送机器学习模型至各执行器节点(如执行器节点100-1)；

执行器节点(如执行器节点100-1)，用于接收机器学习模型并获取相应的训练样本子集，通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，确定预测结果与相应的样本标签之间的差异，并基于差异确定目标参数，发送目标参数至参数更新节点200；

参数更新节点200，用于基于各执行器节点发送的目标参数，更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

在实际应用中，各节点设备(如执行器节点100-1或者参数更新节点200)可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。终端以及各节点设备可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图2，图2是本申请实施例提供的基于分布式机器学习系统的模型训练方法的节点设备500的结构示意图。在实际应用中，节点设备500可以为图1示出的执行器节点或者参数更新节点，以节点设备500为图1示出的执行器节点为例，对实施本申请实施例的基于分布式机器学习系统的模型训练方法的节点设备进行说明，本申请实施例提供的节点设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。节点设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memo ry)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

接下来对本申请实施例提供的分布式机器学习系统进行详细说明。本申请实施例提供的分布式机器学习系统包括：参数更新节点、以及至少两个执行器节点，参见图3，图3是本申请实施例提供的分布式机器学习系统中各节点设备之间的交互流程示意图，包括：

步骤101：参数更新节点响应于至少两个执行器节点的模型获取请求，发送机器学习模型至各执行器节点。

这里，该分布式机器学习系统包括参数更新节点、以及至少两个执行器节点。需要说明的是，图3中仅示出了一个执行器节点，对于至少两个执行器节点中的其他执行器节点的处理，与图3所示的执行器节点的处理是类似的。

在实际应用中，参数更新节点在分布式机器学习系统中承担着集群的创建、模型参数的汇总、更新、模型的分发和储存等工作。因此，参数更新节点中存储有初始的机器学习模型，该初始的机器学习模型具备初始的模型参数。执行器节点在分布式机器学习系统中承担着模型的具体训练作、参数的计算等工作。

当基于该分布式机器学习系统进行机器学习模型的训练时，可触发针对该机器学习模型的模型训练指令。此时执行器节点响应于该模型训练指令，向参数更新节点发送机器学习模型的模型获取请求；参数更新节点响应于执行器节点的模型获取请求，将机器学习模型下发至各个执行器节点。

步骤102：执行器节点接收机器学习模型并获取相应的训练样本子集，通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，并确定预测结果与相应的样本标签之间的差异。

其中，每个执行器节点分别对应一个训练样本子集，训练样本子集，为对用于训练机器学习模型的训练样本集拆分得到；

执行器节点接收参数更新节点下发的机器学习模型，并获取与该机器学习模型相对应的训练样本子集。具体地，执行器节点可以从数据库中获取，也可以从代理服务器获取。这里，每个执行器节点分别对应一个训练样本子集，每个训练样本子集均为不同的，如此基于不同的训练样本子集进行机器学习模型的训练，可实现差异性训练，避免训练过程过拟合，提高泛化性。在实际应用中，该训练样本子集可以是对用于训练该机器学习模型的全量训练样本集进行拆分得到，如此，则避免了通过采样的方式从全量训练样本中筛选训练样本的情况发生，降低采样漏掉重要样本的可能性，提高模型训练的效果。

执行器节点在获取到机器学习模型对应的训练样本子集后，采用训练样本子集对机器学习模型进行训练。具体地，通过机器学习模型对训练样本子集中的训练样本进行预测，得到相应的预测结果；然后确定预测结果与相应的样本标签之间的差异。

在一些实施例中，执行器节点可通过如下方式对训练样本子集中的训练样本进行预测，得到预测结果：通过机器学习模型的特征提取层，对训练样本子集中的训练样本进行特征提取，得到训练样本所对应目标用户的用户画像特征、所对应目标页面的页面内容特征以及基于目标页面的用户行为特征；通过机器学习模型的特征预测层，结合用户画像特征、页面内容特征以及用户行为特征进行预测，得到目标用户针对目标页面的行为预测结果。

这里，机器学习模型包含特征提取层和特征预测层。在实际应用中，该训练样本子集中的训练样本的是基于目标用户的用户画像数据、目标页面的页面内容数据以及基于目标页面的用户行为数据构成，比如用户(ID：123)在2020.10.1号使用了新闻频道信息流页面，推荐系统对其曝光了3篇娱乐类文章、2篇时政类文章、用户点击了一篇娱乐类文章，之后用户(ID：123)在2020.10.5号又使用了新闻频道信息流页面，则上述整个过程可以形成机器学习模型的一个训练样本，包含：用户画像数据(比如用户的ID)、页面内容数据(比如3篇娱乐类文章的曝光、2篇时政类文章以及1篇娱乐类文章)、以及基于目标页面的用户行为数据(比如针对1篇娱乐类文章的点击行为)。在实际应用中，该用户相邻两次访问新闻频道信息流页面的访问时间间隔(4天)可以作为该训练样本的样本标签。

在进行机器学习模型的训练时，通过机器学习模型的特征提取层对训练样本进行特征提取，得到训练样本所对应目标用户的用户画像特征、所对应目标页面的页面内容特征以及基于目标页面的用户行为特征；然后通过机器学习模型的特征预测层，结合用户画像特征、页面内容特征以及用户行为特征进行预测，得到目标用户针对目标页面的行为预测结果，比如目标用户何时再次访问目标页面、目标用户针对目标页面的点击概率等。

在一些实施例中，执行器节点可通过如下方式通过机器学习模型的特征预测层进行预测：通过机器学习模型的特征预测层调用第一激活函数，结合用户画像特征、页面内容特征以及用户行为特征进行预测，得到目标用户针对目标页面的行为预测结果；或者

通过机器学习模型的特征预测层调用第二激活函数，结合用户画像特征、页面内容特征以及用户行为特征进行预测，得到目标用户针对目标页面的行为预测结果。

这里，机器学习模型可以是回归模型，也可以是分类模型。当机器学习模型为回归模型时，则通过特征预测层调用第一激活函数进行预测，该第一激活函数可以是Sigmoid函数；当机器学习模型为分类模型时，则通过特征预测层调用第二激活函数进行预测，该第二激活函数可以是Softmax函数。

在一些实施例中，当机器学习模型为比例风险回归模型时，执行器节点可通过如下方式对训练样本子集中的训练样本进行预测，得到预测结果：通过机器学习模型对训练样本子集中的训练样本进行特征提取，得到训练样本所对应目标用户的用户画像特征、所对应目标页面的页面内容特征以及基于目标页面的用户行为特征；通过机器学习模型的特征预测层，结合用户画像特征、页面内容特征以及用户行为特征进行预测，得到表征目标用户相邻两次访问目标页面的访问时间间隔的预测结果。

这里，以机器学习模型为比例风险回归模型(简称COX模型)为例，相应的训练样本的是基于目标用户的用户画像数据、目标页面的页面内容数据以及基于目标页面的用户行为数据构成，比如用户(ID：123)在2020.10.1号使用了新闻频道信息流页面，推荐系统对其曝光了3篇娱乐类文章、2篇时政类文章、用户点击了一篇娱乐类文章，之后用户(ID：123)在2020.10.5号又使用了新闻频道信息流页面，则上述整个过程可以形成机器学习模型的一个训练样本，包含：用户画像数据(比如用户的ID)、页面内容数据(比如3篇娱乐类文章的曝光、2篇时政类文章以及1篇娱乐类文章)、以及基于目标页面的用户行为数据(比如针对1篇娱乐类文章的点击行为)。

基于此，在进行机器学习模型的训练时，通过机器学习模型对训练样本进行特征提取，得到训练样本所对应目标用户的用户画像特征、所对应目标页面的页面内容特征以及基于目标页面的用户行为特征；然后通过机器学习模型，结合用户画像特征、页面内容特征以及用户行为特征进行预测，得到目标用户针对目标页面的行为预测结果，比如目标用户何时再次访问目标页面、目标用户针对目标页面的点击概率等。

步骤103：执行器节点基于差异确定目标参数，并发送目标参数至参数更新节点。

在一些实施例中，执行器节点可基于差异，确定机器学习模型的损失函数的值，对损失函数的值进行求导计算，得到目标参数。

执行器节点在确定预测结果与相应的样本标签之间的差异后，基于该差异确定目标参数，该目标参数可以是梯度、二阶导数等。具体地，执行器节点可以基于该差异，确定机器学习模型的损失函数的值，然后对损失函数的值进行求导计算，包括一阶求导和二阶求导，得到损失函数的值的一阶导数和二阶导数，将得到的损失函数的值的一阶导数和二阶导数作为目标参数。此时，将目标参数上传到参数更新节点，依靠参数更新节点的计算能力来实现机器学习模型的模型参数的更新。

作为示例，当机器学习模型为COX模型时，该损失函数可以是COX模型的似然函数，当执行器节点确定预测结果与相应的样本标签之间差异后，基于差异确定COX模型的似然函数的值，然后对COX模型的似然函数的值进行求导计算，包括一阶求导和二阶求导，得到似然函数的值的一阶导数和二阶导数，将得到的似然函数的值的一阶导数和二阶导数作为目标参数。

需要说明的是，执行器节点在完成上述计算任务(包括机器学习模型的训练任务和目标参数的计算任务)时，需要获取机器学习模型对应的神经网络框架为目标神经网络框架；基于此，执行器节点，还用于基于目标神经网络框架，调用图形处理器对训练样本子集中的训练样本进行预测，得到预测结果，确定预测结果与相应的样本标签之间的差异，并基于差异确定目标参数。这里，该目标神经网络框架可以是从Pytorch中调用的。

步骤104：参数更新节点基于各执行器节点发送的目标参数，更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

参数更新节点接收各执行器节点返回的目标参数，基于各执行器节点返回的目标参数更新机器学习模型的模型参数，从而实现机器学习模型的训练。

在一些实施例中，机器学习模型的模型参数包括第一模型参数和第二模型参数，参数更新节点，还用于基于各执行器节点发送的目标参数，更新机器学习模型的第一模型参数；

相应的，执行器节点，还用于基于多个数据统计指标，对训练样本子集中的训练样本进行统计，得到各数据统计指标的指标值，并获取机器学习模型的第一模型参数；基于各数据统计指标的指标值和第一模型参数，确定中间模型参数；发送中间模型参数至参数更新节点；

相应的，参数更新节点，还用于对各执行器节点发送的中间模型参数进行聚合处理，并基于聚合后的中间模型参数更新机器学习模型的第二模型参数。

在实际应用中，机器学习模型的模型参数包括第一模型参数和第二模型参数。此时，参数更新节点在接收到各执行器节点上传的目标参数后，基于目标参数去更新机器学习模型的第一模型参数。在更新完第一模型参数后，机器学习模型中第二模型参数还需要更新。而第二模型参数是和第一模型参数相关的。在实际应用中，该第二模型参数的计算也可以通过执行器节点来完成。

具体地，执行器节点从参数更新节点获取已更新的第一模型参数。然后对训练样本子集中的训练样本进行统计分析，比如可以预先设置多个数据统计指标，比如当训练样本为基于目标用户的用户画像数据、目标页面的页面内容数据以及基于目标页面的用户行为数据构成、相应的样本标签为目标用户相邻两次访问目标页面的时间间隔时，该数据统计指标可以是训练样本的特征、在时间间隔内访问目标页面的目标用户的数量、在时间间隔为访问目标页面的目标用户的数量等。从而得到各数据统计指标对应的指标值。最后，执行器节点基于各数据统计指标对应的指标值以及获取的第一模型参数，确定计算得到的第二模型参数对应的中间模型参数，并将中间模型参数发送至参数更新节点。

参数更新节点可以接收到各执行器节点上传的中间模型参数。此时，则可以对各执行器节点上传的中间模型参数进行聚合处理，比如求平均处理，然后基于聚合处理后的中间模型参数去更新机器学习模型的第二模型参数，以得到训练完成的机器学习模型。

在一些实施例中，该分布式机器学习系统还包括驱动器节点，该驱动器节点与至少两个执行器节点构成系统的分布式计算框架；驱动器节点，用于获取用于训练机器学习模型的训练样本集，并基于分布式计算框架对训练样本集进行拆分，得到对应各执行器节点的训练样本子集。

这里，在实际应用中，可以通过分布式计算框架Spark来实现，因此该分布式机器学习系统中还包括驱动器节点(Spark driver)，该驱动器节点与至少两个执行器节点构成系统的分布式计算框架。用于训练机器学习模型的训练样本集(即全量训练样本)存储于Hive中。在进行机器模型训练时，驱动器节点获取训练样本集，并基于该分布式计算框架，对训练样本集进行划分，得到对应各执行器节点的训练样本子集。

在一些实施例中，该驱动器节点，还用于生成各执行器节点对应的计算任务，并将计算任务发送至相应的执行器节点；其中，该计算任务，用于指示通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，确定预测结果与相应的样本标签之间的差异，并基于差异确定目标参数。

在实际应用中，驱动器节点用于分布式计算架构中的分布式任务调度，在将训练样本集划分后，将训练样本子集发送至各执行器节点，同时生成针对各执行器节点的计算任务，以指示各执行器节点基于训练样本子集中的训练样本对机器学习模型进行训练，并基于得到的预测结果与相应的样本标签之间的差异确定目标参数。

下面结合图4，参见图5对本申请实施例提供的分布式机器学习系统进行继续说明。图4是本申请实施例提供的分布式机器学习系统的系统架构图，该分布式机器学习系统包括参数更新节点、驱动器节点以及至少两个执行器节点。图5是本申请实施例提供的分布式机器学习系统中各节点设备之间的交互流程示意图，包括：

步骤201：驱动器节点获取用于训练机器学习模型的训练样本集，并基于分布式计算框架对训练样本集进行拆分，得到对应各执行器节点的训练样本子集。

这里，驱动器节点可以接收到用户触发的训练指令，响应于该训练指令，获取用于训练机器学习模型的训练样本集，并基于分布式计算框架对训练样本集进行拆分，得到对应各执行器节点的训练样本子集。

步骤202：驱动器节点生成各执行器节点对应的计算任务，并将计算任务发送至相应的执行器节点。

其中，该计算任务，用于指示通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，确定预测结果与相应的样本标签之间的差异，并基于差异确定目标参数。

步骤203：执行器节点接收到驱动器节点发送的计算任务，并向参数更新节点发送机器学习模型的模型获取请求。

步骤204：参数更新节点响应于执行器节点的模型获取请求，将机器学习模型下发至各个执行器节点。

步骤205：执行器节点接收机器学习模型并获取相应的训练样本子集，通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，并确定预测结果与相应的样本标签之间的差异。

步骤206：执行器节点用于基于差异确定目标参数，并发送目标参数至参数更新节点。

步骤207：参数更新节点用于基于各执行器节点发送的目标参数，更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

在一些实施例中，当参数更新节点为至少三个时，该至少三个参数更新节点包括主参数更新节点和至少两个从参数更新节点；

相应的，执行器节点，还用于将目标参数进行拆分，得到至少两个子目标参数，将各子目标参数分别发送至相应的从参数更新节点；

从参数更新节点，用于基于各执行器节点发送的子目标参数，更新机器学习模型的模型参数，得到机器学习模型的中间模型参数，并发送中间模型参数至主参数更新节点；

主参数更新节点，用于对至少两个从参数更新节点发送的中间模型参数进行聚合处理，并基于聚合后的中间模型参数更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

在实际应用中，为避免数据量太大影响参数更新节点，该参数更新节点还可以是至少三个，包括：主参数更新节点和至少两个从参数更新节点，其中，主参数更新节点可以是预先配置的，也可以是通过选举机制得到的。

此时，执行器节点在上传计算得到的目标参数时，需要将目标参数进行划分，比如划分为3个目标参数数据块，然后将该3个目标参数数据块分别上传至相应的从参数更新节点。需要说明的是，各执行器节点的目标参数的切分规则一致，上传至同一从参数更新节点的目标参数数据块在目标参数中的位置也应相同。比如，各执行器节点均将目标参数切分为目标参数数据块1、目标参数数据块2、目标参数数据块3，则在上传时，各执行器节点则将各自的目标参数数据块1均上传至从参数更新节点1，将各自的目标参数数据块2均上传至从参数更新节点2，将各自的目标参数数据块3均上传至从参数更新节点3。

各从参数更新节点基于各自接收的目标参数进行模型参数的更新，得到中间模型参数，并将中间模型参数发送至主参数更新节点；主参数更新节点对各从参数更新节点发送的中间模型参数进行聚合处理。比如对各中间模型参数进行求平均值的处理，并基于聚合后的中间模型参数更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

下面结合图6，参见图7对本申请实施例提供的分布式机器学习系统进行继续说明。图6是本申请实施例提供的分布式机器学习系统的系统架构图，该分布式机器学习系统包括至少三个参数更新节点、驱动器节点以及至少两个执行器节点。图7是本申请实施例提供的分布式机器学习系统中各节点设备之间的交互流程示意图，包括：

步骤301：驱动器节点获取用于训练机器学习模型的训练样本集，并基于分布式计算框架对训练样本集进行拆分，得到对应各执行器节点的训练样本子集。

步骤302：驱动器节点生成各执行器节点对应的计算任务，并将计算任务发送至相应的执行器节点。

步骤303：执行器节点接收到驱动器节点发送的计算任务，向主参数更新节点发送机器学习模型的模型获取请求。

步骤304：主参数更新节点响应于执行器节点的模型获取请求，将机器学习模型下发至各个执行器节点。

步骤305：执行器节点用于接收机器学习模型并获取相应的训练样本子集，通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，并确定预测结果与相应的样本标签之间的差异。

步骤306：执行器节点基于差异确定目标参数，将目标参数进行拆分，得到至少两个子目标参数，将各子目标参数分别发送至相应的从参数更新节点。

步骤307：从参数更新节点基于各执行器节点发送的子目标参数，更新机器学习模型的模型参数，得到机器学习模型的中间模型参数，并发送中间模型参数至主参数更新节点。

步骤308：主参数更新节点对至少两个从参数更新节点发送的中间模型参数进行聚合处理，并基于聚合后的中间模型参数更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

参见图6，该参数更新节点是四个，包括：主参数更新节点、从参数更新节点1、从参数更新节点2、从参数更新节点3。

此时，执行器节点在上传计算得到的目标参数时，需要将目标参数进行划分，比如划分为3个目标参数数据块A1、B1、C1，然后将该3个目标参数数据块分别上传至相应的从参数更新节点。执行器节点1将目标参数切分为A1、B1、C1，执行器节点2均将目标参数切分为A2、B2、C2，执行器节点n均将目标参数切分为A3、B3、C3，则在上传时，执行器节点则将A1、A2、A3均上传至从参数更新节点1，将B1、B2、B3均上传至从参数更新节点2，将C1、C2、C3均上传至从参数更新节点3。

应用本申请上述实施例，各执行器节点从参数更新节点处获取机器学习模型，并获取相应的训练样本子集，进而通过机器学习模型对训练样本子集进行预测，并基于预测得到的预测结果与相应的样本标签之间的差异，确定用于更新模型参数的目标参数，以发送至参数更新节点进行机器学习模型的模型参数的更新。

基于上述对本申请实施例提供的分布式机器学习系统的说明，接下来说明本申请实施例提供的基于分布式机器学习系统的模型训练方法。参见图8，图8是本申请实施例提供的基于分布式机器学习系统的模型训练方法的流程示意图，本申请实施例提供的分布式机器学习系统包括参数更新节点、以及至少两个执行器节点，本申请实施例提供的基于分布式机器学习系统的模型训练方法包括：

步骤401：执行器节点获取机器学习模型以及相应的训练样本子集。

其中，每个执行器节点分别对应一个训练样本子集，该训练样本子集，为对用于训练机器学习模型的训练样本集拆分得到。

执行器节点接收参数更新节点下发的机器学习模型，并获取与该机器学习模型相对应的训练样本子集。具体地，执行器节点可以从数据库中获取。这里，每个执行器节点分别对应一个训练样本子集，每个训练样本子集均为不同的，如此基于不同的训练样本子集进行机器学习模型的训练，可实现差异性训练，避免训练过程过拟合，提高泛化性。在实际应用中，该训练样本子集可以是对用于训练该机器学习模型的全量训练样本集进行拆分得到，如此，则避免了通过采样的方式从全量训练样本中筛选训练样本的情况发生，降低采样漏掉重要样本的可能性，提高模型训练的效果。

步骤402：通过机器学习模型对相应的训练样本子集中的训练样本进行预测，得到预测结果。

步骤403：基于预测结果与相应的样本标签之间的差异，确定机器学习模型对应的目标参数并发送至参数更新节点，以使参数更新节点基于目标参数更新机器学习模型的模型参数，到训练完成的机器学习模型。

其中，该目标参数，用于供参数更新节点基于目标参数更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

参数更新节点基于各执行器节点发送的目标参数，更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

在一些实施例中，当机器学习模型的输入包括用户的用户画像数据、媒体信息流页面的页面内容数据及用户针对媒体信息流页面的用户行为数据，机器学习模型的输出为用户相邻两次访问媒体信息流页面的访问时间间隔时，执行器节点从参数更新节点获取训练完成的机器学习模型；获取媒体信息流页面对应的多个访问用户的用户画像数据、媒体信息流页面的页面内容数据、以及各访问用户针对媒体信息流页面的用户行为数据；通过机器学习模型，结合各访问用户对应的用户画像数据、页面内容数据以及用户行为数据，分别对各访问用户进行访问时间间隔预测，得到相应的目标预测结果；基于多个访问用户对应的目标预测结果，从多个访问用户中确定媒体信息流页面对应的目标用户群。其中，该目标预测结果，用于表征相应的访问用户相邻两次访问媒体信息流页面的访问时间间隔。

这里，当机器学习模型训练完成后，可以通过该机器学习模型完成预测任务。在媒体信息流页面的推荐系统中，可以通过该机器学习模型来预测媒体信息流页面对应的目标用户群，以实现精准推荐，提高推荐系统的性能。

具体地，当分布式机器学习系统中包含驱动器节点时，运营人员可以通过驱动器节点向执行器节点下发针对媒体信息流页面的预测任务，这里接收到预测任务的为分布式机器学习系统中的一个目标执行器节点，该目标执行器节点可以是下发预测任务时配置的，也可以是通过选举机制得到的。

执行器节点接收到该针对媒体信息流页面的预测任务后，向参数更新节点发送机器学习模型的模型获取请求，以拉取训练完成的机器学习模型。参数更新节点响应于模型获取请求，将训练完成的机器学习模型下发至相应的执行器节点。执行器节点接收训练完成的机器学习模型，可是执行预测任务。

参见图9A，图9A是本申请实施例提供的媒体信息流页面的预测任务的流程示意图。首先，执行器节点获取媒体信息流页面对应的多个访问用户的用户画像数据、媒体信息流页面的页面内容数据、以及各访问用户针对媒体信息流页面的用户行为数据。然后，通过机器学习模型，结合各访问用户对应的用户画像数据、页面内容数据以及用户行为数据，分别对各访问用户进行访问时间间隔预测，得到相应的目标预测结果，该目标预测结果用于表征相应的访问用户相邻两次访问媒体信息流页面的访问时间间隔。最后，基于多个访问用户对应的目标预测结果，从多个访问用户中确定媒体信息流页面对应的目标用户群。在实际应用中，可以针对该目标用户群增加媒体信息流页面的曝光程度，比如增加该媒体信息流页面的相关媒体信息的推荐。

在一些实施例中，当机器学习模型的输入包括用户的用户画像数据、待推荐媒体信息的内容数据及用户针对待推荐媒体信息的用户行为数据，机器学习模型的输出为用户针对待推荐媒体信息的预测点击数据时，执行器节点从参数更新节点获取训练完成的机器学习模型；获取待推荐媒体信息对应的多个用户的用户画像数据、待推荐媒体信息的内容数据以及各用户针对待推荐媒体信息的用户行为数据；通过机器学习模型，结合各用户的用户画像数据、内容数据以及用户行为数据，分别对各用户针对待推荐媒体信息的预测点击数据进行预测，得到相应的目标预测结果；基于多个用户对应的目标预测结果，从多个用户中确定待推荐媒体信息对应的目标用户群。

这里，当机器学习模型训练完成后，可以通过该机器学习模型完成预测任务。在待推荐媒体信息的推荐系统中，可以通过该机器学习模型来待推荐媒体信息对应的目标用户群，以实现精准推荐，提高推荐系统的性能。

具体地，当分布式机器学习系统中包含驱动器节点时，运营人员可以通过驱动器节点向执行器节点下发针对待推荐媒体信息的预测任务，这里接收到预测任务的为分布式机器学习系统中的一个目标执行器节点，该目标执行器节点可以是下发预测任务时配置的，也可以是通过选举机制得到的。

执行器节点接收到该针对待推荐媒体信息的预测任务后，向参数更新节点发送机器学习模型的模型获取请求，以拉取训练完成的机器学习模型。参数更新节点响应于模型获取请求，将训练完成的机器学习模型下发至相应的执行器节点。执行器节点接收训练完成的机器学习模型，可是执行预测任务。

参见图9B，图9B是本申请实施例提供的待推荐媒体信息的预测任务的流程示意图。首先，执行器节点获取待推荐媒体信息对应的多个用户的用户画像数据、待推荐媒体信息的内容数据以及各用户针对待推荐媒体信息的用户行为数据。然后，通过机器学习模型，结合各用户的用户画像数据、内容数据以及用户行为数据，分别对各用户针对待推荐媒体信息的预测点击数据进行预测，得到相应的目标预测结果。最后，基于多个用户对应的目标预测结果，从多个用户中确定待推荐媒体信息对应的目标用户群。在实际应用中，可以向该目标用户群推荐该待推荐媒体信息。

在一些实施例中，还可呈现对应媒体运营指标的第一下拉选择框、以及对应媒体信息流页面的第二下拉选择框；响应于基于第一下拉选择框触发的媒体运营指标的选择操作，将所选择的媒体运营指标作为目标媒体运营指标；响应于基于第一下拉选择框触发的媒体信息流页面的选择操作，将所选择的媒体信息流页面作为目标媒体信息流页面，并输出目标媒体信息流页面对应的目标用户群。其中，该目标用户群，为基于机器学习模型对目标媒体信息流页面的多个访问用户，进行对应目标媒体运营指标的预测所得到的目标预测结果，从多个访问用户中选择得到。

这里，可以将训练得到的机器学习模型应用于信息流产品的智能决策运营平台。参见图10A，图10A是本申请实施例提供的信息流产品的智能决策运营平台的界面示意图。这里，呈现对应媒体运营指标(比如次日留存概率、日活跃用户数量的动)的第一下拉选择框、以及对应媒体信息流页面(比如小说频道信息流页面、新闻频道信息流页面)的第二下拉选择框；响应于基于第一下拉选择框触发的媒体运营指标的选择操作，将所选择的媒体运营指标作为目标媒体运营指标；响应于基于第一下拉选择框触发的媒体信息流页面的选择操作，将所选择的媒体信息流页面作为目标媒体信息流页面。

此时，则运营人员选定目标媒体运营指标和目标媒体信息流页面后，执行器节点基于机器学习模型对目标媒体信息流页面的多个访问用户，进行对应目标媒体运营指标的预测所得到的目标预测结果，从多个访问用户中确定媒体信息流页面对应的目标用户群(比如次日留存率达到留存率阈值的用户)，并输出目标媒体信息流页面对应的目标用户群，比如通过文字或者图表的方式。

在一些实施例中，可通过如方式输出目标媒体信息流页面对应的目标用户群：在坐标系中呈现目标媒体信息流页面对应的目标用户群的标识；其中，该坐标系的第一坐标轴，用于表征目标媒体信息流页面的曝光程度，该坐标系的第二坐标轴，用于表征目标媒体运营指标的大小；

相应的，响应于针对目标媒体信息流页面的曝光程度的调整操作，呈现由目标用户群的标识所生成的指标变化信息；其中，该指标变化信息，用于描述在曝光程度的调整过程中，目标用户群对应的目标媒体运营指标的变化趋势。

参见图10B，图10B是本申请实施例提供的目标用户群的呈现示意图。这里，可通过不同的标识来呈现不同的目标用户群，比如方形标识女性用户群，圆形标识年龄段12-20岁的用户群。这里，是通过坐标系中呈现目标媒体信息流页面对应的目标用户群的标识的，其中，坐标系的横向坐标轴，用于表征目标媒体信息流页面的曝光程度，坐标系的纵向坐标轴，用于表征目标媒体运营指标(次日留存率)的大小。在实际实施时，运营人员可通过拖动目标用户群对应的标识，以实现曝光程度的调整，从而生成相应的变化曲线，以描述在曝光程度的调整过程中，目标用户群对应的目标媒体运营指标(次日留存率)的变化趋势。从而根据变化区域生成合理的运营建议，如增加对某类目标用户群的曝光20％，最终可对次日留存率或者日用户活跃量提升X％等。

下面将说明本申请实施例在一个实际的应用场景中的示例性应用。

对于信息流领域，历史用户行为数据规模巨大、特征集合众多，远超单机存储与算力能承受范围。目前，COX模型的训练过程一般是采样用户的历史行为数据与特征集合，将数据集与特征数缩小至单机能承受的范围，基于单机内存与CPU计算能力来完成COX模型的学习过程。目前来说，基于单机CPU训练COX模型主要有以下三个缺点：第一，计算和存储分离，用户历史行为数据一般存储在分布式文件系统HDFS中，基于Hive采样后的数据需要手动下载传输到计算节点中，整个过程需人工介入，耗时且低效；第二，基于单机CPU计算效率低下，模型训练时间甚至达到天级别，调参迭代周期太长；第三，用户历史行为数据和特征集合经过采样之后可能会遗漏掉一些重要的信息，导致模型学习效果不佳。

基于此，本申请采用GPU和基于分布式机器学习系统的训练方式，基于分布式计算框架Spark-On-Angel完成训练数据分片的切分，并将得到的训练数据分片发送到分布式机器学习系统中的计算机器上，各计算机器基于计算框架Py Torch调用GPU完成梯度和海森矩阵(即二阶导数)的计算，并将计算结果传输到参数服务器(即上述参数更新节点)上，通过参数服务器进行模型参数的更新与存储，从而完成COX模型在大规模训练数据集上的学习过程。

这里，COX模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响。运用在信息流用户运营系统中，将生存模型的生存概率映射成为活跃概率，将信息流中的用户维度、内容维度和行为维度作为特征输入模型，COX模型的形式如下：

λ(t|X_i)＝λ₀(t)exp(β₁X_i1+β₂X_i2+…+β_pX_ip＝λ₀(t)exp(X_i·β)

其中，X_i为COX模型的输入，表示信息流中的用户维度、内容维度、行为维度的特征，β为模型学习得到的特征参数，表示各个特征X_i的重要程度，λ₀(t)是当X_i向量为0时，λ(t|X_i)的基准危险率，它是有待于从样本数据中作出估计的量，λ(t|X_i)为模型的预测结果，这里表示用户相邻两次使用信息流产品的时间间隔。

在实际应用中，由于COX模型对λ₀(t)未作任何假定，因此COX模型在处理问题时具有较大的灵活性；另一方面，在许多情况下，只需估计出参数β(如因素分析等)，即使在λ₀(t)未知的情况下，仍可估计出参数β。即COX模型由于含有参数λ₀(t)，并不是完全的参数模型，属于半参数模型。因此，在进行C OX模型训练时，可将参数β和参数λ₀(t)分别计算和处理。

接下来说明本申请实施例提供的基于分布式机器学习系统的模型训练方法。本申请实施例提供的分布式机器学习系统包括：参数更新节点、驱动器节点以及至少两个执行器节点(如图4和图6所示)。参见图11，图11为本申请实施例提供的基于分布式机器学习系统的模型训练方法的流程示意图，包括：

步骤501：驱动器节点获取用于训练机器学习模型的训练样本集，并基于分布式计算框架对训练样本集进行拆分，得到对应各执行器节点的训练样本子集。

这里，该机器学习模型即为COX模型。驱动器节点(Spark driver)和至少两个执行器节点(Spark Executor)构成该系统的分布式计算框架。用于训练机器学习模型的训练样本集(即全量训练样本)存储于Hive中。在进行机器模型训练时，驱动器节点获取训练样本集，并基于该分布式计算框架，对训练样本集进行划分，得到对应各执行器节点的训练样本子集。

这里，对于信息流领域，训练样本集中的训练样本可以基于用户的用户特征、信息流页面的内容特征以及用户针对信息流页面的用户行为特征构成，比如用户(ID：123)在2020.10.1号使用了信息流产品，推荐系统对该用户曝光了3篇娱乐类文章、2篇时政类文章、用户点击了一篇娱乐类文章，之后用户(ID：123)在2020.10.5号又使用了信息流产品，则上述整个过程可以形成机器学习模型的一个训练样本，包含输入特征X_i：用户特征(比如用户的ID)、内容特征(比如3篇娱乐类文章的曝光、2篇时政类文章以及1篇娱乐类文章)、以及基于目标页面的用户行为特征(比如针对1篇娱乐类文章的点击行为)。该用户相邻两次访问新闻频道信息流页面的访问时间间隔(4天)可以作为该训练样本的样本标签，即机器学习模型的输出λ(t|X_i)。

步骤502：驱动器节点生成各执行器节点对应的计算任务，并将计算任务发送至相应的执行器节点。

这里，该计算任务，用于指示通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，确定预测结果与相应的样本标签之间的差异，并基于差异确定目标参数。

在实际应用中，驱动器节点用于分布式计算架构中的分布式任务调度，在将训练样本集划分后，将训练样本子集发送至各执行器节点，同时生成针对各执行器节点的计算任务，以指示各执行器节点基于训练样本子集中的训练样本对机器学习模型进行训练等。

步骤503：执行器节点接收到驱动器节点发送的计算任务，向参数更新节点发送机器学习模型的模型获取请求。

这里，各执行器节点接收到驱动器节点发送的计算任务后，获取相应的训练样本子集，以及向参数服务器拉取机器学习模型，比如可以通过向参数更新节点发送模型获取请求以实现机器学习模型的拉取。

步骤504：参数更新节点响应于执行器节点的模型获取请求，将机器学习模型下发至各个执行器节点。

步骤505：执行器节点接收机器学习模型并获取相应的训练样本子集，通过机器学习模型对训练样本子集中的训练样本进行预测，得到预测结果，并确定预测结果与相应的样本标签之间的差异。

步骤506：执行器节点基于差异确定目标参数，并发送目标参数至参数更新节点。

这里，该目标参数可以是梯度、二阶导数等。当机器学习模型为COX模型时，该损失函数可以是COX模型的似然函数，当执行器节点确定预测结果与相应的样本标签之间差异后，基于差异确定COX模型的似然函数的值，然后对COX模型的似然函数进行求导计算，包括一阶求导和二阶求导，得到似然函数的值的一阶导数(即梯度)和二阶导数，将得到的似然函数的值的一阶导数和二阶导数作为目标参数。将目标参数上传至参数更新节点，这里，各执行器节点之间上传目标参数是异步的。

具体地，COX模型的似然函数如下：

COX模型的似然函数一阶求导得到：

COX模型的似然函数二阶求导得到：

其中，

H_j表示第j天观测用户数量，m表示第j天访问信息流产品的用户数量，l表示从1->m的遍历。

步骤507：参数更新节点基于各执行器节点发送的目标参数，更新机器学习模型的模型参数，以得到训练完成的机器学习模型。

这里，参数更新节点接收各执行器节点发送的目标参数，基于目标参数更新机器学习模型的模型参数。具体地，参数更新节点可以基于如下公式对模型参数进行更新：

其中，

为模型似然函数的二阶导数L”(β)，g_k为模型似然函数的梯度，L'(β)，k为执行器节点进行模型学习的迭代轮数。

上述步骤为更新COX模型的模型参数β的过程，在更新完模型参数β之后，还需要对COX模型参数λ₀(t)进行更新。具体地，λ₀(t)可通过如下计算公式得到：

其中，y(l)表示训练样本集中不同的访问时间间隔，d_(l)表示在y(l)这个访问时间间隔内访问的用户数量，R_(y(l))表示访问时间间隔大于y(l)的用户数量，X_i为一个训练样本，β为基于上述步骤得到的。

当模型参数β更新后，执行器节点需要拉取更新后的β进行下一轮的迭代过程，即基于更新后的β进行下一轮的目标参数(模型似然函数的梯度和二阶导数)的计算，直至迭代结束。

在实际应用中，为避免数据量太大影响参数更新节点，该参数更新节点还可以是多个，此时，执行器节点在上传计算得到的目标参数时，需要将目标参数进行划分，比如划分为3个目标参数数据块，然后将该3个目标参数数据块分别上传至相应的参数更新节点。需要说明的是，各执行器节点的目标参数的切分规则一致，上传至同一参数更新节点的目标参数数据块在目标参数中的位置也应相同。比如，各执行器节点均将目标参数切分为目标参数数据块1、目标参数数据块2、目标参数数据块3，则在上传时，各执行器节点则将各自的目标参数数据块1均上传至参数更新节点1，将各自的目标参数数据块2均上传至参数更新节点2，将各自的目标参数数据块3均上传至参数更新节点3。

各参数更新节点基于各自接收的目标参数进行模型参数的更新。这里，当参数更新节点为多个时，还可以布置参数更新节点的管理节点，即对各参数更新节点得到的模型参数进行整合，得到最后训练完成的机器学习模型。

步骤508：执行器节点从参数更新节点获取训练完成的机器学习模型。

这里，在接收到用户触发的预测指令时，执行器节点需要从参数服务器节点拉取训练完成的机器学习模型。具体地，该预测指令也可以是基于驱动器节点触发的，从而使驱动器节点为相应的执行器节点完成任务的调度，即下发该预测指令对应的预测任务。

步骤509：获取媒体信息流页面对应的多个访问用户的用户画像数据、媒体信息流页面的页面内容数据、以及各访问用户针对媒体信息流页面的用户行为数据。

这里，该预测任务为针对媒体信息流页面的。

步骤510：通过机器学习模型，结合各访问用户对应的用户画像数据、页面内容数据以及用户行为数据，分别对各访问用户进行访问时间间隔预测，得到相应的目标预测结果；基于多个访问用户对应的目标预测结果，从多个访问用户中确定媒体信息流页面对应的目标用户群。

步骤511：获取待推荐媒体信息对应的多个用户的用户画像数据、待推荐媒体信息的内容数据以及各用户针对待推荐媒体信息的用户行为数据。

这里，该预测任务为针对待推荐媒体信息的。

步骤512：通过机器学习模型，结合各用户的用户画像数据、内容数据以及用户行为数据，分别对各用户针对待推荐媒体信息的预测点击数据进行预测，得到相应的目标预测结果；基于多个用户对应的目标预测结果，从多个用户中确定待推荐媒体信息对应的目标用户群。

这里，可以将训练得到的机器学习模型应用于信息流产品的智能决策运营平台。参见图10A，这里，呈现对应媒体运营指标(比如次日留存概率、日活跃用户数量的动)的第一下拉选择框、以及对应媒体信息流页面(比如小说频道信息流页面、新闻频道信息流页面)的第二下拉选择框；响应于基于第一下拉选择框触发的媒体运营指标的选择操作，将所选择的媒体运营指标作为目标媒体运营指标；响应于基于第一下拉选择框触发的媒体信息流页面的选择操作，将所选择的媒体信息流页面作为目标媒体信息流页面。

此时，获取媒体信息流页面对应的多个访问用户的用户画像数据、媒体信息流页面的页面内容数据、以及各访问用户针对媒体信息流页面的用户行为数据，通过机器学习模型，结合各访问用户对应的用户画像数据、页面内容数据以及用户行为数据，分别对各访问用户进行访问时间间隔预测，得到相应的目标预测结果；基于多个访问用户对应的目标预测结果，从多个访问用户中确定媒体信息流页面对应的目标用户群(比如次日留存率达到留存率阈值的用户)，并输出目标媒体信息流页面对应的目标用户群。

具体地，如图10B所示，可通过不同的标识来呈现不同的目标用户群，比如方形标识女性用户群，圆形标识年龄段12-20岁的用户群。这里，是通过坐标系中呈现目标媒体信息流页面对应的目标用户群的标识的，其中，坐标系的横向坐标轴，用于表征目标媒体信息流页面的曝光程度，坐标系的纵向坐标轴，用于表征目标媒体运营指标(次日留存率)的大小。在实际实施时，运营人员点击目标用户群对应的标识，还可以呈现对应的历史数据。运营人员可通过拖动目标用户群对应的标识，以实现曝光程度的调整，从而生成相应的变化曲线，以描述在曝光程度的调整过程中，目标用户群对应的目标媒体运营指标(次日留存率)的变化趋势。从而根据变化区域生成合理的运营建议，如增加对某类目标用户群的曝光20％，最终可对次日留存率或者日用户活跃量提升X％等。

应用本申请上述实施例，采用GPU和基于分布式机器学习系统的训练方式，基于分布式计算框架Spark-On-Angel完成训练数据分片的切分，并将得到的训练数据分片发送到分布式机器学习系统中的计算机器上，各计算机器基于计算框架PyTorch调用GPU完成梯度和海森矩阵(二阶导数)的计算，并将计算结果传输到参数服务器(即上述参数更新节点)上，通过参数服务器进行模型参数的更新与存储，从而完成COX模型在大规模训练数据集上的学习过程。能够达到如下技术效果：

第一，分布式计算框架Spark可以直接读取训练样本数据，使得整个模型训练过程无需人工介入，直接高效。

第二，能够完成COX模型在全量大规模数据集(上亿级别)与高维特征集(上万级别)的加速训练与学习，在200万*1k数据集上进行，基于GPU和分布式机器学习系统的加速后，单个迭代计算时间较单机CPU版本计算时间加速效果1000*n倍，其中n为task数量。单个task和单机CPU单个迭代计算时间对比如图12所示，图12是机器学习模型的训练时长对比示意图，这里，时长0.3为本申请分布式机器学习系统的训练时长，时长298.4为单机CPU版本的训练时长，可见两者相差巨大。

至此已经结合本申请实施例提供的分布式机器学习系统的示例性应用和实施，说明本申请实施例提供的分布式机器学习系统的模型训练方法。基于此，本申请实施例还提供一种节点设备，所述节点设备包括：

存储器，用于存储可执行指令；

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的基于分布式机器学习系统的模型训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种分布式机器学习系统，其特征在于，所述系统包括：参数更新节点、以及至少两个执行器节点；其中，

2.如权利要求1所述的系统，其特征在于，所述系统还包括：驱动器节点，所述驱动器节点与所述至少两个执行器节点构成所述系统的分布式计算框架；

所述驱动器节点，用于获取用于训练所述机器学习模型的训练样本集，并基于所述分布式计算框架对所述训练样本集进行拆分，得到对应各所述执行器节点的训练样本子集。

3.如权利要求2所述的系统，其特征在于，所述驱动器节点，还用于生成各所述执行器节点对应的计算任务，并将所述计算任务发送至相应的所述执行器节点；

其中，所述计算任务，用于指示通过所述机器学习模型对所述训练样本子集中的训练样本进行预测，得到预测结果，确定所述预测结果与相应的样本标签之间的差异，并基于所述差异确定目标参数。

4.如权利要求1所述的系统，其特征在于，

当所述参数更新节点为至少三个时，所述至少三个参数更新节点包括主参数更新节点和至少两个从参数更新节点；

所述执行器节点，还用于将所述目标参数进行拆分，得到至少两个子目标参数，将各所述子目标参数分别发送至相应的从参数更新节点；

所述从参数更新节点，用于基于各所述执行器节点发送的子目标参数，更新所述机器学习模型的模型参数，得到所述机器学习模型的中间模型参数，并发送所述中间模型参数至所述主参数更新节点；

所述主参数更新节点，用于对所述至少两个从参数更新节点发送的中间模型参数进行聚合处理，并基于聚合后的中间模型参数更新所述机器学习模型的模型参数，以得到训练完成的机器学习模型。

5.如权利要求1所述的系统，其特征在于，所述机器学习模型的模型参数包括第一模型参数和第二模型参数，

所述参数更新节点，还用于基于各所述执行器节点发送的目标参数，更新所述机器学习模型的第一模型参数；

相应的，所述执行器节点，还用于基于多个数据统计指标，对所述训练样本子集中的训练样本进行统计，得到各所述数据统计指标的指标值，并获取所述机器学习模型的第一模型参数；基于各所述数据统计指标的指标值和所述第一模型参数，确定中间模型参数；发送所述中间模型参数至所述参数更新节点；

所述参数更新节点，还用于对各所述执行器节点发送的中间模型参数进行聚合处理，并基于聚合后的中间模型参数更新所述机器学习模型的第二模型参数。

6.如权利要求1所述的系统，其特征在于，

所述执行器节点，还用于通过所述机器学习模型的特征提取层，对所述训练样本子集中的训练样本进行特征提取，得到所述训练样本所对应目标用户的用户画像特征、所对应目标页面的页面内容特征以及基于目标页面的用户行为特征；

通过所述机器学习模型的特征预测层，结合所述用户画像特征、页面内容特征以及用户行为特征进行预测，得到所述目标用户针对所述目标页面的行为预测结果。

7.如权利要求1所述的系统，其特征在于，所述机器学习模型对应的神经网络框架为目标神经网络框架；

所述执行器节点，还用于基于目标神经网络框架，调用图形处理器对所述训练样本子集中的训练样本进行预测，得到预测结果，确定所述预测结果与相应的样本标签之间的差异，并基于所述差异确定目标参数。

8.如权利要求1所述的系统，其特征在于，

所述执行器节点，还用于当所述机器学习模型为比例风险回归模型时，通过所述机器学习模型对所述训练样本子集中的训练样本进行特征提取，得到所述训练样本所对应目标用户的用户画像特征、所对应目标页面的页面内容特征以及基于目标页面的用户行为特征；

通过所述机器学习模型的特征预测层，结合所述用户画像特征、页面内容特征以及用户行为特征进行预测，得到表征所述目标用户相邻两次访问所述目标页面的访问时间间隔的预测结果。

9.如权利要求1所述的系统，其特征在于，

所述执行器节点，还用于基于所述差异，确定所述机器学习模型的损失函数的值，对所述损失函数的值进行求导计算，得到所述目标参数。

10.一种基于分布式机器学习系统的模型训练方法，其特征在于，所述系统包括：参数更新节点、以及至少两个执行器节点；其中，每个所述执行器节点分别对应一个训练样本子集，所述训练样本子集，为对用于训练机器学习模型的训练样本集拆分得到；所述方法包括：

执行器节点获取机器学习模型以及相应的训练样本子集；

11.如权利要求10所述的方法，其特征在于，当所述机器学习模型的输入包括用户的用户画像数据、媒体信息流页面的页面内容数据及所述用户针对所述媒体信息流页面的用户行为数据，所述机器学习模型的输出为所述用户相邻两次访问所述媒体信息流页面的访问时间间隔时，所述方法还包括：

从参数更新节点获取训练完成的所述机器学习模型；

获取媒体信息流页面对应的多个访问用户的用户画像数据、所述媒体信息流页面的页面内容数据、以及各所述访问用户针对所述媒体信息流页面的用户行为数据；

通过所述机器学习模型，结合各所述访问用户对应的所述用户画像数据、页面内容数据以及用户行为数据，分别对各所述访问用户进行访问时间间隔预测，得到相应的目标预测结果；

其中，所述目标预测结果，用于表征相应的访问用户相邻两次访问所述媒体信息流页面的访问时间间隔；

基于所述多个访问用户对应的目标预测结果，从所述多个访问用户中确定所述媒体信息流页面对应的目标用户群。

12.如权利要求10所述的方法，其特征在于，当所述机器学习模型的输入包括用户的用户画像数据、待推荐媒体信息的内容数据及所述用户针对所述待推荐媒体信息的用户行为数据，所述机器学习模型的输出为所述用户针对所述待推荐媒体信息的预测点击数据时，所述方法还包括：

从参数更新节点获取训练完成的所述机器学习模型；

获取待推荐媒体信息对应的多个用户的用户画像数据、所述待推荐媒体信息的内容数据以及各所述用户针对所述待推荐媒体信息的用户行为数据；

通过所述机器学习模型，结合各所述用户的用户画像数据、内容数据以及用户行为数据，分别对各所述用户针对所述待推荐媒体信息的预测点击数据进行预测，得到相应的目标预测结果；

基于所述多个用户对应的目标预测结果，从所述多个用户中确定所述待推荐媒体信息对应的目标用户群。

13.如权利要求10所述的方法，其特征在于，所述方法还包括：

呈现对应媒体运营指标的第一下拉选择框、以及对应媒体信息流页面的第二下拉选择框；

响应于基于所述第一下拉选择框触发的媒体运营指标的选择操作，将所选择的媒体运营指标作为目标媒体运营指标；

响应于基于所述第一下拉选择框触发的媒体信息流页面的选择操作，将所选择的媒体信息流页面作为目标媒体信息流页面，并

输出所述目标媒体信息流页面对应的目标用户群；

其中，所述目标用户群，为基于所述机器学习模型对所述目标媒体信息流页面的多个访问用户，进行对应所述目标媒体运营指标的预测所得到的目标预测结果，从所述多个访问用户中选择得到。

14.一种节点设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如权利要求10至13任一项所述的基于分布式机器学习系统的模型训练方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求10至13任一项所述的基于分布式机器学习系统的模型训练方法。