CN110321422A

CN110321422A - 在线训练模型的方法、推送方法、装置以及设备

Info

Publication number: CN110321422A
Application number: CN201810265754.8A
Authority: CN
Inventors: 赵沛霖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2019-10-11
Anticipated expiration: 2038-03-28
Also published as: CN110321422B

Abstract

本申请实施例公开了一种在线训练模型的方法，包括：从流式数据中获取训练样本，根据训练样本、历史模型参数和非凸正则项确定模型的目标函数，确定使目标函数最小的当前模型参数，根据当前模型参数更新模型。在线训练过程中，由于采用了非凸正则项代替L1正则项进行特征筛选，能够减小惩罚偏差，筛选出有效特征，保障了稀疏性，提高了模型的泛化性能。本申请还提供了一种信息推送方法，获取用户特征数据和内容特征数据，基于在线训练模型方法训练得到的推送模型，根据用户特征数据、内容特征数据和推送模型，确定目标用户对目标信息感兴趣概率，根据感兴趣概率确定是否推送。本申请还提供了一种在线训练模型的装置和信息推送装置。

Description

在线训练模型的方法、推送方法、装置以及设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种基于非凸正则项的在线训练模型的方法、推送方法、装置以及设备。

背景技术

随着互联网技术的快速发展，互联网中信息量已然处于爆炸状态，若是将所有内容都放在网站首页上用户是无从阅读的，信息的利用率将会十分低下。因此，就需要推送系统来帮助用户过滤掉低价值的信息。好的推送系统能够让用户更频繁的访问一个站点，并且总是能为用户推送他想要购买的商品或者阅读的内容。

目前，推送系统都基于推送算法模型为拥有不同需求的用户推送各自感兴趣的内容，推送系统的好坏主要取决于其所采用的推送算法模型的好坏；现阶段，通常采用传统的机器学习方法训练得到推送算法模型，传统的机器学习方法模型有离线和在线两种方式，其中，离线训练方式是将预先收集好的所有的训练样本集中起来同时进行学习，当数据量比较大时其训练时间较长，无法实时调整模型以适应快速变化的业务。与离线训练方式所不同，在线训练方式是利用逐个给定的训练样本训练模型，即当有一个新的训练样本时，则利用该新的训练样本更新模型参数，因此，在线训练方式能够很好地适应高维度以及海量数据，并且能够很好地适应于流数据的业务场景中。

为了减小模型的复杂度，传统的在线学习算法常常在损失函数的基础上增加正则项作为目标函数。当采用L0范数作为正则项时，由于L0范数表示向量元素中非零元素的个数，因而向量元素中零元素越多，L0范数越小，而较多的零元素可以使模型更为稀疏。然而，采用L0范数进行正则化，一般较难求解，为此，可以引入L0范数的最优凸近似L1范数代替L0范数进行正则化。L1范数可以实现模型稀疏，并且相较于L0范数更易求解，因而得到广泛应用。

传统的在线学习算法在损失函数的基础上引入了L1范数作正则项，虽然能够在高维数据上对有效特征进行筛选，从而训练得到稀疏的模型。但是，在更高维数据上，当模型被限制只能保留十分低比例的有效特征时，由于L1范数只是近似L0范数，给模型引入了额外的偏差，在对稀疏度极高的模型进行训练时，传统的在线学习算法所训练出的模型的预测精度将大大降低。

传统的在线训练方式虽然可以在高维数据上学习得到较为稀疏的模型，且能保证较好的泛化性能。但是，在更高维的数据上，对模型进行稀疏时，模型被限制只能保留十分低比例的有效特征，模型的泛化性能就难以得到保障。

发明内容

本申请实施例提供了一种在线训练模型的方法、装置以及相关设备，使得能够保证模型的高稀疏性，并且提高模型的泛化性能。本申请实施例还提供了一种信息推送方法，该方法利用基于上述在线训练模型的方法所训练的模型实现信息推送，以提高信息推送精准度。

有鉴于此，本申请第一方面提供了一种在线训练模型的方法，所述方法包括：

从流式数据中获取训练样本；

根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数；

确定使所述目标函数最小的当前模型参数，根据所述当前模型参数更新所述模型。

本申请第二方面提供了一种信息推送方法，所述推送方法包括：

获取目标用户的用户特征数据和目标信息的内容特征数据；

获取通过在线训练得到的当前模型参数，根据所述当前模型参数确定推送模型；所述当前模型参数是使所述推送模型的目标函数最小的参数；所述目标函数是根据训练样本、历史模型参数和非凸正则项所确定的；

根据所述推送模型、所述用户特征数据和所述内容特征数据，计算所述目标用户对所述目标信息的感兴趣概率；

根据所述感兴趣概率确定是否向所述目标用户推送所述目标信息。

本申请第三方面提供一种在线训练模型的装置，所述装置包括：

获取模块，用于从流式数据中获取训练样本；

确定模块，用于根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数；

更新模块，用于确定使所述目标函数最小的当前模型参数，根据所述当前模型参数更新所述模型。

本申请第四方面提供一种信息推送装置，所述装置包括：

获取模块，用于获取目标用户的用户特征数据和目标信息的内容特征数据；

确定模块，用于获取通过在线训练得到的当前模型参数，根据所述当前模型参数确定推送模型；所述当前模型参数是使所述推送模型的目标函数最小的参数；所述目标函数是根据训练样本、历史模型参数和非凸正则项所确定的；

计算模块，用于根据所述推送模型、所述用户特征数据和所述内容特征数据，计算所述目标用户对所述目标信息的感兴趣概率；

推送模块，用于根据所述感兴趣概率确定是否向所述目标用户推送所述目标信息。

本申请第五方面提供一种在线训练模型的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的在线训练模型的方法的步骤。

本申请第六方面提供一种信息推送设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令，执行如上述第二方面所述的信息推送方法的步骤。

本申请第七方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面或第二方面所述的方法。

本申请第八方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面或第二方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种在线训练模型的方法，从流式数据中获取训练样本，在采用在线训练方式对模型进行训练时，根据训练样本、历史模型参数和非凸正则项确定模型的目标函数，其中，非凸正则项能够对绝对值较小的模型维度进行稀疏惩罚，即对模型预测不起作用的特征进行稀疏惩罚，使得对应的特征的参数值为0，如此可以大大减少模型中特征的数量，保障了模型的高稀疏性；并且，该非凸正则项能够避免对绝对值比较高的模型维度进行稀疏惩罚，以保留对模型预测带来帮助的特征，从而减少在稀疏过程中带入的惩罚偏差。如此可以筛选到富含有效信息的特征，使得模型在测试数据上也具有较高的预测精度，从而提高了模型的泛化性能。

基于上述在线训练模型的方法，本申请实施例还提供了一种信息推送方法。首先获取目标用户的用户特征数据和目标信息的内容特征数据，然后获取通过在线训练得到的当前模型参数，从而确定推送模型，其中，当前模型参数是通过在线训练模型的方法得到的，具体包括从流式数据中获取训练样本，根据训练样本、历史模型参数和非凸正则项确定目标函数，确定使推送模型的目标函数最小的当前模型参数，接着根据推送模型、用户特征数据和内容特征数据，计算目标用户对目标信息的感兴趣概率，并根据感兴趣概率确定是否向目标用户推送。由于采用了推送模型预测目标用户对于目标信息感兴趣的概率，而推送模型是以在线训练方式，并结合非凸正则项进行特征筛选训练得到的，具有较高的预测精度，因而能够更为准确地预测目标用户对目标信息感兴趣概率，从而能够提供更为精准的推送服务，提高用户体验。

附图说明

图1为本申请实施例中在线训练新闻推送模型的场景示例图；

图2为本申请实施例中在线训练模型的方法的一个实施例的流程图；

图3为本申请实施例中新闻推送的场景示例图；

图4为本申请实施例中信息推送方法的一个实施例的流程图；

图5为本申请实施例中在线训练模型的装置的一个实施例的结构示例图；

图6为本申请实施例中在线训练模型的装置的一个实施例的结构示例图；

图7为本申请实施例中在线训练模型的装置的一个实施例的结构示例图；

图8为本申请实施例中信息推送装置的一个实施例的结构示例图；

图9为本申请实施例中信息推送装置的一个实施例的结构示例图；

图10为本申请实施例中信息推送装置的一个实施例的结构示例图；

图11为本申请实施例中在线训练模型的设备的一个结构示例图；

图12为本申请实施例中信息推送设备的一个结构示例图。

具体实施方式

针对传统的在线训练方式在更高维的数据上，对模型进行稀疏时，模型被限制只能保留十分低比例的有效特征，模型的泛化性能就难以得到保障这一技术问题，本申请提出了一种在线训练模型的方法，采用非凸正则项代替L1范数进行正则化，利用非凸正则项的可分解性得到一个闭式的模型升级公式。非凸正则项在筛选特征时可以显著减小偏差，可以使得所学习的模型在非常稀疏时能够比传统的L1范数筛选到更有信息量的特征，提高模型的预测精度，并提高模型的泛化能力。

基于上述在线训练模型的方法，本申请还提供了一种信息推送方法。具体的，获取目标用户的用户特征数据和目标信息的内容特征数据，获取通过上述在线训练方法训练得到的当前模型参数，根据当前模型参数确定推送模型，根据推送模型、用户特征数据和内容特征数据，确定目标用户对目标信息感兴趣的概率，根据该概率确定是否向目标用户推送目标信息。由于该推送模型是以训练样本、历史模型参数和非凸正则项确定的目标函数训练得到的，目标函数中的非凸正则项能够筛选到更有信息量的特征，能够更准确地计算目标用户对目标信息感兴趣的概率，将目标信息更精准地推送给目标用户，提高用户体验。

可以理解，上述在线训练模型的方法和信息推送方法可以应用于多种业务场景。例如，可以应用于新闻推送，在网页端或者客户端向用户推送新闻，根据用户的兴趣爱好等特征为不同用户推送不同的新闻。上述方法也可以应用于广告推送，首先训练广告推送模型，然后通过用户画像等方式确定目标用户的用户特征数据，根据广告推送模型、用户特征数据以及广告的内容特征数据确定目标用户对目标广告的感兴趣概率，根据该概率确定是否向目标用户推送目标广告，如此，可以实现将广告精准地推送至感兴趣的用户。作为上述实施例的扩展，上述在线训练模型的方法和信息推送方法还可以应用于流媒体平台、电商平台的信息推送，如根据用户的喜好推送音乐，或者根据用户的行为记录推送商品。

为了便于理解，本申请以新闻推送的具体应用场景作为示例，对在线训练模型的方法和信息推送方法的具体实现方式进行说明。需要说明，上述应用场景仅是为了便于理解本申请的所有方法而示出，本申请实施例提供的不同方法的具体实施并不局限于此应用场景，不同方法具有不同的应用场景。

接下来，结合新闻推送的具体应用场景对在线训练模型的方法进行介绍。本实施例提供了一种在线训练模型的方法的应用场景示意图。需要说明，本申请提供的在线训练模型的方法可以应用到单独的服务器中，也可以应用于由参数服务器和多个计算服务器的分布式训练系统中。在实际应用中，由于训练样本的数据量比较庞大，一般采用分布式训练系统对模型进行在线训练。

图1示出了一种在线训练新闻推送模型的场景示例图，参见图1，该应用场景包括终端100、推送服务器200、内容服务器300、参数服务器400以及计算服务器500。其中，终端100可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)实现与推送服务器200交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。在本实施例的应用场景中，内容服务器300上存储有新闻内容，例如，财经、体育、文娱以及科技等类别相关新闻。推送服务器200可以从内容服务器300上获取新闻内容向终端100推送新闻，以便用户通过终端100浏览该新闻内容。终端100可以获取用户对该新闻内容的行为，并将用户行为数据反馈给推送服务器200，其中，用户对该新闻内容的行为可以包括点击、收藏、评论或转发等等，如此，推送服务器200可以根据用户对新闻内容的行为生成训练样本，用于训练新闻推送模型。

需要说明，新闻推送模型的训练可以由参数服务器400和多个计算服务器500构成的分布式训练系统实现。在本实施例的业务场景中，推送服务器200以流数据的方式向参数服务器400发送训练样本。参数服务器400在获取到训练样本后，参数服务器400中的训练样本分配模块可以将训练样本分配给计算服务器500，如此，每个计算服务器500可以利用分配的小批量训练样本对模型进行在线训练，然后利用训练得到的参数更新参数服务器400中模型参数存储模块的模型参数，以实现模型更新。需要说明，在有些情况下为了减小传输开销，推送服务器200还可以将训练样本的标识发送给参数服务器400，参数服务器400将训练样本的标识分配给计算服务器500，如此，计算服务器500可以根据分配的训练样本的标识直接从推送服务器200获取对应的训练样本，避免了在推送服务器200与参数服务器400以及参数服务器400与计算服务器500之间传输训练样本的开销。

其中，计算服务器500更新模型参数的过程具体为，计算服务器500接收到新的训练样本，则从参数服务器400获取历史模型参数，并根据训练样本、历史模型参数和非凸正则项确定模型的目标函数，并确定使目标函数最小的当前模型参数，根据该当前模型参数更新参数服务器400中存储的模型参数。为了得到稀疏性和泛化性能较好的新闻推送模型，往往需要利用海量的训练样本对模型进行在线训练，也就是说，需要经过多轮参数迭代、更新。

在上述场景实施例中，由于采用了非凸正则项待替传统的L1正则项，来确定模型的目标函数，而非凸正则项主要对绝对值比较小的模型维度进行稀疏惩罚，而尽量避免对绝对值比较高的模型维度进行稀疏惩罚，从而避免了引入过多的偏差，进而使得模型能够尽量选到富含有效信息的特征维度，提高了模型的预测精度，在对模型进行稀疏化的同时，也提高了模型的泛化性能。

下面结合附图，详细说明本申请提供的在线模型训练的方法的具体实现方式。

接下来，从包括参数服务器400和多个计算服务器500的分布式训练系统的角度，对本申请提供的在线模型训练的方法进行介绍。参见图2，图2为本申请实施例提供的一种在线训练模型的方法的流程图，该方法可以应用于如图1所示的分布式训练系统，该分布式训练系统包括：参数服务器400和计算服务器500，具体包括如下步骤：

S201：从流式数据中获取训练样本。

训练样本是指用于对模型进行训练的数据样本。在本实施例中，模型可以是任意一种业务对应的模型，例如，可以是信息推送模型，包括新闻推送模型、音乐推送模型、书籍推送模型、商品推送模型或广告推送模型等，该模型也可以是识别模型，包括情绪识别模型或者字符识别模型等等，该模型还可以是检测模型，包括车辆检测模型或者道路检测模型等等。不同业务的模型的训练样本一般是不相同的。针对某一业务，可以通过该业务的服务器收集数据生成训练样本，然后从该业务的服务器中从流式数据中获取训练样本。

以“天天快报”这一资讯提供服务应用为例，“天天快报”服务器可以向终端设备推送各种资讯，用户可以利用自己的帐号如微信号登录“天天快报”这一应用的网站，接收“天天快报”服务器推送的资讯，然后“天天快报”服务器可以从终端收集各个用户对接收到的资讯的行为数据，根据每个行为数据可以生成对应的训练样本。比如说本发明的模型是如何用在天天快报里面的呢？我们的各种参数在具体使用的时候用的是快报里面的什么信息呢？

然后，分布式训练系统可以从天天快报的服务器中获取生成的训练样本，具体而言，分布式训练系统中的参数服务器400可以从天天快报的服务器中获取生成的训练样本，然后参数服务器再将训练样本分配给计算服务器500，以便于计算服务器500可以利用该训练样本进行在线训练。需要说明，参数服务器分配训练样本的方式可以是任意的，例如可以采用随机分配、均匀分配或按需分配等方式。

针对情绪识别这一应用场景，以“表情小助手”这一表情分类应用为例，可以将“表情小助手”的服务器所接收到的终端发送的表情图片作为训练样本。分布式训练系统可以从“表情小助手”的服务器中从流式数据中获取训练样本用于模型训练，具体过程与从“天天快报”服务器中获取的过程类似，可以参见上文描述。

以上仅为本实施例从流式数据中获取训练样本的一些具体示例，在其他业务的应用场景中，可以采用类似的方式从流式数据中获取训练样本，这里不再赘述。

S202：根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数。

在机器学习领域，常常采用损失函数来估量模型的预测值与真实值的不一致程度，为了方便表述，将预测值用f(x)表示，真实值用Y表示，则损失函数可以表示为L(Y，f(x))。损失函数越小，模型的预测性能就越好。

本实施例采用了在线训练的方式进行模型训练，而在线训练即是采用逐个样本对模型参数迭代更新的过程。因此，前一轮更新的参数可以作为本轮更新的历史模型参数。根据历史模型参数可以得到一个历史模型，通过该模型可以对训练样本进行预测得到预测值f(x)，当训练样本标注有真实值Y时，可以依据预测值和真实值得到模型的损失函数。即，可以根据训练样本和历史模型参数确定模型的损失函数。

根据模型类别不同，模型的损失函数也相应的有所不同。当模型为逻辑回归分类算法模型时，可以采用log损失函数作为模型的损失函数，log损失函数具体表现形式如下：

L(Y,P(Y|X))＝-log P(Y|X) (1)

其中，损失函数L(Y,P(Y|X))表达的是样本X在其标签为Y的情况下，使概率P(Y|X)达到最大值。也就是说，利用已知的样本分布，找到最有可能导致这种分布的参数值。

当模型为支持向量机算法模型时，可以采用铰链损失函数(Hinge Loss)作为模型的损失函数，具体可以参见下式：

作为上述实施例的扩展，还可以选择平方损失函数、指数损失函数或者0/1损失函数等作为模型的损失函数。可以根据模型类别不同，选择相适应的损失函数。例如，当模型为决策树算法模型，可以选取对应于决策树算法模型的损失函数，当模型为人工神经网络算法模型时，可以选取对应于人工神经网络算法模型的损失函数。

在通过机器学习对模型进行训练时，最小化误差，也就是最小化损失函数可以使得模型拟合训练样本。当训练出的模型参数较多，模型复杂度上升时，容易出现过拟合。当模型出现过拟合时，对已经训练过的训练样本的预测准确度较高，对新的训练样本的预测准确度则难以保障，也就是训练误差较小，但测试误差难以满足需求。为此，可以通过筛选特征让模型稀疏化，在模型稀疏化的基础上最小化误差，这样得到的模型具有较好的泛化性能。

本实施例采用了非凸正则项对模型进行特征筛选，使模型稀疏化。具体的，可以根据损失函数和非凸正则项确定模型的目标函数，通过目标函数对模型进行约束。作为一个示例，可以将损失函数与非凸正则项之和作为目标函数。

其中，正则项，也可以理解为惩罚项。以线性回归作为示例进行说明，若模型参数选择的标准为最小化预测值和真实值之间的偏差，也就是最小化损失函数，那么模型有较大的几率出现过拟合，尽管当前样本的偏差确实最小化了，但是模型也受到当前样本的限制，不具备普适性，泛化性能相对较差。并且，由于尽可能保证精确度，导致模型包含过多的参数，无法从模型中获取到影响模型输出的关键因素。而在损失函数的基础上增加正则项作为目标函数，以最小化目标函数作为模型参数选择标准，则可以对参数较多的模型进行惩罚，得到包括参数相对较少的稀疏模型。

惩罚项可以表现为惩罚系数*回归系数惩罚式的形式。惩罚系数决定了惩罚的严厉程度，而回归系数惩罚式决定了如何限制回归系数，也就是模型参数，例如，lasso(L1正则项)希望大量的回归系数归零，ridge(L2正则项)削弱影响太大的系数。传统的在线学习算法大多采用L1正则项进行正则化，L1范数为凸函数，与L0正则项相比更容易求解，因而常常用于对模型进行稀疏化。但是在高维数据上，L1正则项给模型引入了偏差，导致高度稀疏模型的预测精度无法满足需求。而本实施例提供的非凸正则项，可以在绝对值较小的模型维度进行稀疏惩罚，而尽量避免对绝对值比较高的模型维度进行稀疏惩罚，从而避免了引入过多的偏差，进而使得模型能够尽量选到富含有效信息的特征维度，在确保模型的稀疏性的同时，提高了模型的泛化性能。

在本实施例一些可能的实现方式中，非凸正则项可以包括平滑截断绝对偏差惩罚算子(Smoothly Clipped Absolute Deviation，SCAD)、极大极小凹惩罚算子(MinimaxConcave Penalty，MCP)或者加盖的L1正则项(Capped L1Norm)中的任意一项。

对于一维模型而言，SCAD可以通过如下公式表达：

在一维模型中，MCP可以通过如下公式表达：

在一维模型中，加盖的L1正则项可以通过如下公式表达：

在式(3)至式(5)中，w表示模型参数向量，λ和γ分别预设的非凸正则项的两个参数，λ和γ可以根据离线训练的经验值进行设定。需要说明，式(3)至式(5)仅为一维模型下非凸正则项的表达形式，对于高维数据，非凸正则项的公式则为上述公式在每一维度上的和。

为了便于理解，以三维模型作为示例进行说明，若该三维模型的参数w具有3个分量分别为w1、w2和w3，则该三维模型的非凸正则项为：

P(w；λ,γ)＝P(w₁；λ,γ)+P(w₂；λ,γ)+P(w₃；λ,γ) (6)

其中，P(w₁；λ,γ)、P(w₂；λ,γ)和P(w₃；λ,γ)可以分别参照式(3)、式(4)或式(5)进行计算。

其他高维模型的正则项可以参照上述示例进行计算，这里不再赘述。还需要说明，上述三种正则项仅为本实施例中非凸正则项的一些具体示例，并不构成对本申请技术方案的限定，其他可以减小或者避免模型偏差并且易于求解的非凸正则项也可以适用于本申请。

在本申请实施例一些可能的实现方式中，可以在传统的在线学习算法的基础进行改进，将传统的在线学习算法的目标函数中的L1正则项替换为非凸正则项，并将修改后的目标函数作为模型的目标函数。为了方便表述，将本申请实施例提供的这种改进后的算法命名为“通用在线收缩阈值”算法(General Online Shrinkage and Thresholding，GOST)。

在分布式训练系统中，本步骤可以由计算服务器500执行，具体为计算服务器500根据分配到的训练样本、历史模型参数和非凸正则项确定模型的目标函数。

S203：确定使所述目标函数最小的当前模型参数，根据所述当前模型参数更新所述模型。

在确定目标函数后，可以最小化目标函数，使得模型既能够拟合训练样本，又能对模型进行稀疏，并且避免对绝对值较高的模型维度进行稀疏惩罚，从而避免引入过多偏差。在确定使得目标函数最小的模型参数后，可以将该模型参数作为当前模型参数，并根据当前模型参数更新模型。

其中，确定使目标函数最小的当前模型参数实际上可以转换为求函数最优解问题。在本申请实施例一些可能的实现方式中，可以采用数学方式求取最优解，从而获得当前模型参数。

在采用分布式训练系统进行模型训练时，本步骤可以由计算服务器500执行，计算服务器500确定使目标函数最小的当前模型参数，并根据当前模型参数更新参数服务器存储的模型的参数。

在更新参数过程中，为了减小传输资源的占用，可以采用传输当前模型参数与上一次迭代的历史模型参数之间的差值的方式，代替直接传输当前模型参数的方式，更新模型的参数。具体的，计算服务器500确定使目标函数最小的当前模型参数，计算当前模型参数与上一次迭代的历史模型参数之间的差值，计算服务器500向参数服务器400上传差值，以使参数服务器400根据差值更新模型的参数。

为了便于理解，下面结合具体示例对基于GOST算法进行在线训练的原理进行说明。

采用GOST算法进行在线训练，则可以通过如下公式更新模型参数：

其中，w表示模型的参数，可以采用多维向量进行表示； g_t可以用于表示训练样本(x_t，y_t)的标签被预测为p_t时，模型所遭受损失的梯度，其中，y_t表示训练实例x_t的真实标签。根据δ_t与η_t之间的关系，可知等价于如此式(7)也可以等价于基于此，可知模型的目标函数为P(w；λ₁,γ)，目标函数共有四项，第一项g_1:t·w为损失函数的一阶线性展开，第二项是一个光滑项，用于保证更新前后的模型的偏差，第三项为2范数，λ₂为2范数的系数，可以预先设定，第三项可以用于特征筛选，减小模型的复杂度，第四项P(w；λ₁,γ)为非凸正则项，相较于传统的在线学习算法中的L1正则项，该GOST算法中的非凸正则项使得能够避免对绝对值比较高的模型维度进行稀疏惩罚，以保留对模型预测带来帮助的特征，从而减少在稀疏过程中带入的惩罚偏差。

使得上述目标函数最小的w值即为第t+1轮的模型参数w_t+1，在式(7)中，如果令那么在第t轮的时候，只需要对其进行如下更新：

对于SCAD、MCP或加盖的L1正则项中的任意一种非凸正则项，模型均享有闭式解。

以加盖的L1正则项为例，结合式(7)和式(8)，模型的每一维度的优化问题可以转换为：

其中，根据式(9)，可以进一步计算得到：

因此，可以比较式(10)中两个解所对应的函数值的大小，确定最终的解，也即：

其中，v₁和v₂为问题转换后的两个解，两个解所对应的函数值可以通过计算。

以上为采用加盖的L1正则项进行正则化时求解当前模型参数的一个具体示例，对应于SCAD或MCP等非凸正则项，也有类似的闭式解，在此不再一一赘述。

需要说明，GOST算法并不限于上述式(7)的更新公式，还可以通过如下公式对模型的参数进行更新：

需要说明，式(12)与式(7)的区别在于目标函数的第二项，在式(12)中目标函数第二项通过对光滑项进行指数递减的加权，从而实现稀疏模型的目的。其中，exp[-γ(t+1-s)]即为新引入的“时间衰减”系数。

在本申请实施例一些可能的实现方式中，还可以通过如下公式更新模型：

其中，式(13)与式(7)的主要区别在于目标函数的第二项，在式(13)中，第二项为一个更为简洁的光滑项，保证更新前后的模型的偏差。

类似的，采用GOST算法在线训练模型时，还可以通过如下公式更新模型：

与式(7)、式(12)以及式(13)类似，目标函数主要包括四项，其区别主要在于第二项光滑项，式(14)采用了作为模型的光滑项，以保证模型更新前后的偏差。

其中，上述式(12)至(14)中的P(w；λ₁,γ)可以是上述三种非凸正则项的任意一种，对于(12)至(14)的求解过程可以参照基于式(7)的GOST算法的求解过程，在此不再赘述。

由上可知，在采用在线训练方式对模型进行训练时，根据训练样本、历史模型参数和非凸正则项确定模型的目标函数，由于采用了非凸正则项代替传统的L1正则项，可以减少惩罚偏差，更好地选择有效特征，如此，训练出的模型不仅具有较好的稀疏性，而且由于能够筛选出更加富含信息的有效特征，提高了模型的预测精度和泛化性能。

还需要说明，上述实施例是以在分布式训练系统作为示例进行说明的，本实施例提供的在线训练模型的方法不限于应用于分布式训练系统，也可以应用于单一服务器或者集群服务器，例如可以采用单机单线程、单机多线程、多机多线程等任意一种模式更新模型。针对流式数据场景，例如互联网公司的各种应用，包括广告推荐、电商推荐等，分布式训练系统能够更快速地处理训练样本，能够更及时地更新模型，而且能够更有效地管理和利用有限的内存资源，也方便扩展，其应用更为广泛。

为了更形象地理解上述方法的实现，下面结合天天快报新闻推荐应用对模型的训练过程进行示例说明。

天天快报应用的服务器收集用户行为数据，用户行为数据可以表征用户对新闻所实施的点击行为；服务器根据收集到的用户行为数据、用户特征、以及已推荐的新闻生成训练样本，例如，用户1针对新闻1实施了点击行为，基于此，服务器生成的训练样本包括(用户1的用户特征，新闻1的内容特征，具体行为特征)，将训练样本中(用户1的用户特征，新闻1的内容特征)作为参与模型训练的训练实例x_t；而对应的具体行为特征作为该训练实例x_t的真实标签y_t；基于此，训练样本可以表示为(x_t，y_t)；若采用本申请实施例提供的GOST算法基于上文公式(7)进行模型训练时，利用训练样本(x_t，y_t)计算出损失函数的梯度g_t；再基于该损失函数的梯度g_t通过上文描述的求解方式求解出使得目标函数最小的参数w，利用该参数w更新模型即可。以上实施例主要对在线训练模型的方法的具体实现方式进行了介绍。利用上述训练方法，可以在线训练出信息推送模型，基于在线训练的该信息推送模型，本申请实施例还提供了一种信息推送方法。该方法可以应用于服务器，服务器可以执行本实施例提供的信息推送方法向终端推送信息。

本实施例提供的信息推送方法可以用于推送新闻、书籍、音乐、视频等各种各样类型的信息，为了便于理解本申请的技术方案，接下来结合推送新闻的具体应用场景对本申请提供的信息推送方法进行说明。

图3示出了一种新闻推送的场景示例图，参见图3，该应用场景包括终端100、推送服务器200、内容服务器300、参数服务器400以及计算服务器500。其中，终端100可以是能够通过任何形式的有线和/或无线连接实现与推送服务器200交互的任何用户设备，包括智能手机、平板电脑、个人数字助理等，推送服务器200用于从内容服务器300获取新闻内容，并根据参数服务器400和计算服务器500预先训练的新闻推送模型以及用户的性别、年龄、偏好等用户特征数据和新闻内容的类别、主题等内容特征数据，确定用户对新闻内容感兴趣的概率，根据该概率确定是否向用户推送新闻内容。

在该应用场景中，推送服务器200可以接收参数服务器400和计算服务器500预先训练的新闻推送模型，然后从内容服务器300中获取100条新闻，这100条新闻包括财经、科技、体育以及文娱等不同类别的新闻，提取新闻的内容特征数据，包括类别、主题等等，并获取用户甲的用户特征数据，包括用户性别、年龄、偏好等等，将新闻的内容特征数据和用户甲的用户特征数据输入到新闻推送模型，新闻推送模型可以预测用户甲对这100条新闻感兴趣的概率，如图3所示，推送模型预测用户甲对新闻1、新闻2和新闻3感兴趣概率分别为0.92、0.67和0.23(新闻4-新闻100的感兴趣概率在图3中未示出)，然后推送服务器200可以按照该概率进行排序，将概率大于预设阈值并且排序靠前如排名前5的新闻首先推送至用户的终端设备，以便用户查看。

当用户触发查看“下一页”或“更多内容”操作时，还可以将概率大于预设阈值并且排名紧随前一页的5条新闻推送至用户的终端设备。需要说明，每次推送数量可以根据需求进行设定，例如可以根据终端设备的屏幕尺寸进行设定。在有些情况下，如100条新闻中概率大于预设阈值，而且并未被推送的新闻数量不足5条时，还可以再次从内容服务器中获取100条新闻并重复上述预测、排序以及推送过程。

在该应用场景中，推送服务器300可以同时针对多个用户，如用户甲、用户乙对新闻感兴趣的概率进行预测，并根据各个用户对新闻感兴趣的概率同时向多个用户的终端设备推送。

与传统的新闻推送方法相比，本实施例提供的新闻推送方法，由于采用了以非凸正则项进行正则化的在线训练方式训练得到的新闻推送模型，相较于传统的在线学习算法中以L1正则项进行正则化的方式，本实施例中的新闻推送模型能够减少惩罚偏差，筛选出更富有信息的有效特征，如此，训练出的模型不仅具有较好的稀疏性，而且具有较较高的精度和泛化性能。

下面结合附图，详细说明本申请实施例提供的信息推送方法的具体实现方式。

接下来，从推送服务器300的角度，对本申请提供的信息推送方法进行介绍。参见图4，图4为本申请实施例提供的的一种信息推送方法的流程图，该方法可以应用于如图3所示的推送服务器300，具体包括如下步骤：

S401：获取目标用户的用户特征数据和目标信息的内容特征数据。

目标用户是指订阅或订购信息推送业务的用户。目标用户可以是注册用户，也可以是匿名用户。可以理解，当用户通过终端设备下载并安装能够实现信息推送业务的客户端，如腾讯新闻客户端，则该用户可以视为目标用户。当用户通过浏览器等方式进入该信息推送业务的网页，如QQ音乐网页，则该用户也可以视为目标用户。

用户特征数据是指表征用户属性的数据。用户特征数据可以包括用户的帐号、性别、年龄、偏好等信息中的至少一种，其中用户的帐号可以是用户在该信息推送业务的网站上注册的帐号，例如该帐号可以为QQ号、微信号、手机号或邮箱等等，当目标用户为匿名用户时，用户特征数据还可以为终端设备的识别码，如国际移动设备识别码(InternationalMobile Equipment Identity，IMEI)等。其中，用户特征数据可以从用户在网站的注册信息中获取，当用户在该信息推送业务的网站注册帐号时，若用户填写了性别、年龄、偏好等信息，则可以从注册信息中获取这些特征数据。在本申请实施例一些可能的实现方式中，也可以根据用户的行为记录获取用户特征数据。具体的，可以根据用户行为记录，利用用户画像技术，获取用户特征数据，包括年龄、性别、学历、职业、收入、资产、婚育状况、兴趣爱好、性格等等。

目标信息是指信息推送业务提供的信息。目标信息的表现形式可以是多种多样的，包括文字、图片、音频、视频等信息中的至少一种。针对不同的信息推送业务，所提供的目标信息是不相同的。例如，新闻推送业务中目标信息是指新闻，音乐推送业务中目标信息是指音乐等音频产品，书籍推送业务中目标信息可以是电子书籍等，当该方法应用于电商平台时，目标信息还可以是商品的相关信息。

内容特征数据是指表征目标信息内容属性的数据。内容特征数据可以为目标信息的主题、关键词或者所涵盖的人物、地点等等。针对新闻推送业务，内容特征数据可以包括人物、主题、关键词等；针对音乐推送业务，目标内容特征数据可以包括音乐的主题、类型、风格等等，作为本实施例的一个扩展，还可以包括演唱者、创作者等等；针对电商平台，内容特征数据可以包括成交量、好评度、价格区间等等。在本实施例中，一条目标信息可以对应于至少一个内容特征数据。当目标信息的内容特征数据越丰富，越容易匹配到目标用户。

获取内容特征数据有多种实现方式。当目标信息包含文本时，可以通过语义分析的方式获取目标信息的内容特征数据；当目标信息包括图片时，还可以通过图片识别的方式，获得目标信息的内容特征数据；当目标信息还包括音频、视频时，还可以通过对音视频的内容进行分析，从而获得内容特征数据。

S402：获取通过在线训练得到的当前模型参数，根据所述当前模型参数确定推送模型。

所述当前模型参数是使所述推送模型的目标函数最小的参数；所述目标函数是根据训练样本、历史模型参数和非凸正则项所确定的。

本实施例中的推送模型是根据图2所示实施例提供的在线训练模型的方法进行训练得到的。基于信息推送这种流式数据处理场景，采用在线训练算法能够及时根据样本对推送模型进行更新，当业务发生变化时，推送模型能够作出适应性地调整。在训练过程中，根据训练样本、历史模型参数和非凸正则项确定推送模型的目标函数，目标函数中的非凸正则项可以减少惩罚偏差，能够更好地选择有效特征，在对推送模型进行稀疏化的同时，保障了推送模型的泛化性能，在高维数据上，推送模型也具有较好的预测精度。基于此，可以将该推送模型用于用户对目标信息感兴趣的概率预测。

在本申请实施例一些可能的实现方式中，推送模型可以是逻辑回归分类算法模型、支持向量机算法模型、决策树算法模型或者人工神经网络算法模型中的任意一种。具体的，可以选择逻辑回归分类算法模型、支持向量机算法模型、决策树算法模型或者人工神经网络算法模型中的一种模型，按照图2所示实施例提供的方法进行训练得到推送模型。训练过程中，可以采用平滑截断绝对偏差惩罚算子、极大极小凹惩罚算子或者加盖的L1正则项中的任意一个作为正则项进行特征筛选。

本实施例中的推送模型可以根据对用户实施点击行为的概率进行推送，也可以根据对用户实施分享或评论行为的概率进行推送。

下面以根据对用户实施点击行为的概率进行推送，对在线训练模型的过程进行介绍。

在本申请实施例一些可能的实现方式中，可以从流式数据中获取训练样本，训练样本包括用户的用户特征数据、已推送给用户的信息对应的内容特征数据以及用户对该信息的用户行为数据，其中，用户行为数据包括用户对信息实施的动作记录，如用户对信息实施的点击行为记录，然后根据训练样本、历史模型参数和非凸正则项确定目标函数，确定使目标函数最小的当前模型参数。经过多轮迭代训练，可以得到用于信息推送的推送模型。

S403：根据所述推送模型、所述用户特征数据和所述内容特征数据，计算所述目标用户对所述目标信息的感兴趣概率。

在本申请实施例一些可能的实现方式中，可以将用户特征数据和内容特征数据输入至推送模型，推送模型可以根据用户特征数据和内容特征数据对目标用户和目标信息进行匹配，以计算目标用户对目标信息感兴趣的概率。

其中，计算目标用户对目标信息感兴趣的概率有多种实现方式，例如，可以计算用户特征数据和内容特征数据的相似程度，根据相似程度确定目标用户对目标信息感兴趣的概率。用户特征数据与内容特征数据的相似程度越高，用户对目标信息感兴趣的概率越高，例如，目标用户的偏好为篮球，偶像为库里，目标信息为NBA勇士队与骑士队的比赛信息，目标信息的内容特征数据可以为篮球、NBA、勇士、骑士、库里、詹姆斯等，可见目标用户的用户属性数据与目标信息的内容特征数据的相似程度较高，推送模型可以作出该目标用户有较高的概率对该目标信息感兴趣的预测。

在本申请实施例一些可能的实现方式中，当推送模型为逻辑回归分类算法模型时，还可以根据用户特征数据和内容特征数据，构建待预测的特征数据，将该待预测的特征数据输入至推送模型，计算得到目标用户对目标信息感兴趣的概率。为了便于理解，举例说明。在该示例中，用户特征数据和内容特征数据可以用向量的形式进行表示，若用户特征数据为四维向量，内容特征数据为三维向量，则可以根据该四维向量和三维向量构建待预测的特征数据，待预测的特征数据可以以七维向量进行表示，将该七维向量输入至推送模型，可以计算得到目标用户对目标信息感兴趣的概率。

S404：根据所述感兴趣概率确定是否向所述目标用户推送所述目标信息。

在本实施例中，为了实现精准的信息推送，可以根据推送模型预测的目标用户对目标信息感兴趣的概率，确定是否向目标用户推送目标信息。

作为一种可能的实现方式，可以根据目标用户对目标信息感兴趣概率的大小，确定是否向目标用户推送目标信息。具体的，若目标用户对目标信息感兴趣概率大于或等于预设阈值，则向目标用户推送该目标信息，若目标用户对目标信息感谢概率小于预设阈值，则不向目标用户该目标信息，如此，推送至用户终端的信息均为目标用户感兴趣概率较大的信息，用户通过终端接收推送的消息，并可以直接从中获取感兴趣的信息执行浏览、转发以及评论等操作。

作为本申请另一种可能的实现方式，还可以感兴趣概率的大小关系对多个目标信息进行排序，然后根据排序结果确定向目标用户推送的目标信息，如将排序靠前的预设个数的目标信息推送给目标用户。

为了便于理解，下面结合具体示例说明。推送模型针对用户甲对100条目标信息感兴趣的概率进行了预测，并按照概率从高到低的顺序对这100条目标信息进行了排序，可以对排序靠前的5条目标信息优先进行推送，当用户甲还希望获取更多信息时，可以将排序紧随其后的目标信息进行推送。需要说明，针对任一目标用户，可以一次推送预设个数的目标信息。一次推送目标信息的数量可以根据需求预先设定，例如可以根据用户终端设备的尺寸、显示方式等进行设定，当用户终端设备的屏幕尺寸相对较大，推送目标信息的数量可以较大，当用户终端设备的屏幕尺寸相对较小时，一次推送目标信息的数量可以相应减少。

由上可知，本申请实施例提供了一种信息推送方法，首先获取目标用户的用户特征数据和目标信息的内容特征数据，然后获取通过在线训练得到的当前模型参数，从而确定推送模型，其中，当前模型参数是通过在线训练模型的方法得到的，具体包括从流式数据中获取训练样本，根据训练样本、历史模型参数和非凸正则项确定目标函数，确定使推送模型的目标函数最小的当前模型参数，根据推送模型、用户特征数据和内容特征数据，计算目标用户对目标信息的感兴趣概率，并根据感兴趣概率确定是否向目标用户推送。由于采用了推送模型对目标用户对目标信息感兴趣概率进行预测，而推送模型是以在线训练方式，并结合非凸正则项进行特征筛选训练得到的，具有较高的预测精度，因而能够更为准确地预测目标用户对目标信息感兴趣概率，从而能够提供更为精准的推送服务，提高用户体验。

以上为本申请实施例提供的一种在线训练模型的方法、信息推送方法的具体实现方式，基于此，本申请实施例还提供了一种在线训练模型的装置、信息推送装置。接下来结合附图，从功能模块化的角度对上述装置进行详细说明。

参见图5，图5为本申请实施例提供的一种在线训练模型的装置的结构示例图，该装置可以应用于独立的服务器，也可以应用于多个服务器构成的分布式训练系统，该装置500具体包括：

获取模块510，用于从流式数据中获取训练样本；

确定模块520，用于根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数；

更新模块530，用于确定使所述目标函数最小的当前模型参数，根据所述当前模型参数更新所述模型。

由上可知，本实施例提供的在线训练模型的装置根据训练样本、历史模型参数和非凸正则项确定模型的目标函数，由于采用非凸正则项代替L1正则项，在确定使目标函数最新的当前模型参数时可以减少惩罚偏差，筛选出有效特征，使得模型具有较好的稀疏性和泛化性能。

可选地，在上述图5所对应的实施例的基础上，请参阅图6，本申请实施例提供的在线训练模型的装置的另一实施例中，

所述确定模块520包括：

第一确定子模块521，用于根据所述训练样本和历史模型参数确定所述训练样本对应的损失函数；

第二确定子模块522，用于根据所述损失函数和非凸正则项确定模型的目标函数。

可选地，所述损失函数包括以下任意一种函数：

对数损失函数、铰链损失函数、指数损失函数或者平方损失函数。

可选地，所述非凸正则项包括以下任意一项：

平滑截断绝对偏差惩罚算子、极大极小凹惩罚算子或者加盖的L1正则项。

可选地，所述模型包括以下任意一种模型：

逻辑回归分类算法模型、支持向量机算法模型、决策树算法模型或者人工神经网络算法模型。

可选地，所述装置应用于分布式训练系统中，所述分布式训练系统包括：参数服务器和多个计算服务器；

则所述参数服务器包括获取模块510，用于从流式数据中获取训练样本，并向计算服务器分配所述训练样本；

所述计算服务器包括确定模块520，用于根据分配到的训练样本、历史模型参数和非凸正则项确定模型的目标函数；

所述计算服务器包括更新模块530，用于确定使所述目标函数最小的当前模型参数，并根据所述当前模型参数更新所述参数服务器存储的所述模型的参数。

可选地，在上述图5所对应的实施例的基础上，请参阅图7，本申请实施例提供的在线训练模型的装置的又一实施例中，

所述更新模块530包括：

计算子模块531，用于确定使所述目标函数最小的当前模型参数，计算所述当前模型参数与上一次迭代的历史模型参数之间的差值；

上传子模块532，用于向所述参数服务器上传所述差值，以使所述参数服务器根据所述差值更新所述模型的参数。

由上可知，通过计算当前模型参数于上一次迭代的历史模型参数之间的差值，并通过差值更新模型参数，相比较直接以当前模型参数更新模型参数，可以减少对传输资源的占用，提高传输效率。

接下来，参见图8，图8为本申请实施例提供的一种信息推送装置的结构示例图，该装置可以应用于服务器，如图1所示的推送服务器200，该装置800包括：

获取模块810，用于获取目标用户的用户特征数据和目标信息的内容特征数据；

确定模块820，用于获取通过在线训练得到的当前模型参数，根据所述当前模型参数确定推送模型；所述当前模型参数是使所述推送模型的目标函数最小的参数；所述目标函数是根据训练样本、历史模型参数和非凸正则项所确定的；

计算模块830，用于根据所述推送模型、所述用户特征数据和所述内容特征数据，计算所述目标用户对所述目标信息的感兴趣概率；

推送模块840，用于根据所述感兴趣概率确定是否向所述目标用户推送所述目标信息。

由上可知，本申请实施例提供的信息推送装置采用了推送模型对目标用户对目标信息感兴趣概率进行预测，而推送模型是以在线训练方式，并结合非凸正则项进行特征筛选训练得到的，具有较高的预测精度，因而能够更为准确地预测目标用户对目标信息感兴趣概率，从而能够提供更为精准的推送服务，提高用户体验。

可选地，所述非凸正则项包括以下任意一项：

可选地，所述推送模型包括以下任意一种模型：

可选地，在上述图8所对应的实施例的基础上，请参阅图9，本申请实施例提供的信息推送装置的另一实施例中，

所述计算模块830包括：

构建子模块831，用于所述推送模型为逻辑回归分类算法模型时，根据所述用户特征数据和所述内容特征数据，构建待预测的特征数据；

计算子模块832，用于将所述待预测的特征数据输入至所述推送模型，计算得到所述目标用户对所述目标信息的感兴趣概率。

可选地，在上述图8所对应的实施例的基础上，请参阅图10，本申请实施例提供的信息推送装置的又一实施例中，

所述推送模块840包括：

排序子模块841，用于按照所述感兴趣概率的大小关系对多个目标信息进行排序；

推送子模块842，用于将排序靠前的预设个数的目标信息推送给所述目标用户。

可选地，所述当前模型参数是通过以下在线模型训练方法得到的：

从流式数据中获取训练样本，所述训练样本包括：用户的用户特征数据、已推送给所述用户的信息对应的内容特征数据以及所述用户对所述信息的用户行为数据；所述用户行为数据包括所述用户对所述信息实施的动作记录；

根据所述训练样本、历史模型参数和非凸正则项确定目标函数；

确定使所述目标函数最小的当前模型参数。

可选地，所述用户行为数据包括用户实施的点击行为数据。

以上从功能模块化的角度对本申请实施例提供的在线训练模型的装置、信息推送装置进行了说明，接下来从硬件的角度对本申请实施例提供的上述装置进行说明。

图11是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 1122用于执行如下步骤：

从流式数据中获取训练样本；

需要说明，上述步骤可以由一个服务器执行，也可以由多个服务器构成的分布式系统协同执行，可以根据需要选择合适的执行方式。

本申请实施例还提供了另一种信息推送设备，如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该信息推送设备可以服务器，也可以为其他具有数据处理能力的处理设备，本实施里以服务器作为示例进行说明。

图12是本申请实施例提供的一种服务器结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1222用于执行如下步骤：

获取目标用户的用户特征数据和目标信息的内容特征数据；

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种在线训练模型的方法中的任意一种实施方式。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种信息推送方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种在线训练模型的方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种信息推送方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种在线训练模型的方法，其特征在于，包括：

从流式数据中获取训练样本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数，包括：

根据所述训练样本和历史模型参数确定所述训练样本对应的损失函数；

根据所述损失函数和非凸正则项确定模型的目标函数。

3.根据权利要求2所述的方法，其特征在于，所述损失函数包括以下任意一种函数：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述非凸正则项包括以下任意一项：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述模型包括以下任意一种模型：

6.根据权利要求1至3任一项所述的方法，其特征在于，所述方法应用于分布式训练系统中，所述分布式训练系统包括：参数服务器和多个计算服务器；

则所述从流式数据中获取训练样本，包括：

所述参数服务器从流式数据中获取训练样本，并向计算服务器分配所述训练样本；

则所述根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数，包括：

所述计算服务器根据分配到的训练样本、历史模型参数和非凸正则项确定模型的目标函数；

则所述确定使所述目标函数最小的当前模型参数，根据所述当前模型参数更新所述模型，包括：

所述计算服务器确定使所述目标函数最小的当前模型参数，并根据所述当前模型参数更新所述参数服务器存储的所述模型的参数。

7.根据权利要求6所述的方法，其特征在于，所述计算服务器确定使所述目标函数最小的当前模型参数，并根据所述当前模型参数更新所述参数服务器存储的所述模型的参数，包括：

所述计算服务器确定使所述目标函数最小的当前模型参数，计算所述当前模型参数与上一次迭代的历史模型参数之间的差值；

所述计算服务器向所述参数服务器上传所述差值，以使所述参数服务器根据所述差值更新所述模型的参数。

8.一种信息推送方法，其特征在于，所述方法包括：

获取目标用户的用户特征数据和目标信息的内容特征数据；

9.根据权利要求8所述的方法，其特征在于，其特征在于，所述非凸正则项包括以下任意一项：

10.根据权利要求8或9所述的方法，其特征在于，所述推送模型包括以下任意一种模型：

11.根据权利要求10所述的方法，其特征在于，所述推送模型为逻辑回归分类算法模型时，

则所述根据所述推送模型、所述用户特征数据和所述内容特征数据，计算所述目标用户对所述目标信息的感兴趣概率，包括：

根据所述用户特征数据和所述内容特征数据，构建待预测的特征数据；

将所述待预测的特征数据输入至所述推送模型，计算得到所述目标用户对所述目标信息的感兴趣概率。

12.根据权利要求8至11任一项所述的方法，其特征在于，所述根据所述感兴趣概率确定是否向所述目标用户推送所述目标信息，包括：

按照所述感兴趣概率的大小关系对多个目标信息进行排序；

将排序靠前的预设个数的目标信息推送给所述目标用户。

13.一种在线训练模型的装置，其特征在于，包括：

获取模块，用于从流式数据中获取训练样本；

14.一种信息推送装置，其特征在于，包括：

15.一种信息推送设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求8-12任一项所述的在线训练模型的方法。