CN113515689A

CN113515689A - 推荐方法及装置

Info

Publication number: CN113515689A
Application number: CN202010280625.3A
Authority: CN
Inventors: 谢淼; 彭艺; 刘家豪
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2021-10-19

Abstract

本说明书实施例提供推荐方法及装置，其中，所述方法包括首先接收第t个访问请求；基于所述访问请求中的用户的用户标识获取所述用户的属性特征、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征，以得到高维的初始特征；然后根据第一机器学习模型对所述高维的初始特征进行自动化编码降维，得到比所述高维的初始特征维度低很多的低维的目标特征；再将低维的所述目标特征输入第二机器学习模型，快速准确的得到每个候选对象的预测结果。

Description

推荐方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及推荐方法。本说明书一个或者多个实施例同时涉及推荐装置，视频封面推荐方法及装置，应用程序推荐方法及装置，商品推荐方法及装置，计算设备，以及计算机可读存储介质。

背景技术

随着互联网技术的不断发展，如何实时准确地捕获用户个性化兴趣，为用户做精准的推荐服务(例如商品推荐和个性化素材推荐)成为了热门研究项目；现有的离线推荐模型虽然可以采用复杂的模型结构，通过丰富的历史数据来学习用户的长时兴趣，但是在大促场景中，该离线推荐模型很难捕获快速的用户兴趣变化，而现有的在线推荐模型虽然能够随着在线系统的实时反馈进行不断学习，但是特征很难选取和确定，而不合理的特征选取会直接导致模型的预测精准度较差,并且由于计算实时性的要求，所支持的特征维度通常较小，因此导致精准性较差。

基于此，需要提供一种更为有效、准确的推荐方法。

发明内容

有鉴于此，本说明书施例提供了一种推荐方法。本说明书一个或者多个实施例同时涉及一种推荐装置，一种视频封面推荐方法及装置，一种应用程序推荐方法及装置，一种商品推荐方法及装置，四种计算设备，以及四种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种推荐方法，包括：

接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识，且t为正整数；

基于所述用户标识获取包括m个维度的初始特征；

根据第一机器学习模型，该模型是离线模型，对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

将所述目标特征输入所述第二机器学习模型，该模型是在线学习模型，得到候选对象的预测结果；

将预测结果满足预设条件的候选对象推荐给所述用户。

根据本说明书实施例的第二方面，提供了一种视频封面推荐方法，包括：

接收针对视频封面的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

基于所述用户标识获取所述用户的属性特征、针对所述用户的n个视频图像的图像特征、所述用户与所述视频图像的交叉组合特征，以得到包括m个维度的初始特征；

根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

将所述目标特征输入上下文赌博机模型，得到所述视频图像的预测结果；

将预测结果满足预设条件的视频图像作为视频封面推荐给所述用户。

根据本说明书实施例的第三方面，提供了一种应用程序推荐方法，包括：

接收针对应用程序的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

基于所述用户标识获取所述用户的属性特征、针对所述用户的n个应用程序的属性特征、所述用户与所述应用程序的交叉组合特征，以得到包括m个维度的初始特征；

将所述目标特征输入上下文赌博机模型，得到所述应用程序的预测结果；

将预测结果满足预设条件的应用程序作为目标应用程序推荐给所述用户。

根据本说明书实施例的第四方面，提供了一种商品推荐方法，包括：

接收针对商品的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

基于所述用户标识获取所述用户的属性特征、针对所述用户的n个商品的属性特征、所述用户与所述商品的交叉组合特征，以得到包括m个维度的初始特征；

将所述目标特征输入上下文赌博机模型，得到所述商品的预测结果；

将预测结果满足预设条件的商品推荐给所述用户。

根据本说明书实施例的第五方面，提供了一种推荐方法，包括：

基于调用方的调用请求为所述调用方展示目标输入界面；

接收所述调用方通过所述目标输入界面生成的第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数；

基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征；

根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果；

将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

根据本说明书实施例的第六方面，提供了一种推荐方法，包括：

接收调用方发送的接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数；

根据本说明书实施例的第七方面，提供了一种推荐装置，包括：

第一请求接收模块，被配置为接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识，且t为正整数；

第一高维特征获得模块，被配置为基于所述用户标识获取包括m个维度的初始特征；

第一低维特征获得模块，被配置为根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

第一预测模块，被配置为将所述目标特征输入第二机器学习模型，得到候选对象的预测结果；

第一推荐模块，被配置为将预测结果满足预设条件的候选对象推荐给所述用户。

根据本说明书实施例的第八方面，提供了一种视频封面推荐装置，包括：

第二请求接收模块，被配置为接收针对视频封面的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

第二高维特征获得模块，被配置为基于所述用户标识获取所述用户的属性特征、针对所述用户的n个视频图像的图像特征、所述用户与所述视频图像的交叉组合特征，以得到包括m个维度的初始特征；

第二低维特征获得模块，被配置为根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

第二预测模块，被配置为将所述目标特征输入上下文赌博机模型，得到所述视频图像的预测结果；

第二推荐模块，被配置为将预测结果满足预设条件的视频图像作为视频封面推荐给所述用户。

根据本说明书实施例的第九方面，提供了一种应用程序推荐装置，包括：

第三请求接收模块，被配置为接收针对应用程序的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

第三高维特征获得模块，被配置为基于所述用户标识获取所述用户的属性特征、针对所述用户的n个应用程序的属性特征、所述用户与所述应用程序的交叉组合特征，以得到包括m个维度的初始特征；

第三低维特征获得模块，被配置为根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

第三预测模块，被配置为将所述目标特征输入上下文赌博机模型，得到所述应用程序的预测结果；

第三推荐模块，被配置为将预测结果满足预设条件的应用程序作为目标应用程序推荐给所述用户。

根据本说明书实施例的第十方面，提供了一种商品推荐装置，包括：

第四请求接收模块，被配置为接收针对商品的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

第四高维特征获得模块，被配置为基于所述用户标识获取所述用户的属性特征、针对所述用户的n个商品的属性特征、所述用户与所述商品的交叉组合特征，以得到包括m个维度的初始特征；

第四低维特征获得模块，被配置为根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

第四预测模块，被配置为将所述目标特征输入上下文赌博机模型，得到所述商品的预测结果；

第四推荐模块，被配置为将预测结果满足预设条件的商品推荐给所述用户。

根据本说明书实施例的第十一方面，提供了一种推荐装置，包括：

界面确定模块，被配置为基于调用方的调用请求为所述调用方展示目标输入界面；

第五请求接收模块，被配置为接收所述调用方通过所述目标输入界面生成的第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数；

第五高维特征获得模块，被配置为基于所述用户标识以及针对所述用户的n个候选对象包括m个维度的初始特征；

第五低维特征获得模块，被配置为根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

第五预测模块，被配置为将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果；

第五推荐模块，被配置为将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

根据本说明书实施例的第十二方面，提供了一种推荐装置，包括：

第六请求接收模块，被配置为接收调用方发送的接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数；

第六高维特征获得模块，被配置为基于所述用户标识以及针对所述用户的n个候选对象包括m个维度的初始特征；

第六低维特征获得模块，被配置为根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

第六预测模块，被配置为将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果；

第六推荐模块，被配置为将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

根据本说明书实施例的第十三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现任意一种所述推荐方法的步骤，或者实现所述视频封面推荐方法的步骤，或者实现所述应用程序推荐方法的步骤，或者实现所述商品推荐方法的步骤。

根据本说明书实施例的第十四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一种所述推荐方法的步骤，或者实现所述视频封面推荐方法的步骤，或者实现所述应用程序推荐方法的步骤，或者实现所述商品推荐方法的步骤。

本说明书一个实施例实现了推荐方法及装置，其中，所述推荐方法包括首先接收第t个访问请求；基于所述访问请求中的用户的用户标识获取所述用户的属性特征、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征，以得到高维的初始特征；然后通过基于第二机器学习的初始化参数训练得到的第一机器学习模型对所述高维的初始特征进行自动化编码降维，得到比所述高维的初始特征维度低很多的低维的目标特征；再将低维的所述目标特征输入第二机器学习模型，快速准确的得到每个候选对象的预测结果；最后将预测结果满足预设条件的候选对象推荐给所述用户；通过第一机器学习和第二机器学习的联合学习机制，可以融合在线与离线的学习过程，自动学习得到更准确且维度足以支持在线效果的特征向量，进而在不降低第二机器学习模型的实时预测效率的基础上，通过第一机器学习模型自动地对高维特征进行寻优和融合。

附图说明

图1是本说明书一个实施例提供的一种推荐方法的具体应用场景的示例图；

图2是本说明书一个实施例提供的第一种推荐方法的流程图；

图3是本说明书一个实施例提供的一种推荐方法的应用在具体系统的系统部署示意图；

图4是本说明书一个实施例提供的一种推荐方法中上下文赌博机以及深度编码器的具体在线以及离线训练的示意图；

图5是本说明书一个实施例提供的一种视频封面推荐方法的流程图；

图6是本说明书一个实施例提供的一种应用程序推荐方法的流程图；

图7是本说明书一个实施例提供的一种商品推荐方法的流程图；

图8是本说明书一个实施例提供的第二种推荐方法的流程图；

图9是本说明书一个实施例提供的第三种推荐方法的流程图；

图10是本说明书一个实施例提供的第一种推荐装置的结构示意图；

图11是本说明书一个实施例提供的一种视频封面推荐装置的结构示意图；

图12是本说明书一个实施例提供的一种应用程序推荐装置的结构示意图；

图13是本说明书一个实施例提供的一种商品推荐装置的结构示意图；

图14是本说明书一个实施例提供的第二种种推荐装置的结构示意图；

图15是本说明书一个实施例提供的第三种推荐装置的结构示意图；

图16是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

赌博机：一种算法名称，用于平衡方案选择问题中的探索与利用过程。

上下文赌博机：英文全称：Contextual Bandit，一种应用在推荐系统中的基于深度学习的预测模型。

在线决策：系统实时地根据用户请求进行决策推荐。

MLP：英文全称：Multilayer Perceptron，中文全称：多层感知机。

CNN：英文全称：Convolutional Neural Networks，中文全称：卷积神经网络。

DNN：英文全称：Deep Neural Network，中文全称：深度神经网络。

GCN：英文全称：GraphConvolutionalNetwork，中文全称：图卷积神经网络。

在本说明书中，提供了一种推荐方法。本说明书一个或者多个实施例同时涉及一种推荐装置，一种视频封面推荐方法及装置，一种应用程序推荐方法及装置，一种商品推荐方法及装置，四种计算设备，以及四种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种推荐方法的具体应用场景的示例图。

图1的应用场景中包括终端和服务器，具体的，用户通过终端访问某购物网站，终端生成一个访问请求发送给服务器，服务器在接收到该访问请求后，基于该访问请求中携带的用户标识，查询数据库获取该用户标识对应的用户的属性信息，购物网站中商品的属性信息，用户与商品的交叉组合信息，然后将上述信息拼接起来，即可得到反映本次访问请求上下文信息的原始高维特征向量X_(a,t)；

然后将X_(a,t)传入第一机器学习模型，该第一机器学习模型内部有多层感知参数，会通过非线性变换，将原始高维特征向量X_(a,t)的维度降至固定d维的目标低维特征向量V_(a,t)中，而该目标低维特征向量的维度远小于该原始高维特征向量；

再将降维后得到的d维的目标低维特征向量V_(a,t)传递给第二机器学习模型，其会通过第二机器学习模型的在线决策评估函数对该购物网站中的每个商品进行在线打分，例如通过基于岭回归的置信区间上界方法来进行决策评估；

最后在所有打分后的商品中，选择1个或者k个返回给用户，作为针对用户的推荐结果，其中，具体的选择多少个商品返回给用户基于具体的应用方的应用场景确定。

参见图2，图2示出了根据本说明书一个实施例提供的第一种推荐方法的流程图，包括步骤202至步骤210。

步骤202：接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识，且t为正整数。

其中，t为大于0的正整数，若t为1的情况下，接收第t个访问请求即为：接收第1个访问请求。

实际应用中，接收的访问请求可以是同一个用户多次访问终端时产生的多个访问请求，也可以是不同用户中的每个用户访问终端时产生的多个访问请求；而每个访问请求中均携带有该访问请求发起用户的用户标识和/或其他的一些上下文环境参数，其中，用户标识包括由变量、函数和/或数组等命名的、可以唯一定义自己的标识符；所述上下文环境参数包括但不限于接收访问请求的时间以及访问请求发起用户使用的终端设备型号等。

步骤204：基于所述用户标识获取包括m个维度的初始特征。

其中，所述m个维度的初始特征包括所述用户的属性特征、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征。

具体的，接收到携带有用户标识的第t个访问请求后，基于该用户标识，查询数据库获取该用户标识对应的用户的属性特征、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征，然后将上述特征进行拼接即可得到反映本次访问请求上下文信息的包括m个维度的初始特征；其中，用户的属性特征包括但不限于用户的姓名、年龄、手机号码、历史购物行为、历史点击行为和/或历史浏览行为等；候选对象的对象特征包括但不限于候选对象的名称、类型和/或关联用户的属性特征；而用户与候选对象的交叉组合特征则是将用户的属性特征与候选对象的对象特征做交叉得到的特征。

具体实施时，所述候选对象包括但不限于视频封面、手机应用程序、网络连接方式和/或商品等；而在候选对象为视频封面的情况下，候选对象的对象特征为视频图像的图像特征，包括但不限于该视频封面的类型以及该视频封面中的图像信息等；在候选对象为手机应用程序的情况下，候选对象的对象特征为手机应用程序的属性特征，包括但不限于该手机应用程序的类型、功能、占用内存以及安全性能等；在候选对象为商品的情况下，候选对象的对象特征为商品的属性特征，包括但不限于该商品的种类、名称、价格、产地以及卖家信息等。

以下对所述用户与所述候选对象的交叉组合特征进行详细说明，以所述候选对象为商品为例，不同年龄的用户，对商品的种类的兴趣是不同的，但是单独从用户的年龄，以及商品的属性特征来看，不同年龄段的用户感兴趣的商品的种类之间的差异是无法刻画出来的，为了解决该问题，将用户的属性特征与商品的属性特征进行交叉组合，构建出所述用户与所述候选对象的交叉组合特征，例如将用户年龄为18岁的属性特征与商品的种类为“衣服”的属性特征进行交叉组合，形成一个用户与候选对象的交叉组合特征；将用户年龄为28岁的属性特征与商品的种类为“厨房用具”的属性特征进行交叉组合，形成一个用户与候选对象的交叉组合特征，采用此种用户与候选对象的交叉组合特征可以更细粒度的获得反映本次访问请求上下文信息的高维的初始特征，使得后续第二机器学习模型可以基于获取更细粒度的特征对候选对象的得分进行更为准确的预测。

步骤206：根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征。

其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到。

具体的，在基于所述用户标识获取所述用户的属性特征、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征，获得反映本次访问请求上下文信息的高维的初始特征后，为了避免高维的初始特征对第二机器学习模型预测候选对象的得分时的预测效率产生影响，提高第二机器学习模型预测候选对象得分的预测效率，可以通过第一机器学习模型对所述初始特征进行降维，以得到一个比所述初始特征维度低很多的目标特征。

而具体根据第一机器学习模型对所述初始特征进行降维后，得到的目标特征的d维的维度个数可以根据第二机器学习模型的可处理维度数确定，例如第二机器学习模型的处理维度数量只能为500维，那么根据第一机器学习模型对所述初始特征进行降维后，得到的目标特征的d维的维度个数则不可以超过500维；实际应用中，也可以根据第二机器学习模型的可处理维数选择合适的、用于降维的第一机器学习模型，两者相辅相成。

而无论是通过第一机器学习模型对所述初始特征进行降维，或者是后续通过第二机器学习对候选对象的得分进行预测，均需要对第一机器学习模型以及第二机器学习模型进行提前确定以及训练。

具体实施时，若进行第一机器学习模型以及第二机器学习模型训练时，存在历史样本数据，则基于该历史样本数据对第一机器学习以及第二机器学习模型进行训练，具体实现方式如下：

所述第二机器学习模型包括预测模型；

相应的，所述预测模型的训练方法包括：

获取第一维度的历史样本数据，其中，所述历史样本数据包括样本用户的属性特征、所述样本用户对应的样本候选对象的对象特征、所述样本用户与所述样本候选对象的交叉组合特征、以及对应的标签；

对所述第一维度的历史样本数据进行降维处理，得到第二维度的历史样本数据，其中，所述第一维度大于所述第二维度；

根据所述第二维度的历史样本数据对所述预测模型进行训练，得到训练后的所述预测模型以及所述预测模型的初始化参数，所述预测模型输出所述样本候选对象的得分。

其中，标签包括候选对象的真实得分。

具体的，系统冷启动时，先确定一个第一机器学习模型，将该第一机器学习模型中的参数进行随机初始化，使得该第一机器学习模型可以实现高维特征到低维特征的映射，在获取第一维度(即高维)的历史样本数据后，通过随机初始化的第一机器学习对所述第一维度的历史样本数据进行降维处理，得到第二维度(即低维)的历史样本数据，利用该第二维度的历史样本数据对预测模型中的参数进行离线训练，即可得到训练后的预测模型以及该预测模型的初始化参数W。

通过上述的离线训练方法以及低维的历史样本数据获得离线训练后的预测模型，使得该预测模型可以在接收到低维的目标特征后，可以快速准确的预测出每个候选对象的得分。

而在获得第二机器学习模型的初始化参数W后，则基于该初始化参数W对第一机器学习模型进行训练，具体实现方式如下：

所述第一机器学习模型包括降维模型；

相应的，所述降维模型的训练方法包括：

获取所述第一维度的历史样本数据以及所述预测模型的初始化参数；

根据所述第一维度的历史样本数据以及所述预测模型的初始化参数对所述降维模型进行训练，得到训练后的所述降维模型，

所述降维模型输出所述第一维度的历史样本数据对应的所述第二维度的历史样本数据。

具体的，训练得到第二机器学习模型以及第二机器学习模型的初始化参数W后，就可以利用获取所述第一维度的历史样本数据以及第二机器学习模型的初始化参数W结合随机梯度下降算法对第一机器学习进行训练，然后更新该第一机器学习模型，得到训练后的第一机器学习模型。

其中，所述第一机器学习模型包括监督层以及损失函数层，其中，所述监督层利用所述第一机器学习模型中初始化参数做前向预测，所述损失函数层计算经过所述监督层预测的所述候选对象的预测结果与所述候选对象的真实得分之间的差异。

通过上述训练方式以及利用第二机器学习模型中的初始化参数W进行训练，第一机器学习模型可以自动的对高维特征进行寻优和融合，以使得第二机器学习模型可以支持的特征空间维度扩展到无穷维，使其效果能够趋近于理论上界。

而本说明书实施例中，进行特征降维的第一机器学习模型以及进行预测的第二机器学习模型均为通过上述方法训练得到的第一机器学习模型和第二机器学习模型。

本说明书另一实施例中，若进行第一机器学习模型以及第二机器学习模型训练时，不存在历史样本数据，则对第一机器学习以及第二机器学习模型进行训练，具体实现方式如下：

确定所述第二机器学习模型，且为所述第二机器学习模型设置初始化参数；

确定所述第一机器学习模型，基于所述初始化参数对所述第一机器学习模型进行训练，所述第一机器学习模型对所述第二机器学习的输入进行降维。

具体的，先确定一个第二机器学习模型，然后根据现有技术对该第二机器学习模型中的参数进行随机初始化，然后使得第一机器学习模型基于该初始化参数进行训练，得到一个训练后的第一机器学习模型进行上线服务。

本说明书实施例中，通过上述方式获得的第一机器学习模型也可以实现对高维特征的降维，使得第二机器学习模型基于降维后的目标特征对每个候选元素的得分的进行快速预测。

而在另外一种可实现方案中，在不存在历史样本数据的情况下，还可以基于相似的历史样本数据对第一机器学习模型以及第二机器学习模型进行初始训练，例如可以获取相似领域的历史数据样本对第一机器学习模型以及第二机器学习模型进行初始训练，本说明书实施例对此不作任何限定。

具体实施时，根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，即可以理解为根据上述任一种方式获得的降维模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，初始特征中的维度数量m大于目标特征中的维度数量d。

步骤208：将所述目标特征输入第二机器学习模型，得到所述候选对象的预测结果。

具体的，采用通过上述方式训练得到的第二机器学习模型，将降维后的目标特征输入该第二机器学习模型中，即可得到每个候选对象的预测结果，其中，该预测结果即可表示用户针对候选对象的喜爱程度。

本说明书另一实施例中，所述第一机器学习模型包括多层感知机模型、卷积神经网络模型、深度神经网络模型或图卷积神经网络模型；

所述第二机器学习模型包括上下文赌博机模型。

步骤210：将预测结果满足预设条件的候选对象推荐给所述用户。

其中，所述预设条件可以根据实际应用场景中应用方的需求进行设置，例如所述推荐方法应用在视频封面推荐场景中，由于视频封面只需要一张即可，那么该预设条件则可以为预测结果最高的一张视频封面。

那么将预测结果满足预设条件的候选对象推荐给所述用户，则是将预测结果最高的一张视频封面推荐给所述用户。

而所述推荐方法应用在手机应用程序推荐场景中，则预设条件可以为按照降序排序后，取排序在前10个的手机应用程序；那么将预测结果满足预设条件的候选对象推荐给所述用户，则是将预测结果最高前10个手机应用程序推荐给所述用户。

本说明书实施例提供的所述推荐方法，在不降低在线学习的第二机器学习模型的实时效率的基础上，通过第一机器学习模型自动地对高维特征进行寻优和融合，使得第二机器学习模型支持的特征空间维度扩展到无穷维，在获取高维特征的情况下，通过第二机器学习模型快速准确的获得候选对象的预测结果。

本说明书另一实施例中，将预测结果满足预设条件的候选对象推荐给所述用户后，还会基于用户对推荐的候选对象的行为反馈信息对降维模型和预测模型进行循环训练，使得预测模型可以基于已学习的高维特征到低维特征的映射函数，依靠在线的每一条用户的行为反馈信息，快速学习到用户的兴趣；并且使得降维模型根据已学习的低维特征映射到用户的兴趣的预测函数，学习更加合适的高维特征到低维特征的映射函数，保证在线的预测模型的参数与降维模型中的多层感知参数互相补充地进行训练，获取更优的预测模型以及降维模型，具体实现方式如下：

所述将预测结果满足预设条件的候选对象推荐给所述用户之后，还包括：

接收所述用户针对所述预测结果满足预设条件的候选对象的行为反馈信息。

其中，所述行为反馈信息为所述用户针对推荐的所述预测结果满足预设条件的候选对象的点击、购买和/或放弃行为；例如用户看到推荐的候选对象后，按照自己的兴趣对推荐的候选对象列表中的某一个或几个候选对象(例如商品)进行点击或者放弃本次推荐的所有候选元素，再次发起访问请求。

本说明书实施例中，接收所述用户针对所述预测结果满足预设条件的候选对象的行为反馈信息，其行为反馈信息会被反馈收集器处理，后续会将该行为反馈信息与原始的高维特征结合后对本说明书实施例的第一机器学习模型以及第二机器学习模型进行重新迭代训练，以获得更为精确的第一机器学习模型以及第二机器学习模型。

具体实施时，在接收到用户针对被推荐的候选对象的行为反馈信息后，关联到系统决策当时的原始高维特征，即启动对预测模型的重新训练过程，以加强预测模型的预测效果，具体实现方式如下所述：

所述接收所述用户针对所述预测结果满足预设条件的候选对象的行为反馈信息之后，还包括：

基于所述行为反馈信息对所述初始特征进行更新，得到更新初始特征；

根据所述降维模型对所述更新初始特征进行降维，得到更新目标特征；

基于所述更新目标特征对所述预测模型进行重新训练，得到重新训练后的预测模型以及所述重新训练后的预测模型的更新初始化参数。

具体的，基于用户实际的行为反馈对所述初始特征进行更新，得到高维的更新初始特征，再利用降维模型对该高维的更新初始特征进行降维，得到低维的更新目标特征，最后基于更新目标特征以及每个更新目标特征对应的标签，对预测模型进行重新训练，得到重新训练后的预测模型以及所述重新训练后的预测模型的更新初始化参数，其中，每个更新目标特征对应的标签为候选元素的真实得分。

实际应用中，更新初始特征中包括原始的高维的初始特征以及基于用户的行为反馈信息增加的新的高维的初始特征，采用这种特征累加的方式获得更细粒度的高维的训练数据样本，使得预测模型的训练效果更好；具体的，更新初始特征的具体实现方式如下所述：

所述基于所述行为反馈信息对所述初始特征进行更新，得到更新初始特征包括：

基于所述行为反馈信息确定新增的所述用户的属性信息、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征，以得到新增初始特征；

将所述新增初始特征与所述初始特征进行叠加，以得到所述更新初始特征。

具体的，在接收到用户针对被推荐的候选对象的行为反馈信息后，关联到决策系统原始的高维的初始特征后，然后通过上述方式进行叠加形成更新初始特征，再通过降维模型的降维得到低维的更新目标特征；而实际应用中，也可以不通过降维模型的降维得到低维的更新目标特征，例如在线决策时已动态的将更新初始特征对应的更新目标特征写入数据库中，那么实际应用时，直接选取更新目标特征对预测模型进行重新训练即可。

本说明书另一实施例中，所述基于所述更新目标特征对所述预测模型进行重新训练，得到重新训练后的预测模型以及所述预测模型的更新初始化参数之后，还包括：

判断t是否大于d²并且t是否大于n，

若是，则根据所述更新初始特征以及所述更新初始化参数对所述降维模型进行训练，得到重新训练后的降维模型。

其中，t为访问请求的次数，d为目标特征的维度个数，n为候选元素的个数。

具体的，在接收到用户针对被推荐的候选对象的行为反馈信息后，采用上述方式对预测模型进行一次重新训练，得到重新训练后的预测模型的更新初始化参数，然后判断t是否大于d²并且t是否大于n，若是，则启动对降维模型的重新训练过程，根据所述更新初始特征以及所述更新初始化参数对所述降维模型进行训练，得到重新训练后的降维模型，然后对所述推荐方法中实际应用的降维模型进行更新；即预测模型的重新训练的结束条件以及降维模型重新训练的启动条件为：t是否大于d²并且t是否大于n；实际应用中，通过经验来看，降维模型要获得较高质量的降维编码效果，需要与所使用参数个数成10倍关系的训练样本数据，由于1次的访问请求只能收集一条训练样本数据，由此可计算出所需要的至少收敛轮数，因此需要预测模型在达到上述条件只会，才会触发降维模型进行批数据的离线训练过程，以使得降维模型获得较高质量的降维编码效果。

而判断t是否大于d²并且t是否大于n，若否的情况下，则将t自增1，继续执行所述接收第t个访问请求的步骤。

具体的，在t小于等于d²并且t小于等于n的情况下，不满足预测模型的停止训练条件，此时就会继续获取下一条访问请求，即将t自增1，继续接收第t个访问请求，例如原始的t为1，则自增1后的t为2，即继续接收第2个访问请求，该第2个访问请求中依然携带有用户的用户标识，通过该用户标识获取高维的初始特征，通过更新后的降维模型对该高维的初始特征进行降维，获得低维的目标特征，再将该低维的目标特征输入更新后的预测模型，得到每个候选元素的预测结果，然后将预测结果满足预测条件的候选对象推荐给用户，继续基于用户的行为反馈信息对更新后的预测模型进行重新训练，直到满足t是否大于d²并且t是否大于n的条件后，才会结束上述处理步骤，启动基于批数据的降维模型的离线训练过程；

最后基于上述迭代训练的预测模型的所有高维的训练样本数据以及预测模型最终的固定的更新初始化参数对降维模型进行训练，得到训练后的降维模型。

本说明书实施例中，基于每一个访问请求对预测模型的在线学习过程，其主要目的在于固定降维模型的参数，以及在线学习的低维的目标特征到用户对候选对象兴趣的映射函数，使得用户的兴趣可以被精准地预测，候选对象可以被精准区分；而基于批数据(即达到t是否大于d²并且t是否大于n的条件之前累计的训练样本数据)对降维模型的离线学习过程，其主要目的在于固定在线学习的预测模型的初始化参数，学习更好的高维的初始特征到低维的目标特征的映射函数；

基于用户的行为反馈信息对预测模型进行流数据(每条访问请求训练一次)在线训练以及对降维模型进行批数据的离线训练保证预测模型的参数与降维模型的多层感知参数相互补充地进行训练，在不降低预测模型的实时效率的基础上，通过降维模型自动地对高维的初始特征进行寻优和融合，使得其效果能够趋近于理论上界，且降维模型可以高效地建模特征与反馈间的非线性关系，使得预测模型可以支持的特征空间维度扩展到无穷维。

参见图3，图3示出了本说明书一个实施例提供的一种推荐方法的应用在具体系统的系统部署示意图。

如图3所示，除用户实体外，所述推荐方法应用的具体系统主要包括两部分，一部分为在线决策，其涉及组件包括高维特征获取器、深度编码器(即上述第一机器学习模型或降维模型)、上下文赌博机(即上述第二机器学习模型或预测模型)以及反馈收集器；另一部分为联合学习机制，其涉及组件包括深度编码器离线训练器以及在线学习组件。

以下将本说明书实施例的所述推荐方法应用于该具体系统进行详细说明。

步骤一：用户以请求串的形式访问该系统，例如用户打开某购物网站，该购物网站即会生成一个请求串发送至该系统服务器，该请求串中携带有用户标识符(ID)和其他一些上下文环境参数。

步骤二：系统的高维特征获取器基于请求串中的用户标识符查询数据库，获取与该用户相关信息，候选元素基础信息，用户与每个候选元素交叉组合信息，其中，用户相关信息具体可参见上述用户的属性特征，候选元素基础信息具体可参见上述候选对象的对象特征，用户与每个候选元素交叉组合信息具体可参见上述用户与候选对象的交叉组合特征，而候选元素包括但不限于自然语言文本类，图像像素类和地理位置信息等异构信息，把上述信息拼接起来即可得到反映本次访问请求上下文信息的原始高维特征向量(X_(a,t))，而如果将所有候选元素的原始高维特征拼接起来，即可得到一个n*m维矩阵，n是候选元素个数，而m即为X(a,t)的维度。

步骤三：将原始高维特征向量(X_(a,t))传入深度编码器，该深度编码器内部有多层感知参数，通过非线性变换将原始高维特征向量(X_(a,t))的维度降至固定的d维的低维特征向量(V_(a,t))中，而d远小于m。

步骤四：将步骤三得到的低维特征向量(V_(a,t))传递给上下文赌博机，上下文赌博机的在线决策评估函数基于低维特征向量(V_(a,t))对每个候选元素进行在线打分，例如通过基于岭回归的置信区间上界方法来对每个候选元素进行决策评估，然后在所有打分后的候选元素中，选择1个或k个返回给用户，作为推荐结果，而实际选择候选元素的个数根据实际应用中应用方的需求设定，在此不做任何要求，其中，所述上下文赌博机的在线决策评估函数，按照不同的上下文赌博机算法，可能存在差异，本说明书实施例中不做任何限制，可以适用于任何基于模型特征的上下文赌博机算法。

步骤五：用户接收到推荐结果后，按照自己的兴趣对结果进行反馈，例如点击推荐结果列表中的某一个商品或者放弃本次结果再次发起访问请求；用户的反馈行为会被反馈收集器处理，并分别按照流式方式将流式样本传入联合学习机制的在线学习组件中，以及按照批处理方式将批样本传入联合学习机制的深度编码器离线训练器中，该联合学习机制保证在线模型参数(上下文赌博机所涉及的模型参数)和深度编码器中的多层感知参数相互补充地进行训练，上下文赌博机负责基于已学习的高维特征到低维在线特征向量的映射函数，依靠在线的每一条用户反馈，快速学习到用户的兴趣，而深度编码器根据已学习的低维特征映射到用户兴趣的预测函数，学习更加合适的高维特征向量到低维特征向量的映射函数。

该系统在采用本说明书实施例提供的推荐方法可以在不降低在线的上下文赌博机算法的实时效率的基础上，通过深度编码器自动地对高维特征进行寻优和融合，使得其效果能够趋近于理论上界，且深度编码器可以高效地建模特征与反馈间的非线性关系，该方法理论上可以使得在线的上下文赌博机算法支持的特征空间维度扩展到无穷维。

而上下文赌博机以及深度编码器基于上述联合学习机制进行在线以及离线训练的具体过程参见图4，图4示出了本说明书一个实施例提供的一种推荐方法中上下文赌博机以及深度编码器的具体在线以及离线训练的示意图。

由图4可知，整个联合学习机制包括两部分，一部分为基于批数据对深度编码器的离线学习过程，其主要目的在于固定在线学习的上下文赌博机的初始化参数W，学习更好的高维特征到低维特征的映射函数，即深度编码器；第二部分为基于流数据对上下文赌博机的在线学习过程，其主要目的在于固定深度编码器的参数，在线学习低维特征到用户对候选元素兴趣的映射函数，使得用户的兴趣可以被精准地预测，候选元素可以被精准区分。

首先对基于流数据对上下文赌博机的在线学习过程进行详细介绍。

步骤一：具体实施时，反馈收集器收集到一条用户反馈后，关联到上述系统的在线决策的原始高维特征向量X_(a,t)后，即启动基于流数据对上下文赌博机的在线学习过程。

步骤二：将步骤一得到的原始高维特征X_(a,t)经由深度编码器处理后，得到低维特征向量V_(a,t)，然后将低维特征向量V_(a,t)输入上下文赌博机的在线学习器所涉及的过程进行学习更新，得到更新后的初始化参数W，而此处所利用的上下文赌博机的在线学习器，支持按照选用的算法不同，而采用不同的在线学习器，此外可以使用Woodbury公式，降低矩阵求逆的计算负载度至平方级别，而非三次方级别；而在实际应用中，对上下文赌博机进行在线学习的V(a,t)也可以不通过深度编码器运算得到，例如在在线决策时已动态将上述原始高维特征向量X_(a,t)对应的低维特征向量V_(a,t)写入数据库，那么在此步骤中可直接选取使用即可。

步骤三：利用更新后的初始化参数W更新图3中的上下文赌博机组件，并判断t是否大于d²并且t是否大于n，若是，则启动基于批数据对深度编码器的离线学习过程；若否，则重复步骤一和步骤二，直到t＞d²并且t＞n，(其中，t为用户的访问请求次数，n为候选元素个数，d为降维后的低维特征向量的维度)。

然后在t＞d²并且t＞n的条件下，启动基于批数据对深度编码器的离线学习过程，具体实现方式如下：

步骤一：从已训练的在线学习过程中获取上下文赌博机中模型初始化参数W(该W在初始化时可随机生成)，具体的，W通常涉及两类参数，一类是预测候选元素用户偏好反馈(reward)的模型参数，另一类是计算置信区间上界的参数，而不同上下文赌博机算法可能不同。

步骤二：用前T轮批数据(即请求日志中所涉及的原始高维特征与用户实际反馈的数据所组成的历史训练样本数据集)，利用随机梯度算法(SGD)或其他优化算法，对深度编码器中所涉及的参数进行迭代训练，直到收敛。

步骤三：获得训练后的新深度编码器模型，并更新图3中的深度编码器。

具体的，图4中的深度编码器包括监督层以及损失函数层，其中，监督层是利用上下文赌博机中参数W所构建的预测层，并且监督层只做前向预测过程，不需做反向梯度更新过程，即在整个基于批数据对深度编码器的离线学习过程，W保持不变；而损失函数层选择的损失函数为均方根误差(RMSE)/均方误差(MSE)，其计算的是经过监督层预测的所输入候选元素的用户偏好反馈的期望值与实际用户产生的反馈的真实值之间的差异。

实际使用中，深度编码器可采用任何深度网络进行构建，在此不做任何限制，例如可以支持的常见结构有DNN，CNN，GCN，MLP等；并且深度编码器的输出V(a,t)的维度在这个训练过程中，是恒定的d维向量，且维度远小于X_(a,t)的维度。

本说明书实施例中，所述推荐方法将融合深度编码器对原始高维特征进行自动化编码，得到一个比原始高维特征维度低很多的低维特征，基于该低维特征构建在线上下文赌博机模型；通过上述的深度编码器和上下文赌博机的联合学习机制，可以融合在线与离线的学习过程，自动学习得到更准确且维度足以支持在线效果的特征向量，进而在不降低上下文赌博机算法的实时效率的基础上，通过深度编码器自动地对高维特征进行寻优和融合，且打破特征与反馈之间的线性关系假设，建模复杂的非线性关系，使得其效果能够趋近于理论上界；所述推荐方法理论上可以使得上下文赌博机的算法支持的特征空间维度扩展到无穷维。

实际应用中，所述推荐方法可以看做一个在线决策选择问题，可以描述为给定一个候选集合，该候选集合中包含n个候选元素，需要从n个候选元素中选择k个候选元素进行排序，最后按照排序结果在页面展示选择的这k个元素。具体实施时，一个选择问题的实例可以被称为一个机器(machine)，而其中的候选元素可以被称为臂(Arm)，用户会按照自身兴趣等因素对展示出的臂做反馈，例如在具体应用中，用户点击了展示出的一个臂，那么称之为正向反馈，而投诉了展示出的一个臂，那么称之为负向反馈，一组上述展示与反馈过程称为一次实验。针对这个问题的解，通常为一个在线优化算法(即在线学习，OnlineLearning)，该算法目标是在迭代顺序进行上述展示与反馈过程进行n轮实验后，其所能达到的累计后悔度(Regret)最小化，即其与累计最大值(最大正向反馈)之间的差距最小化，以此来最大化正向反馈。通常每轮实验后，该算法都会按照该轮用户的反馈，刷新(重新训练)决策模型(即上述降维模型以及预测模型)，以达到算法目标，因此称为在线算法，而所述推荐方法基于此在线算法的实现候选元素的合理准确推荐。

具体的，将上述推荐方法应用在某视频app软件的视频首图素材推荐系统中进行详细描述。

该视频app中存在多个视频，这些视频一般拥有很多海报图以及视频情节截图，这些图片可作为视频封面图呈现给用户，由于不同用户的兴趣不同，对不同类别的封面图的喜好也不同，展示出用户喜欢的、感兴趣的封面图可以提升视频的点击率，以及视频观看时长，因此可以采用本说明书实施例提供的视频封面推荐方法，在n张不同封面图中，选择最合适的封面图呈现给用户。

实际应用中，将每张图看成一个arm，而每个视频包含一组候选图，即为一个machine。系统负责从每组候选图中选择一个候选图展示给用户，用户看到候选图后，如果用户点击观看，则可以看作一个正反馈，时长作为反馈的量化指标，如果用户不点击，则反馈为0。

具体的，针对每个图片，高维特征包括了如下三个部分：(1)请求的上下文环境参数，例如用户已观看视频类目、历史所点击的封面图种类等(2)图片与用户的静态特征，例如图片中的图像元素、创作人、用户的姓名以及用户地址等(3)图片与用户的交叉组合特征，然后将上述三部分的特征进行拼接形成高维特征X_(a,t)，例如高维特征为5000维。

然后系统选用的深度编码器采用Wide-deep网络，Wide-deep网络结合16-ResNet构建得到，将上述的高维特征X_(a,t)经过深度编码器编码后得到d维的低维特征V_(a,t)，其中，d＝100维，其中，深度编码器的监督层利用岭回归的W、X(a,t)进行前向预测，损失函数层采用均方根误差RMSE。

最后将低维特征V_(a,t)输入选用基于岭回归的上下文赌博机中对n张不同封面图分别进行得分预测，然后将得分最高的封面图推荐给用户。

具体实施时，该系统冷启动时深度编码器中的参数随机初始化，若已存在1000条历史数据集，初始化时，先利用该历史数据集对上下文赌博机中的参数进行离线训练，即可得到上下文赌博机的初始参数W；然后结合随机梯度下降算法对深度编码器进行离线批处理训练，在训练过程中固定上下文赌博机的参数W，可得到一个预训练的深度编码器。

而系统上线后的行为为：假设存在10000条访问请求，在第0到10000(100*100)条访问请求过程中，利用基于流数据的上下文赌博机的在线学习过程，在固定深度编码器的基础上，不断调优上下文赌博机的参数，直到第10000条请求处理完毕，启动基于批数据的深度编码器的离线学习过程，在上下文赌博机所涉及的参数W不变的情况下，利用1000条的历史数据集以及10000的在线得到的增量数据集对深度编码器进行重训练，然后更新深度编码器后，再处理10000条数据，然后按照上述方式不断迭代下去即可。

本说明书实施例的实际效果中，在线请求和学习的系统(即应用在线以及离线结合的推荐方法的系统)的延迟与单纯用100维的上下文赌博机相比，没有额外延迟，但是能够不断优化其所基于的特征向量，因此其效果比单纯的上下文赌博机的累计后悔度低很多。

参见图5，图5示出了本说明书一个实施例提供的一种视频封面推荐方法，包括步骤502至步骤510。

步骤502：接收针对视频封面的推荐请求，其中，所述推荐请求中携带有用户的用户标识。

步骤504：基于所述用户标识获取所述用户的属性特征、针对所述用户的n个视频图像的图像特征、所述用户与所述视频图像的交叉组合特征，以得到包括m个维度的初始特征。

步骤506：根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d。

步骤508：将所述目标特征输入上下文赌博机模型，得到所述视频图像的预测结果。

步骤510：将预测结果满足预设条件的视频图像作为视频封面推荐给所述用户。

其中，本说明书实施例中的用户的属性特征、视频图像的图像特征、用户与视频图像的交叉组合特征均可以参见上述实施例的具体介绍，使用的深度编码器以及上下文赌博机模型均为通过上述方式迭代训练得到的较优的深度编码器以及上下文赌博机模型，在此不再赘述。

具体的，将上述实施例的推荐方法应用在视频封面推荐中，在接收到针对视频封面的推荐请求后，首先将获取的高维的初始特征通过离线训练得到的深度编码器降维为低维的目标特征，最后将目标特征输入在线训练得到的上下文赌博机中获得每个视频图像的预测结果，然后将预测结果最高的视频图像作为视频封面推荐给所述用户，通过该主动推荐的方式可以避免用户因为频繁的对视频图像进行搜索查找而产生的不必要的搜索请求，减轻视频网站或视频app服务器的负担，且可以提高用户体验效果。

参见图6，图6示出了本说明书一个实施例提供的一种应用程序推荐方法，包括步骤602至步骤610。

步骤602：接收针对应用程序的推荐请求，其中，所述推荐请求中携带有用户的用户标识。

步骤604：基于所述用户标识获取所述用户的属性特征、针对所述用户的n个应用程序的属性特征、所述用户与所述应用程序的交叉组合特征，以得到包括m个维度的初始特征。

步骤606：根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d。

步骤608：将所述目标特征输入上下文赌博机模型，得到所述应用程序的预测结果。

步骤610：将预测结果满足预设条件的应用程序作为目标应用程序推荐给所述用户。

其中，本说明书实施例中的用户的属性特征、应用程序的属性特征、用户与应用程序的交叉组合特征均可以参见上述实施例的具体介绍，使用的深度编码器以及上下文赌博机模型均为通过上述方式迭代训练得到的较优的深度编码器以及上下文赌博机模型，在此不再赘述。

具体的，将上述实施例的推荐方法应用在应用程序推荐中，在接收到针对应用程序的推荐请求后，首先将获取的高维的初始特征通过离线训练得到的深度编码器降维为低维的目标特征，最后将目标特征输入在线训练得到的上下文赌博机中获得每个应用程序的预测结果，然后将预测结果满足预设条件(例如得分前10)的应用程序作为目标应用程序推荐给所述用户，通过该主动推荐的方式可以提高应用程序的用户下载使用率，提高推荐的应用程序的曝光度。

参见图7，图7示出了本说明书一个实施例提供的一种商品推荐方法，包括步骤702至步骤710。

步骤702：接收针对商品的推荐请求，其中，所述推荐请求中携带有用户的用户标识。

步骤704：基于所述用户标识获取所述用户的属性特征、针对所述用户的n个商品的属性特征、所述用户与所述商品的交叉组合特征，以得到包括m个维度的初始特征。

步骤706：根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d。

步骤708：将所述目标特征输入上下文赌博机模型，得到所述商品的预测结果。

步骤710：将预测结果满足预设条件的商品推荐给所述用户。

其中，本说明书实施例中的用户的属性特征、商品的属性特征、用户与商品的交叉组合特征均可以参见上述实施例的具体介绍，使用的深度编码器以及上下文赌博机模型均为通过上述方式迭代训练得到的较优的深度编码器以及上下文赌博机模型，在此不再赘述。

具体的，将上述实施例的推荐方法应用在商品推荐中，在接收到针对商品的推荐请求后，首先将获取的高维的初始特征通过离线训练得到的深度编码器降维为低维的目标特征，最后将目标特征输入在线训练得到的上下文赌博机中获得每个商品的预测结果，然后将预测结果满足预设条件(例如得分前20)的商品作为目标商品推荐给所述用户，通过该主动推荐的方式可以减少用户没有针对性的频繁搜索，减轻服务器的负担，增加工作效率且可以提升用户体验。

此外，本说明书实施例提供的推荐方法还可以应用在对手机上网方式的选择上，例如手机的上网方式存在3G，4G，Wifi等，可以在同一时间，采用上述的推荐方法选择合适的上网方式实现数据传输。

参见图8，图8示出了本说明书一个实施例提供的第二种推荐方法，包括以下步骤：

步骤802：基于调用方的调用请求为所述调用方展示目标输入界面。

其中，调用方包括但不限于商户或个体经营者。

实际应用中，所述推荐方法应用于服务端，在接收调用方的调用请求后，首先为调用方展示目标输入界面，以提示调用方输入合理的需求参数，例如下述的用户标识以及候选对象等。

步骤804：接收所述调用方通过所述目标输入界面生成的第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数。

步骤806：基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征。

步骤808：根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到。

步骤810：将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果。

步骤812：将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

本说明书实施例提供的推荐方法，在接收调用方的调用请求后，首先为调用方展示目标输入界面，使得调用方可以基于该目标输入界面生成访问请求，然后对调用方的访问请求进行处理，以实现为调用方的用户快速准确的推荐候选对象。

参见图9，图9示出了本说明书一个实施例提供的第三种推荐方法，包括以下步骤：

步骤902：接收调用方发送的接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数。

其中，调用方包括但不限于商户或个体经营者。

实际应用中，所述推荐方法应用于服务端，且为调用方提供调用API接口，调用方可以直接利用该API接口调用所述推荐方法。

步骤904：基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征。

步骤906：根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到。

步骤908：将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果。

步骤910：将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

本说明书实施例提供的推荐方法应用于本地服务端，且为调用方提供API接口，在接收到调用发送的API调用请求后，所述数据处理方法接收调用方发送的访问请求，然后根据访问请求中携带的用户标识以及候选对象通过所述推荐方法快速准确的为调用方的用户推荐候选对象，并将所述候选对象返回至调用方，以提升用户体验。

与上述方法实施例相对应，本说明书还提供了第一种推荐装置实施例，图10示出了本说明书一个实施例提供的第一种推荐装置的结构示意图。如图10所示，该装置包括：

第一请求接收模块1002，被配置为接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识，且t为正整数；

第一高维特征获得模块1004，被配置为基于所述用户标识获取包括m个维度的初始特征；

第一低维特征获得模块1006，被配置为根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

第一预测模块1008，被配置为将所述目标特征输入第二机器学习模型，得到所述候选对象的预测结果；

第一推荐模块1010，被配置为将预测结果满足预设条件的候选对象推荐给所述用户。

可选的，所述第二机器学习模型包括预测模型；

相应的，所述预测模型的训练方法包括：

可选的，所述第一机器学习模型包括降维模型；

相应的，所述降维模型的训练方法包括：

可选的，所述装置，还包括：

反馈信息接收模块，被配置为接收所述用户针对所述预测结果满足预设条件的候选对象的行为反馈信息。

可选的，所述装置，还包括：

初始特征获得模块，被配置为基于所述行为反馈信息对所述初始特征进行更新，得到更新初始特征；

目标特征获得模块，被配置为根据所述降维模型对所述更新初始特征进行降维，得到更新目标特征；

第一重新训练模块，被配置为基于所述更新目标特征对所述预测模型进行重新训练，得到重新训练后的预测模型以及所述重新训练后的预测模型的更新初始化参数。

可选的，所述初始特征获得模块，进一步被配置为：

可选的，所述装置，还包括：

判断模块，被配置为判断t是否大于d²并且t是否大于n，

第二重新训练模块，被配置为若是，则根据所述更新初始特征以及所述更新初始化参数对所述降维模型进行训练，得到重新训练后的降维模型。

可选的，所述装置，还包括：

执行模块，被配置为在判断t是否大于d²并且t是否大于n的结果为否的情况下，将t自增1，继续执行所述接收第t个访问请求的步骤。

可选的，所述装置，还包括：

第一初始化模块，被配置为确定所述第二机器学习模型，且为所述第二机器学习模型设置初始化参数；

第二初始化模块，被配置为确定所述第一机器学习模型，基于所述初始化参数对所述第一机器学习模型进行训练，所述第一机器学习模型对所述第二机器学习的输入进行降维。

可选的，所述第一机器学习模型包括多层感知机模型、卷积神经网络模型、深度神经网络模型或图卷积神经网络模型；

所述第二机器学习模型包括上下文赌博机模型。

可选的，所述第一机器学习模型包括监督层以及损失函数层，其中，所述监督层利用所述第一机器学习模型中初始化参数做前向预测，所述损失函数层计算经过所述监督层预测的所述候选对象的预测结果与所述候选对象的真实得分之间的差异。

可选的，所述候选对象包括视频封面、手机应用程序、网络连接方式和/或商品。

上述为本实施例的第一种推荐装置的示意性方案。需要说明的是，该目标数据确定装置的技术方案与上述的第一种推荐方法的技术方案属于同一构思，推荐装置的技术方案未详细描述的细节内容，均可以参见上述第一种推荐方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了视频封面推荐装置实施例，图11示出了本说明书一个实施例提供的一种视频封面推荐装置的结构示意图。

如图11所示，该装置包括：

第二请求接收模块1102，被配置为接收针对视频封面的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

第二高维特征获得模块1104，被配置为基于所述用户标识获取所述用户的属性特征、针对所述用户的n个视频封面的图像特征、所述用户与所述视频封面的交叉组合特征，以得到包括m个维度的初始特征；

第二低维特征获得模块1106，被配置为根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

第二预测模块1108，被配置为将所述目标特征输入上下文赌博机模型，得到所述视频封面的预测结果；

第二推荐模块1110，被配置为将预测结果满足预设条件的视频封面推荐给所述用户。

上述为本实施例的一种视频封面推荐装置的示意性方案。需要说明的是，该视频封面推荐装置的技术方案与上述的视频封面推荐方法的技术方案属于同一构思，视频封面推荐装置的技术方案未详细描述的细节内容，均可以参见上述视频封面推荐方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了应用程序推荐装置实施例，图12示出了本说明书一个实施例提供的一种应用程序推荐装置的结构示意图。

如图12所示，该装置包括：

第三请求接收模块1202，被配置为接收针对应用程序的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

第三高维特征获得模块1204，被配置为基于所述用户标识获取所述用户的属性特征、针对所述用户的n个应用程序的属性特征、所述用户与所述应用程序的交叉组合特征，以得到包括m个维度的初始特征；

第三低维特征获得模块1206，被配置为根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

第三预测模块1208，被配置为将所述目标特征输入上下文赌博机模型，得到所述应用程序的预测结果；

第三推荐模块1210，被配置为将预测结果满足预设条件的应用程序推荐给所述用户。

上述为本实施例的一种应用程序推荐装置的示意性方案。需要说明的是，该应用程序推荐装置的技术方案与上述的应用程序推荐方法的技术方案属于同一构思，应用程序推荐装置的技术方案未详细描述的细节内容，均可以参见上述应用程序推荐方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了商品推荐装置实施例，图13示出了本说明书一个实施例提供的一种商品推荐装置的结构示意图。如图13所示，该装置包括：

第四请求接收模块1302，被配置为接收针对商品的推荐请求，其中，所述推荐请求中携带有用户的用户标识；

第四高维特征获得模块1304，被配置为基于所述用户标识获取所述用户的属性特征、针对所述用户的n个商品的属性特征、所述用户与所述商品的交叉组合特征，以得到包括m个维度的初始特征；

第四低维特征获得模块1306，被配置为根据深度编码器对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d；

第四预测模块1308，被配置为将所述目标特征输入上下文赌博机模型，得到所述商品的预测结果；

第四推荐模块1310，被配置为将预测结果满足预设条件的商品推荐给所述用户。

上述为本实施例的一种商品推荐装置的示意性方案。需要说明的是，该商品推荐装置的技术方案与上述的商品推荐方法的技术方案属于同一构思，商品推荐装置的技术方案未详细描述的细节内容，均可以参见上述商品推荐方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了第二种推荐装置实施例，图14示出了本说明书一个实施例提供的第二种推荐装置的结构示意图。如图14所示，该装置包括：

界面确定模块1402，被配置为基于调用方的调用请求为所述调用方展示目标输入界面；

第五请求接收模块1404，被配置为接收所述调用方通过所述目标输入界面生成的第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数；

第五高维特征获得模块1406，被配置为基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征；

第五低维特征获得模块1408，被配置为根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

第五预测模块1410，被配置为将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果；

第五推荐模块1412，被配置为将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

上述为本实施例的第二种推荐装置的示意性方案。需要说明的是，该商品推荐装置的技术方案与上述的第二种商品推荐方法的技术方案属于同一构思，商品推荐装置的技术方案未详细描述的细节内容，均可以参见上述第二种商品推荐方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了第三种推荐装置实施例，图15示出了本说明书一个实施例提供的第三种推荐装置的结构示意图。如图15所示，该装置包括：

第六请求接收模块1502，被配置为接收调用方发送的接收第t个访问请求，其中，所述访问请求中携带有用户的用户标识以及针对所述用户的n个候选对象，且t为正整数；

第六高维特征获得模块1504，被配置为基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征；

第六低维特征获得模块1506，被配置为根据第一机器学习模型对所述初始特征进行降维，得到包括d个维度的目标特征，其中，m和d均为正整数，且m>d，所述第一机器学习模型基于第二机器学习模型的初始化参数训练得到；

第六预测模块1508，被配置为将所述目标特征输入所述第二机器学习模型，得到所述候选对象的预测结果；

第六推荐模块1510，被配置为将预测结果满足预设条件的候选对象通过所述调用方推荐给所述用户。

上述为本实施例的第三种推荐装置的示意性方案。需要说明的是，该商品推荐装置的技术方案与上述的第三种商品推荐方法的技术方案属于同一构思，商品推荐装置的技术方案未详细描述的细节内容，均可以参见上述第三种商品推荐方法的技术方案的描述。

图16示出了根据本说明书一个实施例提供的一种计算设备1600的结构框图。该计算设备1600的部件包括但不限于存储器1610和处理器1620。处理器1620与存储器1610通过总线1630相连接，数据库1650用于保存数据。

计算设备1600还包括接入设备1640，接入设备1640使得计算设备1600能够经由一个或多个网络1660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1600的上述部件以及图16中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图16所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1600还可以是移动式或静止式的服务器。

其中，处理器1620用于执行如下计算机可执行指令，所述处理器执行所述计算机可执行指令时实现任意一种所述推荐方法的步骤，或者实现所述视频封面推荐方法的步骤，或者实现所述应用程序推荐方法的步骤，或者实现所述商品推荐方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的推荐方法、或视频封面推荐方法、或的应用程序推荐方法、或商品推荐方法技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述推荐方法、或视频封面推荐方法、或的应用程序推荐方法、或商品推荐方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现任意一种所述推荐方法的步骤，或者实现所述视频封面推荐方法的步骤，或者实现所述应用程序推荐方法的步骤，或者实现所述商品推荐方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的推荐方法、或视频封面推荐方法、或的应用程序推荐方法、或商品推荐方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述推荐方法、或视频封面推荐方法、或的应用程序推荐方法、或商品推荐方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种推荐方法，包括：

基于所述用户标识获取包括m个维度的初始特征；

将所述目标特征输入所述第二机器学习模型，得到候选对象的预测结果；

将预测结果满足预设条件的候选对象推荐给所述用户。

2.根据权利要求1所述的推荐方法，所述第二机器学习模型包括预测模型；

相应的，所述预测模型的训练方法包括：

3.根据权利要求2所述的推荐方法，所述第一机器学习模型包括降维模型；

相应的，所述降维模型的训练方法包括：

4.根据权利要求3所述的推荐方法，所述将预测结果满足预设条件的候选对象推荐给所述用户之后，还包括：

5.根据权利要求4所述的推荐方法，所述接收所述用户针对所述预测结果满足预设条件的候选对象的行为反馈信息之后，还包括：

6.根据权利要求5所述的推荐方法，所述基于所述行为反馈信息对所述初始特征进行更新，得到更新初始特征包括：

7.根据权利要求5所述的推荐方法，所述基于所述更新目标特征对所述预测模型进行重新训练，得到重新训练后的预测模型以及所述预测模型的更新初始化参数之后，还包括：

判断t是否大于d²并且t是否大于n，

8.根据权利要求7所述的推荐方法，所述判断t是否大于d²并且t是否大于n之后，还包括：

若否，则将t自增1，继续执行所述接收第t个访问请求的步骤。

9.根据权利要求1所述的推荐方法，所述接收用户的第t条访问请求之前，还包括：

10.根据权利要求9所述的推荐方法，所述第一机器学习模型包括多层感知机模型、卷积神经网络模型、深度神经网络模型或图卷积神经网络模型；

所述第二机器学习模型包括上下文赌博机模型。

11.根据权利要求1-10任意一项所述的推荐方法，所述第一机器学习模型包括监督层以及损失函数层，其中，所述监督层利用所述第一机器学习模型中初始化参数做前向预测，所述损失函数层计算经过所述监督层预测的所述候选对象的预测结果与所述候选对象的真实得分之间的差异。

12.根据权利要求1所述的推荐方法，所述m个维度的初始特征包括所述用户的属性特征、针对所述用户的n个候选对象的对象特征、所述用户与所述候选对象的交叉组合特征。

13.根据权利要求1所述的推荐方法，所述候选对象包括视频封面、手机应用程序、网络连接方式和/或商品。

14.一种视频封面推荐方法，包括：

15.一种应用程序推荐方法，包括：

16.一种商品推荐方法，包括：

将预测结果满足预设条件的商品推荐给所述用户。

17.一种推荐方法，包括：

基于调用方的调用请求为所述调用方展示目标输入界面；

18.一种推荐方法，包括：

19.一种推荐装置，包括：

20.一种视频封面推荐装置，包括：

21.一种应用程序推荐装置，包括：

22.一种商品推荐装置，包括：

23.一种推荐装置，包括：

第五高维特征获得模块，被配置为基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征；

24.一种推荐装置，包括：

第六高维特征获得模块，被配置为基于所述用户标识以及针对所述用户的n个候选对象获取包括m个维度的初始特征；

25.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1至13、17、18任意一项所述推荐方法的步骤，或者实现权利要求14所述视频封面推荐方法的步骤，或者实现权利要求15所述应用程序推荐方法的步骤，或者实现权利要求16所述商品推荐方法的步骤。

26.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至13、17、18任意一项所述推荐方法的步骤，或者实现权利要求14所述视频封面推荐方法的步骤，或者实现权利要求15所述应用程序推荐方法的步骤，或者实现权利要求16所述商品推荐方法的步骤。