CN111260449B

CN111260449B - 一种模型训练的方法、商品推荐的方法、装置及存储介质

Info

Publication number: CN111260449B
Application number: CN202010097444.7A
Authority: CN
Inventors: 王绍蔚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2023-04-07
Anticipated expiration: 2040-02-17
Also published as: CN111260449A

Abstract

本申请公开了一种模型训练的方法、商品推荐的方法、装置及存储介质，用于人工智能领域。本申请方法包括：获取待训练属性信息集合；基于待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合；基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数；基于目标参数，得到商品概率信息确定模型。由于通过概率信息确定模型减小计算量，可以减少计算资源的消耗，减小用户请求的响应延迟，由此提升概率信息获取效率，从而提升商品推荐效率。

Description

一种模型训练的方法、商品推荐的方法、装置及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种模型训练的方法、商品推荐的方法、装置及存储介质。

背景技术

随着互联网的发展，商品推荐即可以在恰当的场景给用户推荐恰当的商品。常见的例如电子商务推荐，在互联网上给用户推荐各种商品，例如推荐新的上架的商品，打折的商品或者热销的商品。在电子商务的场景中，商品推荐通常是基于商品销售排行或者用户对商品的评价评分进行商品推荐，而缺乏对用户个性化推荐所需要使用的智能分析因素，因此在此情况下推荐给用户的商品并不是用户所需要或者喜欢的。

目前，知识蒸馏是一种通用的模型压缩加速方法，可以在点击预估与推荐模型的推理阶段，获取每个用户对于每个候选商品的概率信息，然后向用户推荐较好的概率信息所对应的商品。

然而，现有的知识蒸馏方法的操作对象是单个模型，当用户数量以及候选商品数量较大时，由于单个模型的离线以及在线的计算量较大，因此计算资源的消耗高，概率信息获取效率低，并且造成较高的用户请求的响应延迟，导致商品推荐效率低。

发明内容

本申请实施例提供了一种模型训练的方法、商品推荐的方法、装置及存储介质，当用户数量和候选商品数量较大时，可以通过概率信息确定模型可以减小计算量，减少计算资源的消耗，并减小用户请求的响应延迟，由此可以提升概率信息获取效率，从而提升商品推荐效率。

有鉴于此，本申请第一方面提供一种模型训练的方法，包括：

获取待训练属性信息集合，其中，待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息；

基于待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，其中，待训练商品概率信息集合包括至少一个待训练商品概率信息，待训练商品概率信息与待训练属性信息具有对应关系；

基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；

当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数；

基于目标参数，得到商品概率信息确定模型。

本申请第二方面提供一种商品推荐的方法，包括：

获取商品概率信息确定请求，其中，商品概率信息确定请求是由目标对象发送的；

基于商品概率信息确定请求，获取商品概率信息确定请求携带的目标对象所对应的用户属性信息；

基于用户属性信息，通过商品概率信息确定模型获取目标对象所对应的目标商品概率信息；

通过目标商品概率信息确定目标推荐商品。

本申请第三方面提供一种模型训练装置，包括：

获取模块，用于获取待训练属性信息集合，其中，待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息；

获取模块，还用于基于待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，其中，待训练商品概率信息集合包括至少一个待训练商品概率信息，待训练商品概率信息与待训练属性信息具有对应关系；

确定模块，用于基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；

确定模块，还用于当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数；

得到模块，用于基于目标参数，得到商品概率信息确定模型。

在一种可能的设计中，在本申请实施例的第三方面的一种实现方式中，

获取模块，具体用于：

获取待选择用户集合以及商品集合，其中，待选择用户集合包括M个用户，商品集合包括至少一个商品，M为大于1的整数，且每个待选择用户对应一个待训练用户属性信息，每个商品对应一个待训练商品属性信息；

根据待选择用户集合，获取用户集合，其中，用户集合包括N个用户，N为大于或等于1，且小于M的整数；

根据用户集合以及商品集合，获取待训练属性信息集合，其中，待训练属性信息集合包括N个待训练用户属性信息，以及至少一个待训练商品属性信息。

在一种可能的设计中，在本申请实施例的第三方面的另一实现方式中，

获取模块，具体用于：

基于待训练属性信息集合，通过原始推荐模型获取N个待训练商品概率信息；

根据N个待训练商品概率信息，获取待训练商品概率信息集合，其中，待训练商品概率信息集合包括N个待训练商品概率信息。

确定模块，具体用于：

基于待训练商品概率信息集合以及目标待训练商品概率信息集合，根据损失函数更新待训练商品概率信息确定模型的模型参数；

若损失函数达到收敛，则根据模型参数确定目标参数。

确定模块，具体用于：

根据待训练商品概率信息集合以及目标待训练商品概率信息集合，确定损失函数；

根据损失函数更新待训练商品概率信息确定模型的模型参数。

本申请第四方面提供一种商品推荐装置，包括：

获取模块，用于获取商品概率信息确定请求，其中，商品概率信息确定请求是由目标对象发送的；

获取模块，还用于基于商品概率信息确定请求，获取商品概率信息确定请求携带的目标对象所对应的用户属性信息；

获取模块，还用于基于用户属性信息，通过商品概率信息确定模型获取目标对象所对应的目标商品概率信息；

确定模块，用于通过目标商品概率信息确定目标推荐商品。

在一种可能的设计中，在本申请实施例的第四方面的一种实现方式中，商品推荐装置还包括发送模块，

发送模块，用于向目标客户端发送目标推荐商品，以使目标客户端展示目标推荐商品，其中，目标客户端为目标对象所使用的客户端。

本申请的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先可以获取到待训练属性信息集合，该待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息，然后基于该待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，该待训练商品概率信息集合包括至少一个待训练商品概率信息，并且待训练商品概率信息与待训练属性信息具有对应关系，再基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合，当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数，最后即可基于目标参数，得到商品概率信息确定模型。通过前述方式，因为基于待训练对象集合并通过原始推荐模型获取待训练商品概率信息集合，通过该待训练商品概率信息集合对待训练概率信息确定模型进行训练，得到的概率信息确定模型，而该概率信息确定模型能够将输入的概率信息确定请求中所携带的用户属性信息，输出为目标对象所对应的目标概率信息。因此到当用户数量和候选商品数量较大时，通过概率信息确定模型可以减小计算量，减少计算资源的消耗，并减小用户请求的响应延迟，由此可以提升概率信息获取效率，从而提升商品推荐效率。

附图说明

图1为本申请实施例中模型训练系统的一个架构示意图；

图2为本申请实施例中模型训练的方法一个实施例示意图；

图3为本申请实施例中模型训练的方法中对待训练商品概率信息确定模型进行训练的一个实施例示意图；

图4为本申请实施例中模型训练的方法一个流程示意图；

图5为本申请实施例中商品推荐的方法一个实施例示意图；

图6(A)为本申请实施例中商品推荐一个界面示意图；

图6(B)为本申请实施例中商品推荐另一界面示意图；

图6(C)为本申请实施例中商品推荐另一界面示意图；

图6(D)为本申请实施例中商品推荐另一界面示意图；

图7为本申请实施例中商品推荐的方法一个流程示意图；

图8为本申请实施例中模型训练装置一个实施例示意图；

图9为本申请实施例中商品推荐装置一个实施例示意图；

图10为本申请实施例中服务器一个实施例示意图；

图11为本申请实施例中服务器另一实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请实施例可以应用于电子商务、网页相关内容推荐、游戏商品推荐等场景，即可以在合适的场景中向用户推荐合适的商品或者网页信息。具体地，以应用于游戏商品推荐作为一个示例进行说明，而其中游戏可以包括但不限于手机游戏以及网页游戏，手机游戏又可以包括但不限于角色扮演游戏(role-playing game，RPG)，炮塔防御(towerdefence)游戏，多人在线战术竞技游戏(multiplayer online battle arena，MOBA)、即时战略游戏(real-time strategy game，RTS)、竞速游戏(racing game)以及射击游戏(shooter game，STG)。在以上各类游戏中以射击游戏中的枪战类游戏作为示例进行进一步说明，即目标用户可以对枪战类游戏商品进行购买或者在枪战类游戏过程中对枪战类游戏商品进行使用，由此可以记录目标用户在枪战类游戏中的相关枪战类商品信息，然后根据历史枪战类商品购买信息或者历史枪战类商品使用信息向目标用户推荐相关枪战类商品。

其次，以应用于电子商务作为另一示例进行说明，当目标用户在电子商务网站进行购物时，则可以依据目标用户的历史购买记录，向目标用户推荐相关商品。然而对于电子商务而言，商品以及用户数量都较多，因此通过本实施例中概率信息确定模型可以减小计算量，减小用户请求的响应延迟，由此可以提升商品推荐效率。再次，以应用于视频网页相关内容推荐作为另一示例进行说明，当目标用户浏览视频网站时，则可以记录目标用户搜索的视频信息，然后根据历史视频信息中所携带的关键字向目标用户推荐相关视频。对于视频网页而言，视频网页中包括有各种视频信息，因此通过本实施例中概率信息确定模型可以减少计算资源的消耗，由此减小用户请求的响应延迟，从而提升商品推荐效率。

可以理解的是，在实际应用中，本申请实施例还可以应用但不限于游戏道具推荐以及游戏相关内容推荐的场景。

目前，以应用于枪战类游戏中道具推荐的场景为示例进行说明，在该场景中，可以基于枪战类游戏道具的销售排行进行枪战类游戏商品推荐，但通过该方式的枪战类游戏道具推荐缺乏对用户个性化推荐所需要使用的智能分析因素，在此情况下推荐给用户的道具并不是用户所需要或者喜欢的。而知识蒸馏是一种通用的模型压缩加速方法，可以在点击预估与推荐模型的推理阶段，获取每个用户对于每个候选枪战类游戏道具的概率信息，然后向用户推荐较好的概率信息所对应的枪战类道具。然而，现有的知识蒸馏方法的操作对象是单个模型，当用户数量以及候选枪战类商品数量较大时，由于单个模型的离线以及在线的计算量较大，因此计算资源的消耗高，概率信息获取效率低，并且造成较高的用户请求的响应延迟，导致枪战类商品推荐效率低。

因此为了在上述各种场景中，提升商品推荐效率，本申请实施例提出了一种模型训练的方法，该方法应用于图1所示的模型训练系统，请参阅图1，图1为本申请实施例中模型训练系统的一个架构示意图，如图所示，模型训练系统中包括服务器和终端设备。而模型训练装置可以部署于服务器，也可以部署于具有较高计算力的终端设备，下面将以模型训练装置部署于服务器为示例进行介绍。

具体的，服务器在对模型进行训练之前，可以先获取到待训练属性信息集合，该待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息，然后基于该待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，该待训练商品概率信息集合包括至少一个待训练商品概率信息，并且待训练商品概率信息与待训练属性信息具有对应关系，再基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合，当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数，最后即可基于目标参数，得到商品概率信息确定模型。由于基于待训练对象集合并通过原始推荐模型获取待训练商品概率信息集合，通过该待训练商品概率信息集合对待训练概率信息确定模型进行训练，得到的概率信息确定模型，而该概率信息确定模型能够将输入的概率信息确定请求中所携带的用户属性信息，输出为目标对象所对应的目标概率信息。因此到当用户数量和候选商品数量较大时，通过概率信息确定模型可以减小计算量，减少计算资源的消耗，并减小用户请求的响应延迟，由此可以提升概率信息获取效率，从而提升商品推荐效率。

服务器和终端设备之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus，USB)闪存盘、移动硬盘或其他可移动存储介质等。

其中，图1中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备，也可以为监控设备、人脸识别设备等，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图2，图2为本申请实施例中模型训练的方法一个实施例示意图，如图所示，本申请实施例中模型训练的方法一个实施例包括：

101、获取待训练属性信息集合，其中，待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息；

本实施例中，模型训练装置首先可以获取到待训练属性信息集合，并且该待训练属性信息集合中可以包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息。其次，待训练属性信息集合可以为模型训练装置通过有线网络接收到的属性信息集合，也可以为模型训练装置本身存储的属性信息集合。

具体地，以应用于枪战类游戏中商品推荐的场景为示例进行说明，在该场景中，待训练用户属性信息可以包括但不限于用户注册枪战类游戏时所填写的人口学信息、用户的商品历史点击记录、用户的商品历史购买记录、用户所处的上下文、用户在枪战类游戏中的embedding向量以及用户在枪战类游戏中社交的embedding向量，其次，其中用户的人口学信息包括但不限于用户注册枪战类游戏时所填写的身份标识号(identity document，id)、用户的性别以及用户的年龄，用户所处的上下文包括但不限于用户进行游戏的日期、用户进行游戏的时间、用户正在进行游戏的上下文以及用户正在浏览的网页上下文。而待训练商品属性信息包括但不限于商品的内在属性、商品的外在属性以及商品的embedding向量，再进一步地，其中商品的内在属性包括但不限于商品的外观、商品的功能以及商品的时效，而商品的外在属性则包括但不限于商品的价格以及商品的折扣。

需要说明的是，模型训练装置可以部署于服务器，也可以部署于终端设备，本申请中以模型训练装置部署于服务器为例进行说明，然而这不应理解为对本申请的限定。

102、基于待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，其中，待训练商品概率信息集合包括至少一个待训练商品概率信息，待训练商品概率信息与待训练属性信息具有对应关系；

本实施例中，模型训练装置可以将步骤101所获取到的待训练属性信息集合作为原始推荐模型的输入，然后原始推荐模型输出待训练属性信息集合所对应的待训练商品概率信息集合，该商品概率信息集合包括至少一个待训练商品概率信息，待训练商品概率信息与待训练属性信息具有对应关系。

为了便于理解，以应用于枪战类游戏中商品推荐的场景，并且在该场景中以待训练属性信息集合为用户的枪战类商品历史购买记录集合，而该待训练属性信息集合包括用户1、用户2、用户3以及用户4的用户的枪战类商品历史购买记录，即可以包括用户用户1、用户2、用户3以及用户4对枪战类商品A、枪战类商品B以及枪战类商品C的历史购买记录为示例进行说明。将前述待训练属性信息集合作为原始推荐模型的输入，该原始推荐模型可以输出对于用户1而言枪战类商品A、枪战类商品B以及枪战类商品C的待训练商品概率信息1，对于用户2而言枪战类商品A、枪战类商品B以及枪战类商品C的待训练商品概率信息2，对于用户3而言枪战类商品A、枪战类商品B以枪战类及商品C的待训练商品概率信息3，以及对于用户4而言枪战类商品A、枪战类商品B以及枪战类商品C的待训练商品概率信息4，因此可以获取到包括有待训练商品概率信息1，待训练商品概率信息2，待训练商品概率信息3以及待训练商品概率信息4的待训练商品概率信息集合，该待训练商品概率信息集合中待训练商品概率信息与待训练属性信息相对应。

为了再进一步地理解前述对应关系，以待训练商品概率信息1为(0.1，0.5，0.4)，待训练商品概率信息2为(0.3，0.3，0.4)，待训练商品概率信息3为(0.4，0.1，0.5)以及待训练商品概率信息4为(0.7，0.2，0.1)为示例进行说明，则可以说明对于用户1而言枪战类商品B的购买概率最高，对于用户2而言枪战类商品C的购买概率最高，对于用户3而言枪战类商品C的购买概率最高，对于用户4而言枪战类商品A的购买概率最高。但应当理解，本实施中的示例仅用于理解本方案，具体待训练商品概率信息与待训练属性信息均应当结合实际情况灵活确定。

103、基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；

本实施例中，模型训练装置可以将步骤102所获取到的待训练商品概率信息集合作为待训练商品概率信息确定模型的输入，然后待训练商品概率信息确定模型输出目标待训练商品概率信息集合。

104、当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数；

本实施例中，模型训练装置可以基于待训练商品概率信息集合以及目标待训练商品概率信息集合，对待训练商品概率信息确定模型进行训练，当符合模型训练完成条件时，则模型训练装置可以确定待训练商品概率信息确定模型的目标参数。

具体地，本实施例中模型参数训练方法包括但不限于取伪逆、零阶优化、一阶优化(例如随机梯度下降)、二阶优化以及等步长搜索。而由于目标待训练商品概率信息集合是通过待训练商品概率信息确定模型对待训练商品概率信息集合执行运算后得到的，所以目标待训练商品概率信息集合与待训练商品概率信息集合之间也具有一对一的对应关系，因此模型训练装置可以在待训练商品概率信息确定模型每输出目标待训练商品概率信息集合中的一个目标待训练商品概率信息之后，从待训练商品概率信息集合中获取与前述目标待训练商品概率信息对应的待训练商品概率信息，从而以待训练商品概率信息为目标对待训练商品概率信息确定模型进行训练，在符合模型训练完成条件时，确定待训练商品概率信息确定模型的目标参数。其中，模型训练完成条件可以为训练的次数达到预设次数时，视为符合模型训练完成条件，而预设次数的取值可以为5000、6000、7000或其他数值。其次，模型训练完成条件也可以为待训练商品概率信息确定模型的损失函数满足收敛条件时，视为符合模型训练完成条件。应理解，此处不对符合模型训练完成条件的具体实现方式进行限定。

105、基于目标参数，得到商品概率信息确定模型。

本实施例中，模型训练装置基于步骤105所确定的目标参数，得到商品概率信息确定模型。

本申请实施例中，提供了一种模型训练的方法。通过前述方式，因为基于待训练对象集合并通过原始推荐模型获取待训练商品概率信息集合，通过该待训练商品概率信息集合对待训练概率信息确定模型进行训练，得到的概率信息确定模型，而该概率信息确定模型能够将输入的概率信息确定请求中所携带的用户属性信息，输出为目标对象所对应的目标概率信息。因此到当用户数量和候选商品数量较大时，通过概率信息确定模型可以减小计算量，减少计算资源的消耗，并减小用户请求的响应延迟，由此可以提升概率信息获取效率，从而提升商品推荐效率。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，获取待训练属性信息集合，可以包括：

本实施例中，模型训练装置首先可以获取到户待选择用户集合以及商品集合，其中待选择用户集合包括M个用户，且每个待选择用户对应一个待训练用户属性信息，每个商品对应一个待训练商品属性信息。由于在实际应用中，待选择用户集合所包括的用户数量较大，因此可以再根据待选择用户集合，获取包括N个用户的用户集合，减小用户集合中的用户数量，减小模型的计算量，从而提升模型计算的效率。最后再根据该用户集合以及前述商品集合，获取待训练属性信息集合，则该待训练属性信息集合包括N个待训练用户属性信息，以及至少一个待训练商品属性信息，其中M为大于1的整数，而N为大于或等于1，且小于M的整数。

具体地，本实施例中N与M之间的比例取值处于2％～5％之间。具体地，以N与M之间的比例为2％为示例进行说明，即当待选择用户集合中包括100000个用户时，则用户集合中可以包括2000个用户，即待训练属性信息集合中可以包括有2000个待训练用户属性信息。当待选择用户集合中包括500000个用户时，则用户集合中可以包括10000个用户，即待训练属性信息集合中可以包括有10000个待训练用户属性信息。可以理解的是，前述示例仅用于理解本方案，具体待选择用户集合以及用户集合中的的用户数量均应当结合实际情况灵活确定。

为了便于理解，以应用于枪战类游戏中商品推荐的场景，并且在该场景中以N与M之间的比例为4％为示例进行说明，可以将枪战类游戏中全部的注册用户作为待选择用户集合，当该枪战类游戏中有100000个注册用户时，即待选择用户集合中包括有100000个待选择用户，然后通过N与M之间的比例可以得到，用户集合中可以包括有4000个用户，由此可以得到包括有4000个待训练用户属性信息的待训练属性信息集合。

本申请实施例中，提供了一种获取待训练属性信息集合的方法，在获取待选择用户集合以及商品集合之后，根据该待选择用户集合，获取用户集合，再根据该用户集合以及商品集合，获取待训练属性信息集合。通过前述方式，由于用户、商品与待训练属性信息的对应关系，所得到的待训练属性信息集合与用户以及商品相关度较高，由此可以提升所得到的待训练商品概率信息集合的准确度，提升概率信息确定模型输出结果的准确度，从而提升商品推荐的准确度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法另一可选实施例中，基于待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，可以包括：

本实施例中，模型训练装置可以将待训练属性信息集合作为原始推荐模型的输入，由于该待训练属性信息集合中包括有N个待训练属性信息，因此原始推荐模型可以输出N个待训练商品概率信息，然后再根据该N个待训练商品概率信息，获取包括N个待训练商品概率信息的待训练商品概率信息集合。

为了便于理解，再次以待训练属性信息集合中包括用户1、用户2、用户3以及用户4的待训练用户属性信息，且包括商品A、商品B以及商品C的待训练商品属性信息为示例进行说明，则将前述待训练属性信息集合作为原始推荐模型的输入，该原始推荐模型可以输出与用户1、商品A、商品B以及商品C对应的待训练商品概率信息1，还可以输出与用户2、商品A、商品B以及商品C对应的待训练商品概率信息2，与用户3、商品A、商品B以及商品C对应的待训练商品概率信息3，以及与用户4、商品A、商品B以及商品C对应的待训练商品概率信息4，因此基于包括4个待训练用户属性信息的待训练属性信息集合，可以获取到包括有4个待训练商品概率信息的待训练商品概率信息集合。可以理解的是，本实施中的示例仅用于理解本方案，具体待训练商品概率信息的数量应当结合实际情况灵活确定。

再进一步地，以应用于枪战类游戏中商品推荐的场景，并且在该场景中以待选择用户集合包括2800万个用户，而用户集合包括100万个用户作为示例进行说明。当商品概率信息确定模型为采用五层(2048，1024，512，256，62)的全连接网络时，则该待训练商品概率信息确定模型对包括100万个用户随机训练数据集需要约1小时，而采用交叉信息熵(categorical_cross_entropy)为损失函数以随机梯度下降方法训练待训练商品概率信息确定模型需要约20分钟，而采用均方误差(mean_squared_error)为损失函数以随机梯度下降方法训练F花费约28分钟，再采用商品概率信息确定模型对2800万用户进行商品概率信息的计算约需8分钟完成，节约商品概率信息计算时间，由此提升了商品概率信息确定效率。其次，在准确度方面，商品概率信息确定模型计算得到的商品概率信息和原始推荐模型计算得到的待训练商品概率信息向量存在约1.5％的HR@top3差异，该差异性可以被接受。

其次，当商品概率信息确定模型是多维Logistics(逻辑)回归模型时，则该待训练商品概率信息确定模型对包括100万个用户随机训练数据集需要约1小时，而采用交叉信息熵为损失函数以随机梯度下降方法训练练待训练商品概率信息确定模型需要约18分钟，再采用商品概率信息确定模型对2800万用户进行商品概率信息的计算约需7分钟完成，节约商品概率信息计算时间，由此提升了商品概率信息确定效率。其次，在准确度方面，商品概率信息确定模型计算得到的商品概率信息和原始推荐模型计算得到的待训练商品概率信息向量存在约2.5％的HR@top3差异。该差异性可以被接受。

结合上述介绍，可以得知采用本实施例中训练所得到的商品概率信息确定模型对原始推荐模型的输出进行知识蒸馏的方式，可以在较小的准确率损失下提升商品概率信息确定效率。

本申请实施例中，提供了一种获取商品概率信息集合的方法，基于待训练属性信息集合，通过原始推荐模型获取N个待训练商品概率信息，再根据N个待训练商品概率信息，获取包括N个待训练商品概率信息的待训练商品概率信息集合。通过前述方式，由于待训练属性信息与待训练商品概率信息的对应关系，由此可以提升待训练商品概率信息的准确度，从而进一步地提升了商品推荐的准确度，并且提升商品概率信息确定效率。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法另一可选实施例中，当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数，可以包括：

若损失函数达到收敛，则根据模型参数确定目标参数。

本实施例中，由于模型训练装置需要以待训练商品概率信息集合为目标，对待训练商品概率信息确定模型的模型参数进行训练，因此模型训练装置在获取到目标待训练商品概率信息之后，可以根据待训练商品概率信息集合以及目标待训练商品概率信息集合，生成损失函数的值，根据损失函数的值判断损失函数是否达到收敛条件，当达到收敛条件时，则可以利用损失函数的值更新待训练商品概率信息确定模型的模型参数，该模型参数即可确定为目标参数。

其中，损失函数可以为目标待训练商品概率信息以及与之对应的待训练商品概率信息之间差值的总和，也可以为目标待训练商品概率信息以及与之对应的待训练商品概率信息之间差值的绝对值的总和，也可以为目标待训练商品概率信息以及与之对应的待训练商品概率信息之间差值的的总和的平方，还可以为采用其他形式的损失函数等，具体损失函数的选择可以根据实际情况确定，此处不做限定。其次，损失函数的收敛条件可以为损失函数的值小于或等于预设阈值，作为示例，例如第一预设阈值的取值可以为0.001、0.005、0.01、0.02或其它趋近于0的数值，也可以为损失函数的相邻两次的值的差值小于或等于第二预设阈值，而第二阈值的取值可以与第一阈值的取值相同或不同，作为示例，例如第二预设阈值的取值可以0.001、0.005、0.01、0.02或其它趋近于0的数值等，模型训练装置还可以采用其它收敛条件等，此处不做限定。可以理解的是，本实施中的示例仅用于理解本方案，具体收敛条件应当结合实际情况灵活确定。

本申请实施例中，提供了一种确定目标参数的方法，基于待训练商品概率信息集合以及目标待训练商品概率信息集合，根据损失函数更新待训练商品概率信息确定模型的模型参数，若损失函数达到收敛，则根据模型参数确定目标参数。通过前述方式，提供了模型训练装置对待训练商品概率信息确定模型进行更新的一种具体实现方式，从而提高了本方案的可实现性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法另一可选实施例中，基于待训练商品概率信息集合以及目标待训练商品概率信息集合，根据损失函数更新待训练商品概率信息确定模型的模型参数，可以包括：

本实施例中，模型训练装置根据待训练商品概率信息集合以及目标待训练商品概率信息集合，确定损失函数，然后再根据损失函数更新待训练商品概率信息确定模型的模型参数。具体地，即模型训练装置可以获取到待训练商品概率信息集合中的一个待训练商品概率信息，以及目标待训练商品概率信息集合中的一个目标待训练商品概率信息，然后生成损失函数的值，由前述实施例可知，模型参数训练方法包括但不限于取伪逆、零阶优化、一阶优化(例如随机梯度下降)、二阶优化以及等步长搜索。以模型训练装置将随机梯度下降算法作为待训练商品概率信息确定模型的优化器，在根据损失函数的值确定损失函数未达到收敛条件的情况下，将损失函数的值带入前述梯度下降算法中，以梯度更新待训练商品概率信息确定模型的模型参数。然后直至损失函数达到收敛条件，则根据最后一次对模型参数进行更新后获得的模型参数确定为目标参数，并且根据该目标参数生成商品概率信息确定模型。

为进一步理解本方案，以待训练商品概率信息确定模型采用的为因子分解(factorization machine，FM)网络为例，请参阅图3，图3为本申请实施例中模型训练的方法中对待训练商品概率信息确定模型进行训练的一个实施例示意图，如图所示，图3中示出了待训练商品概率信息确定模型的多个因子，其中，A1指的是待训练属性信息集合，A2指的是通过原始推荐模型输出的待训练商品概率信息集合，A3指的是待训练商品概率信息确定模型，A4指的是待训练商品概率信息确定模型输出的目标待训练商品概率信息集合，利用待训练商品概率信息确定模型、目标待训练商品概率信息集合以及损失函数，对待训练商品概率信息确定模型进行训练，应当理解，图3中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，提供了一种更新模型参数的方法，根据待训练商品概率信息集合以及目标待训练商品概率信息集合，确定损失函数，并且还可以根据损失函数更新待训练商品概率信息确定模型的模型参数。通过前述方式，由于根据待训练商品概率信息以及目标待训练商品概率信息即可确定损失函数，简单便捷，由此提高了本方案的操作简易性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法另一可选实施例中，根据待训练商品概率信息集合以及目标待训练商品概率信息集合，确定损失函数，可以包括：

采用如下方式计算损失函数：

L_CE＝-ω∑y₁log(y₂)；

其中，L_CE表示损失函数，ω表示可调系数，y₁表示目标待训练商品概率信息，y₂表示待训练商品概率信息。

本实施例中，损失函数指的是交叉熵(cross entropy)损失函数，也即损失函数的值为目标待训练商品概率信息与待训练商品概率信息之间分布的距离。

采用如下方式计算损失函数：

L_MSE＝ω∑(y₁-y₂)²；

其中，L_MSE表示损失函数，ω表示可调系数，y₁表示目标待训练商品概率信息，y₂表示待训练商品概率信息。

本实施例中，损失函数指的是均方误差(mean square error，MSE)损失函数，也即损失函数的值为目标待训练商品概率信息与待训练商品概率信息的差值的均方误差。

可以理解的是，损失函数不仅限于本申请实施例中所提供的交叉熵损失函数以及均方误差损失函数，用于多类别的损失函数都可以为本实施例中的损失函数，例如铰链损失函数(hinge loss function)以及指数损失函数(exponential loss function)等。

本申请实施例中，提供了一种确定损失函数的方法，通过前述方式，提供了损失函数的具体公式，进一步提高了本方案的可实现性和可执行性。

为进一步地理解本申请实施例中模型训练的方法，请参阅图4，图4为本申请实施例中模型训练的方法一个流程示意图，如图所示，模型训练的方法流程可以为：

B11、获取待选择用户集合；

B12、获取用户集合；

B13、获取商品集合；

B2、获取待训练属性信息集合；

B3、获取待训练商品概率信息集合；

B4、获取目标待训练商品概率信息集合；

B5、确定损失函数；

B6、确定目标参数；

B7、得到商品概率信息确定模型。

具体地，步骤B11可以通过有线网络接收到待选择用户集合，也可以为模型训练装置本身存储的待选择用户集合，然后步骤B12对所获取的待选择用户集合进行随机选择，获取到用户集合，选择方法前述实施例已经进行介绍，在此不再赘述，其次，步骤B13可以通过有线网络接收到商品集合，也可以为模型训练装置本身存储的商品集合，可以理解的是，步骤B13与步骤B11之间无前后时序限定，即步骤B11可以与步骤B13同时发生，也可也与B13产生前后时序。由于每个待选择用户对应一个待训练用户属性信息，并且每个商品对应一个待训练商品属性信息，因此步骤B2可以根据步骤B12以及步骤13所获取的用户集合以及商品集合，获取待训练属性信息集合，并且该待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息。

进一步地，步骤B3可以将步骤B2所获取到的待训练属性信息集合作为原始推荐模型的输入，然后原始推荐模型输出待训练属性信息集合所对应的待训练商品概率信息集合，从而获取到与待训练属性信息集合具有对应关系的待训练商品概率信息集合。步骤B4再将步骤B3所获取到的待训练商品概率信息集合作为待训练商品概率信息确定模型的输入，然后待训练商品概率信息确定模型输出目标待训练商品概率信息集合，从而获取到目标待训练商品概率信息集合。再进一步地，步骤B5可以根据上述获取到的待训练商品概率信息集合以及目标待训练商品概率信息集合，确定损失函数，步骤B6则可以根据该损失函数更新待训练商品概率信息确定模型的模型参数，当损失函数达到收敛时，则可以根据模型参数确定目标参数。最后步骤B7即可基于步骤B6所确定的目标参数，得到商品概率信息确定模型，从而完成商品概率信息确定模型的训练。

结合上述介绍，下面将对本申请中商品推荐的方法进行介绍，请参阅图5，图5为本申请实施例中商品推荐的方法一个实施例示意图，如图所示，本申请实施例中商品推荐的方法一个实施例包括：

201、获取商品概率信息确定请求，其中，商品概率信息确定请求是由目标对象发送的；

本实施例中，商品推荐装置可以获取到由目标对象发送的商品概率信息确定请求。其次，商品概率信息确定请求可以为商品推荐装置通过有线网络接收到的请求。并且商品推荐装置在线接收到商品概率信息确定请求后，可以将该商品概率信息确定请求以及商品概率信息确定请求所携带的信息存储至本地，当商品推荐装置处于离线接收到计算目标对象的商品概率信息的任务时，即可从本地获取该请求。

需要说明的是，商品推荐装置可以部署于服务器，也可以部署于终端设备，本申请中以商品推荐装置部署于服务器为例进行说明，然而这不应理解为对本申请的限定。

202、基于商品概率信息确定请求，获取商品概率信息确定请求携带的目标对象所对应的用户属性信息；

本实施例中，由于通过步骤201所获取的商品概率信息确定请求中携带有目标对象所对应的用户属性信息，因此商品推荐装置可以根据该商品概率信息确定请求，获取用户属性信息。其中，目标用户属性信息可以包括但不限于目标用户的人口学信息、目标用户的商品历史点击记录、目标用户的商品历史购买记录、目标用户所处的上下文、目标用户的embedding向量以及目标用户社交的embedding向量，其次，其中目标用户的人口学信息包括但不限于目标用户的id、目标用户的性别以及目标用户的年龄，目标用户所处的上下文包括但不限于目标用户进行游戏的日期、目标用户进行游戏的时间、目标用户正在进行游戏的上下文以及目标用户正在浏览的网页上下文。

203、基于用户属性信息，通过商品概率信息确定模型获取目标对象所对应的目标商品概率信息；

本实施例中，在通过步骤202获取到用户属性信息后，商品推荐装置可以将该用户属性信息作为商品概率信息确定模型的输入，而商品概率信息确定模型则可以输出目标对象所对应的目标商品概率信息，由此获取到目标商品概率信息。

204、通过目标商品概率信息确定目标推荐商品。

本实施例中，商品推荐装置可以通过步骤203所获取的目标商品概率信息确定目标推荐商品。具体地，当目标推荐商品为1个时，则可以将目标商品概率信息中概率值对应最高的商品确定为目标推荐商品。而当目标推荐商品为X个时，则可以将目标商品概率信息中概率值从大至小排列，取前X个概率值所对应的商品确定为目标推荐商品，其中X为大于1的整数。

为了便于理解，以目标商品为商品A、商品B以及商品C，且推荐一个商品作为示例进行说明。若通过商品概率信息确定模型输出的目标商品概率信息为(0.7，0.2，0.1)，则可以确定目标推荐商品为商品A。若通过商品概率信息确定模型输出的目标商品概率信息为(0.3，0.3，0.4)，则可以确定目标推荐商品为商品C。其次，以目标商品为商品A、商品B、商品C、商品D、商品E以及商品F，且推荐三个商品作为示例进行说明。若通过商品概率信息确定模型输出的目标商品概率信息为(0.2，0.2，0.1，0.1，0.1，0.3)，则可以确定目标推荐商品为商品A、商品B以及商品F。若通过商品概率信息确定模型输出的目标商品概率信息为(0，0.1，0.4，0.2，0.2，0.1)，则可以确定目标推荐商品为商品C、商品D以及商品E。可以理解的是，本实施中的示例仅用于理解本方案，具体目标推荐商品应当结合实际情况灵活确定。

本申请实施例中，提供了一种商品推荐的方法，首先需要获取由目标对象发送的商品概率信息确定请求，再基于该商品概率信息确定请求，获取商品概率信息确定请求携带的目标对象所对应的属性信息，进一步地，将所获取到的属性信息作为商品概率信息确定模型的输入，商品概率信息确定模型输出目标对象所对应的目标商品概率信息，最后即可通过该目标商品概率信息确定目标推荐商品。通过前述方式，可以仅基于属性信息通过概率信息确定模型输出目标商品概率信息，从而确定目标推荐商品，由此可以减小概率信息确定模型的计算量，减少概率信息确定模型中计算资源的消耗，并且可以减小目标对象的商品概率信息确定请求的响应延迟，从而提升商品推荐效率。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供的商品推荐的方法一个可选实施例中，通过目标商品概率信息确定目标推荐商品之后，商品推荐的方法还可以包括：

向目标客户端发送目标推荐商品，以使目标客户端展示目标推荐商品，其中，目标客户端为目标对象所使用的客户端。

本实施例中，根据前述步骤201通过目标商品概率信息确定目标推荐商品之后，商品推荐装置还可以向目标客户端发送目标推荐商品，以使目标客户端展示目标推荐商品，该目标客户端为目标对象所使用的客户端。

为了便于理解，以确定的目标推荐商品为商品C、商品D以及商品E为示例进行说明，请参阅图6(A)，图6(A)为本申请实施例中商品推荐一个界面示意图，如图所示，图6(A)示出的为一个枪战类游戏商品推荐界面，该目标客户端上展示有C11所指示的商品C、C12所指示的商品E以及C13所指示的商品E。其次，以确定的目标推荐商品为商品A、商品B以及商品F为示例进行说明，请参阅图6(B)，图6(B)为本申请实施例中商品推荐另一界面示意图，如图所示，图6(B)示出的为另一枪战类游戏商品推荐界面，该目标客户端上展示有C21所指示的商品A、C22所指示的商品B以及C23所指示的商品F。再次，以确定的目标推荐商品为商品A为示例进行说明，请参阅图6(C)，图6(C)为本申请实施例中商品推荐另一界面示意图，如图所示，图6(C)示出的为一个MOBA类游戏商品推荐界面，该目标客户端上展示有C3所指示的商品A。再以确定的目标推荐商品为商品A以及商品B为示例进行说明，请参阅图6(D)，图6(D)为本申请实施例中商品推荐另一界面示意图，如图所示，图6(D)示出的为一个竞速类类游戏商品推荐界面，该目标客户端上展示有C41所指示的商品A以及C42所指示的商品B。可以理解的是，图6(A)至图6(D)中所示出的实施例示例仅用于理解本方案，具体目标推荐商品的位置以及形态大小均应当结合实际情况灵活确定。

本申请实施例中，提供了另一商品推荐的方法，还可以向目标客户端发送目标推荐商品，以使目标对象所使用的客户端展示目标推荐商品。通过前述方式，在确定目标推荐商品之后，可以向目标对象展示该目标推荐商品，提升请求的响应速率，并且提升商品推荐的时效性。

为进一步地理解本申请实施例中模型训练的方法，请参阅图7，图7为本申请实施例中商品推荐的方法一个流程示意图，如图所示，商品推荐的方法流程可以为：

D1、获取商品概率信息确定请求；

D2、获取用户属性信息；

D3、确定目标商品概率信息；

D4、确定目标推荐商品；

D5、目标客户端展示目标推荐商品。

具体地，步骤D1可以获取到由目标对象发送的商品概率信息确定请求，该商品概率信息确定请求可以为商品推荐装置通过有线网络接收到的请求。通过步骤D1所获取的商品概率信息确定请求中携带有目标对象所对应的用户属性信息，因此步骤D2可以根据该商品概率信息确定请求，获取用户属性信息，然后步骤D3则可以将步骤D2所获取的用户属性信息作为商品概率信息确定模型的输入，而商品概率信息确定模型则可以输出目标对象所对应的目标商品概率信息，由此获取到目标商品概率信息。进一步地。步骤D4通过目标商品概率信息确定目标推荐商品，最后向目标客户端发送目标推荐商品，步骤D5即可以在目标客户端展示目标推荐商品，该目标客户端即为目标对象所使用的客户端，由此即可完成商品推荐。

下面对本申请中的模型训练装置进行详细描述，请参阅图8，图8为本申请实施例中模型训练装置一个实施例示意图，模型训练装置30包括：

获取模块301，用于获取待训练属性信息集合，其中，待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息；

获取模块301，还用于基于待训练属性信息集合，通过原始推荐模型获取待训练属性信息集合所对应的待训练商品概率信息集合，其中，待训练商品概率信息集合包括至少一个待训练商品概率信息，待训练商品概率信息与待训练属性信息具有对应关系；

确定模块302，用于基于待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；

确定模块302，还用于当待训练商品概率信息集合以及目标待训练商品概率信息集合符合模型训练完成条件时，则确定待训练商品概率信息确定模型的目标参数；

得到模块303，用于基于目标参数，得到商品概率信息确定模型。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置30的另一实施例中，

获取模块301，具体用于：

确定模块302，具体用于：

若损失函数达到收敛，则根据模型参数确定目标参数。

确定模块302，具体用于：

采用如下方式计算损失函数：

L_CE＝-ω∑y₁log(y₂)；

采用如下方式计算损失函数：

L_MSE＝ω∑(y₁-y₂)²；

下面对本申请中的商品推荐装置进行详细描述，请参阅图9，图9为本申请实施例中商品推荐装置一个实施例示意图，商品推荐装置40包括：

获取模块401，用于获取商品概率信息确定请求，其中，商品概率信息确定请求是由目标对象发送的；

获取模块401，还用于基于商品概率信息确定请求，获取商品概率信息确定请求携带的目标对象所对应的用户属性信息；

获取模块401，还用于基于用户属性信息，通过商品概率信息确定模型获取目标对象所对应的目标商品概率信息；

确定模块402，用于通过目标商品概率信息确定目标推荐商品。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的商品推荐装置40的另一实施例中，商品推荐装置40还包括发送模块403，

发送模块403，用于向目标客户端发送目标推荐商品，以使目标客户端展示目标推荐商品，其中，目标客户端为目标对象所使用的客户端。

本申请实施例还提供了另一种模型训练装置，模型训练装置可以部署于服务器，也可以部署于终端设备，本申请中以模型训练装置部署于服务器为例进行说明，请参阅图10，图10为本申请实施例中服务器一个实施例示意图，如图所示，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 522用于执行如图2对应的各个实施例。

其次，本申请实施例还提供了另一种商品推荐装置，商品推荐装置可以部署于服务器，也可以部署于终端设备，本申请中以商品推荐装置部署于服务器为例进行说明，请参阅图11，图11为本申请实施例中服务器另一实施例示意图，如图所示，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622用于执行如图5对应的各个实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取待训练属性信息集合，其中，所述待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息；

基于所述待训练属性信息集合，通过原始推荐模型获取所述待训练属性信息集合所对应的待训练商品概率信息集合，其中，所述待训练商品概率信息集合包括至少一个待训练商品概率信息，所述待训练商品概率信息与所述待训练属性信息具有对应关系；

基于所述待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；

当所述待训练商品概率信息集合以及所述目标待训练商品概率信息集合符合模型训练完成条件时，则确定所述待训练商品概率信息确定模型的目标参数；

基于所述目标参数，得到商品概率信息确定模型。

2.基于权利要求1所述的方法，其特征在于，所述获取待训练属性信息集合，包括：

获取待选择用户集合以及商品集合，其中，所述待选择用户集合包括M个用户，所述商品集合包括至少一个商品，所述M为大于1的整数，且每个待选择用户对应一个所述待训练用户属性信息，每个商品对应一个所述待训练商品属性信息；

根据所述待选择用户集合，获取用户集合，其中，所述用户集合包括N个用户，所述N为大于或等于1，且小于M的整数；

根据所述用户集合以及所述商品集合，获取所述待训练属性信息集合，其中，所述待训练属性信息集合包括N个待训练用户属性信息，以及至少一个待训练商品属性信息。

3.基于权利要求2所述的方法，其特征在于，所述基于所述待训练属性信息集合，通过原始推荐模型获取所述待训练属性信息集合所对应的待训练商品概率信息集合，包括：

基于所述待训练属性信息集合，通过所述原始推荐模型获取N个待训练商品概率信息；

根据所述N个待训练商品概率信息，获取所述待训练商品概率信息集合，其中，所述待训练商品概率信息集合包括N个待训练商品概率信息。

4.基于权利要求1所述的方法，其特征在于，所述当所述待训练商品概率信息集合以及所述目标待训练商品概率信息集合符合模型训练完成条件时，则确定所述待训练商品概率信息确定模型的目标参数，包括：

基于所述待训练商品概率信息集合以及所述目标待训练商品概率信息集合，根据损失函数更新所述待训练商品概率信息确定模型的模型参数；

若所述损失函数达到收敛，则根据所述模型参数确定所述目标参数。

5.基于权利要求4所述的方法，其特征在于，所述基于所述待训练商品概率信息集合以及所述目标待训练商品概率信息集合，根据损失函数更新所述待训练商品概率信息确定模型的模型参数，包括：

根据所述待训练商品概率信息集合以及所述目标待训练商品概率信息集合，确定所述损失函数；

根据所述损失函数更新所述待训练商品概率信息确定模型的模型参数。

6.一种商品推荐的方法，其特征在于，包括：

获取商品概率信息确定请求，其中，所述商品概率信息确定请求是由目标对象发送的；

基于所述商品概率信息确定请求，获取所述商品概率信息确定请求携带的所述目标对象所对应的用户属性信息；

基于所述用户属性信息，通过商品概率信息确定模型获取所述目标对象所对应的目标商品概率信息；所述商品概率信息确定模型是采用如上述权利要求1至5中任一项所述的模型训练的方法训练得到的；

通过所述目标商品概率信息确定目标推荐商品。

7.基于权利要求6所述的方法，其特征在于，所述通过所述目标商品概率信息确定目标推荐商品之后，所述方法还包括：

向目标客户端发送所述目标推荐商品，以使所述目标客户端展示所述目标推荐商品，其中，所述目标客户端为所述目标对象所使用的客户端。

8.一种模型训练装置，其特征在于，包括：

获取模块，用于获取待训练属性信息集合，其中，所述待训练属性信息集合包括至少一个待训练用户属性信息，以及至少一个待训练商品属性信息；

所述获取模块，还用于基于所述待训练属性信息集合，通过原始推荐模型获取所述待训练属性信息集合所对应的待训练商品概率信息集合，其中，所述待训练商品概率信息集合包括至少一个待训练商品概率信息，所述待训练商品概率信息与所述待训练属性信息具有对应关系；

确定模块，用于基于所述待训练商品概率信息集合，通过待训练商品概率信息确定模型获取目标待训练商品概率信息集合；

所述确定模块，还用于当所述待训练商品概率信息集合以及所述目标待训练商品概率信息集合符合模型训练完成条件时，则确定所述待训练商品概率信息确定模型的目标参数；

得到模块，用于基于所述目标参数，得到商品概率信息确定模型。

9.一种商品推荐装置，其特征在于，包括：

获取模块，用于获取商品概率信息确定请求，其中，所述商品概率信息确定请求是由目标对象发送的；

所述获取模块，还用于基于所述商品概率信息确定请求，获取所述商品概率信息确定请求携带的所述目标对象所对应的用户属性信息；

所述获取模块，还用于基于所述用户属性信息，通过商品概率信息确定模型获取所述目标对象所对应的目标商品概率信息；所述商品概率信息确定模型是采用如上述权利要求1至5中任一项所述的模型训练的方法训练得到的；

确定模块，用于通过所述目标商品概率信息确定目标推荐商品。

10.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至5中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

11.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求6和7中任一项所述的方法；

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至5中任一项所述的方法，或，权利要求6和7中任一项所述的方法。