CN111414535B

CN111414535B - 向用户推荐目标对象的方法和装置

Info

Publication number: CN111414535B
Application number: CN202010135533.6A
Authority: CN
Inventors: 林文芳; 杨林; 郭晓波
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2023-05-05
Anticipated expiration: 2040-03-02
Also published as: CN111414535A

Abstract

本说明书提供一种向用户推荐目标对象的方法，包括：根据目标对象的对象控制特征和对象随机特征中的至少一个生成所述目标对象的对象特征；所述对象控制特征和对象随机特征在对控制匹配模型和随机匹配模型进行多任务交替训练后得到；在多任务交替训练中将控制样本作为控制匹配模型的输入样本，将随机样本作为随机匹配模型的输入样本，通过修改控制样本中目标对象的对象控制特征或修改随机样本中目标对象的对象随机特征的值来达到优化目标；所述优化目标包括使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大；将用户特征和目标对象的对象特征输入匹配模型，根据匹配模型输出的用户特征与对象特征的匹配程度确定向用户推荐的目标对象。

Description

向用户推荐目标对象的方法和装置

技术领域

本说明书涉及数据处理技术领域，尤其涉及一种向用户推荐目标对象的方法和装置。

背景技术

数据挖掘的一个重要应用是利用历史数据对未来做出预测。例如，通过过去若干年的气象数据来预测明天的天气，通过用户之前看过的电影预测他可能感兴趣的新电影等等。推荐系统通常以用户的历史行为为依据，来预测用户与目标对象的匹配程度，以便将匹配程度高的目标对象推荐给用户。

在采用推荐系统的预测结果向用户推荐目标对象后，用户的行为会发生变化。用户对推荐系统的输出结果做出的反馈，会与用户对随机推荐的目标对象做出的反馈有所不同；换言之，基于推荐策略的用户行为(即在推荐系统控制下发生的用户受控行为，即用户在面对推荐系统的输出结果时发生的行为)不同于用户自然行为(或称基于随机策略的用户行为，即用户在没有推荐系统或推荐系统为随机推荐的情形下发生的行为)。这样，当推荐系统持续使用基于推荐策略的用户行为数据来做出预测时，被推荐系统改变的行为数据会难以避免的使推荐系统的预测产生偏差，从而降低推荐系统预测的准确程度，对用户的时间精力造成浪费。

发明内容

有鉴于此，本说明书提供一种向用户推荐目标对象的方法，包括：

根据目标对象的对象控制特征和对象随机特征中的至少一个生成所述目标对象的对象特征；所述对象控制特征和对象随机特征在对控制匹配模型和随机匹配模型进行多任务交替训练后得到；其中，控制匹配模型是输入项包括对象控制特征的匹配模型，随机匹配模型是输入项包括对象随机特征的匹配模型；在多任务交替训练中将控制样本作为控制匹配模型的输入样本，将随机样本作为随机匹配模型的输入样本，通过修改控制样本中目标对象的对象控制特征、或修改随机样本中目标对象的对象随机特征的值来达到优化目标；所述优化目标包括使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大；

将用户特征和目标对象的对象特征输入匹配模型，根据匹配模型输出的用户特征与对象特征的匹配程度，确定向用户推荐的目标对象。

本说明书还提供了一种向用户推荐目标对象的装置，包括：

对象特征生成单元，用于根据目标对象的对象控制特征和对象随机特征中的至少一个生成所述目标对象的对象特征；所述对象控制特征和对象随机特征在对控制匹配模型和随机匹配模型进行多任务交替训练后得到；其中，控制匹配模型是输入项包括对象控制特征的匹配模型，随机匹配模型是输入项包括对象随机特征的匹配模型；在多任务交替训练中将控制样本作为控制匹配模型的输入样本，将随机样本作为随机匹配模型的输入样本，通过修改控制样本中目标对象的对象控制特征、或修改随机样本中目标对象的对象随机特征的值来达到优化目标；所述优化目标包括使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大；

匹配程度预测单元，用于将用户特征和目标对象的对象特征输入匹配模型，根据匹配模型输出的用户特征与对象特征的匹配程度，确定向用户推荐的目标对象。

本说明书提供的一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行上述向用户推荐目标对象的方法所述的步骤。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述向用户推荐目标对象的方法所述的步骤。

由以上技术方案可见，本说明书的实施例中，通过多任务交替采用控制样本和随机样本进行训练并以使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大为优化目标，得到目标对象的对象控制特征和对象随机特征，采用由对象控制特征和/或对象随机特征表达的对象特征，根据匹配模型得到目标对象与用户的匹配程度，从而采用少量的随机样本即可使得匹配模型的预测结果近似于完全采用随机样本，大大降低了因使用控制样本导致的预测偏差，提高了推荐的多样性和准确性，节省了用户的时间和精力。

附图说明

图1是本说明书实施例中一种基于因果推断的多任务学习模型的示意图；

图2是本说明书实施例中一种对象特征是Embedding结果的多任务学习模型的示意图；

图3是本说明书实施例中一种向用户推荐目标对象的方法的流程图；

图4是本说明书应用示例中一种多任务学习模型的示意图；

图5是运行本说明书实施例的设备的一种硬件结构图；

图6是本说明书实施例中一种向用户推荐目标对象的装置的逻辑结构图。

具体实施方式

本说明书的实施例提出一种新的向用户推荐目标对象的方法，以匹配模型为基础，分别采用控制样本和随机样本对目标对象的对象控制特征和对象随机特征进行多任务交替训练，使得同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大，然后将由训练完成的对象控制特征和/或对象随机特征所表达的对象特征输入匹配模型，得到目标对象与用户的匹配程度，使得少量的随机样本即可纠正因使用控制样本导致的预测结果与用户自然行为之间的偏差，在增加推荐结果多样性的同时，提高了推荐结果的准确性，使用户花费更少的时间精力即可找到符合自己需求的目标对象。

本说明书的实施例可以运行在任何具有计算和存储能力的设备上，如手机、平板电脑、PC(Personal Computer，个人电脑)、笔记本、服务器等设备；还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。

本说明书的实施例中，通过匹配模型来向用户进行目标对象的推荐。目标对象可以是任何可以推荐给用户的标的，如商品、服务、虚拟物品、理财产品、保单、广告等等。匹配模型的输入通常包括一个到多个对象特征和一个到多个用户特征，输出为输入的对象特征与用户特征的匹配程度。其中，对象特征是用来描述目标对象的一个向量，用户特征是用来描述用户的一个向量。匹配模型可以基于任何算法来由输入特征得到对象特征与用户特征的匹配程度，不做限定。

需要说明的是，在一种应用场景中，每个具体的目标对象实例(如商品A、商品B、一个服务项目等)可以有区别于其他具体目标对象实例的对象特征，如可供推送的每个广告都有各自的对象特征并且互不相同。在另外一些应用场景中，每个具体的目标对象实例都有若干种属性，每种属性的属性值相同的目标对象实例具有相同的对象特征，例如，商品的属性共有3种：类别、最近一个月的销量(以档次划分)、好评比例(以档次划分)，同一类别、相同档次的最近一月销量、和相同档次的好评比例的商品将具有相同的对象特征，在这些应用场景中一个目标对象可以代表多个对象特征相同的具体目标对象实例。本说明书的实施例可以适用于上述两种应用场景，换言之，本说明书实施例中的一个目标对象，既可以是一个具体的目标对象实例，也可以对应于超过一个具体目标对象实例。

在一种实现方式中，可以先以两个或两个以上的对象原始特征来描述目标对象，在对这些对象原始特征进行Embedding(嵌入处理)后得到对象特征，作为匹配模型的输入。类似的，也可以先以两个或两个以上的用户原始特征来描述用户，在对这些用户原始特征进行Embedding后得到用户特征，作为匹配模型的输入。其中，Embedding可以采用任意一种将多个向量转换为一个向量的处理方式，不做限定，例如可以是全连接层处理、降维处理、基于神经网络的处理等；对象原始特征可以包括根据对象的各种属性构造的密集(dense)特征、稀疏(sparse)特征、由密集特征和/或稀疏特征交叉组合得到的交叉特征中的一种到多种；用户原始特征类似于对象原始特征，可以包括由用户的各种属性(如性别、年龄段、登录次数、使用时长等)构造的密集特征、稀疏特征、由密集特征和/或稀疏特征交叉组合得到的交叉特征中的一种到多种。

本说明书的实施例中，以匹配模型为基础，构建基于因果推断的多任务学习模型，采用随机样本和控制样本多任务交替学习目标对象的对象随机特征和对象控制特征，以实现基于用户自然行为的匹配程度预测结果。

因果推断通过理解数据来做出更好的决策和行动，从失败或者成功的经历中获取知识。在推荐场景中通过使用可观测到的数据，即用户行为数据找到最佳推荐方法，该推荐方法力图最大化每位用户的推荐奖励(如点击率、转换率等)。因果推断通常以反事实问题为依据，在推荐场景中可以使用基于控制策略的用户行为数据进行因果推断，同时也可以使用基于随机策略的用户行为提出反事实问题，用来干预推荐结果，从而进一步改善推荐方法，使得推荐结果接近于对用户自然行为的预测。

本说明书的实施例中，随机样本是由基于随机策略的用户行为数据、或者是由用作基于随机策略的用户行为数据生成的样本；控制样本是由基于控制策略的用户行为数据、或者是由用作基于控制策略的用户行为数据生成的样本。随机样本和控制样本均是带有输出标记值的样本，即标记有用户与目标对象匹配程度值的样本。用户行为可以是各种与目标对象相关的行为，如浏览、搜索、点击、评论、购买等等。

一种基于因果推断的多任务学习模型可以如图1所示。其中，控制匹配模型是输入项包括对象控制特征和用户特征、输出为用户与目标对象的控制匹配程度的匹配模型；即控制匹配模型用来计算当目标对象采用对象控制特征来表达时，用户与目标对象的匹配程度。随机匹配模型是输入项包括对象随机特征和用户特征的匹配模型、输出为用户与目标对象的随机匹配程度的匹配模型；即随机匹配模型用来计算当目标对象采用对象随机特征来表达时，用户与目标对象的匹配程度。

在多任务交替训练启动前，目标对象的对象控制特征和对象随机特征分别设置为初始值。在多任务交替训练启动后，交替采用控制样本和随机样本进行训练。

在采用控制样本进行训练时，将控制样本作为控制匹配模型的输入样本，通过修改目标对象的对象控制特征来达到优化目标，优化目标包括使控制匹配模型的损失尽可能小、以及使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大。其中，控制匹配模型的损失由控制匹配模型的输出与控制样本的标记值之间的差异确定。

在采用随机样本进行训练时，将随机样本作为随机匹配模型的输入样本，通过修改目标对象的对象随机特征来达到优化目标，优化目标包括使随机匹配模型的损失尽可能小、以及使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大。其中，随机匹配模型的损失由随机匹配模型的输出与随机样本的标记值之间的差异确定。

可以根据实际应用场景的需要，来决定在衡量同一目标对象的对象控制特征和对象随机特征之间的差异的具体方式，不做限定。在一种实现方式中，一个目标对象的对象控制特征和对象随机特征之间的差异，可以由以下三个因素来确定：该目标对象的控制样本对于控制匹配模型的损失、与该目标对象的随机样本对于随机匹配模型的损失的加权和，该目标对象的对象控制特征的正则，以及该目标对象的对象随机特征的正则。

作为上述实现方式的一个例子，假设L_Sc为目标对象的控制样本对于控制匹配模型的损失，L_St为目标对象的随机样本对于随机匹配模型的损失，Ω(θ_c为目标对象的对象控制特征的正则，Ω(θ_t)为目标对象的对象随机特征的正则，则一个目标对象的对象控制特征和对象随机特征之间的差异可以由式1表示的L^item来衡量。

L^item＝αL_St+(1-α)L_Sc+Ω(θ_t)+Ω(θ_c) 式1

式1中，α为L_St的权值。目标对象的对象控制特征和对象随机特征之间的差异越大，L^item越小。

在多任务交替训练完毕后，即可得到各个目标对象的对象控制特征和对象随机特征。

在对象特征是Embedding结果的实现方式中，一种基于因果推断的多任务交替训练模型可以如图2所示。其中，控制嵌入模型用来对一个到多个目标对象的对象原始特征进行Embedding，得到上述目标对象的对象控制特征，并输入到控制匹配模型中；随机嵌入模型用来对一个到多个目标对象的对象原始特征进行Embedding，得到上述目标对象的对象随机特征，并输入到随机匹配模型中。此外，用户特征也可以是由用户嵌入模型对用户原始特征进行Embedding后的输出。

控制嵌入模型和随机嵌入模型通常采用相同的Embedding算法。在多任务交替训练前，控制嵌入模型和随机嵌入模型分别初始化各自的模型参数。多任务交替训练中，在采用控制样本进行训练时，通过修改控制嵌入模型的模型参数的值来修改输出的对象控制特征；在采用随机样本进行训练时，通过修改随机嵌入模型的模型参数的值来修改输出的对象随机特征。在多任务交替训练完成后，控制嵌入模型和随机嵌入模型将具有各自的模型参数值，将同一个目标对象的对象原始特征分别输入到控制嵌入模型和随机嵌入模型中，得到的对象控制特征对象随机特征在绝大多数情况下是不同的。

在理想的情况下，可以将在向用户展示作为推荐结果的目标对象后采集到的用户行为数据作为生成控制样本的数据，将在向用户展示随机选择的目标对象后采集到的用户行为数据作为生成随机样本的数据。但是在实际运营中，向用户展示随机选择的目标对象很可能无法实现。在这种情况下，可以由基于推荐策略的用户行为数据构成行为样本，先根据某个目标对象在行为样本中的出现次数和其他目标对象在行为样本中的的出现次数确定该目标对象的目标对象权重，使得出现次数更少的目标对象具有更高的目标对象权重，然后在每个目标对象的行为样本中抽取数量对应于该目标对象权重的行为样本作为随机样本，将该目标对象的剩余的行为样本作为控制样本。

具体而言，采用向用户展示作为推荐结果的目标对象后采集到的用户行为数据来生成行为样本；按目标对象将所有行为样本划分为每个目标对象各自的行为样本，并统计每个目标对象的行为样本数量；对某个目标对象，按照该目标对象的行为样本数量和其他目标对象的行为样本数量，决定该目标对象的目标对象权重，在该目标对象的行为样本中抽取一部分作为随机样本，抽取数量与该目标对象的目标对象权重相对应；对所有目标对象的行为样本重复上述抽取过程，抽取完成后所有行为样本中剩余的部分即为控制样本。

可以根据实际应用场景中特点来选择确定目标对象权重的具体方式，不做限定。例如，可以根据式2来决定某个目标对象的目标对象权重：

式2中，i为自然数，p为目标对象权重的预定上限值，N为所有目标对象在行为样本中出现次数的集合，N_i为第i个目标对象在行为样本中的出现次数。预定上限值p决定了任何一个目标对象在随机样本中可能出现的最大次数，以避免随机样本过于集中于一个到数个目标对象。

本说明书的实施例中，向用户推荐目标对象的方法的流程如图3所示。

步骤310，根据目标对象的对象控制特征和对象随机特征中的至少一个生成该目标对象的对象特征。

如前所述，在基于因果推断的多任务交替训练完成后，可以得到每个目标对象的对象控制特征和对象随机特征。在对象控制特征或对象随机特征是对象原始特征的Embedding结果的实现方式中，基于训练完成的控制嵌入模型和随机嵌入模型，可以将目标对象的对象原始特征输入控制嵌入模型得到该目标对象的对象控制特征，可以将目标对象的对象原始特征输入随机嵌入模型得到该目标对象的对象随机特征。

本说明书的实施例中，目标对象的对象特征可以由对象控制特征生成，也可以由对象随机特征生成，还可以根据对象控制特征和对象随机特征两者生成。具体的生成方式可以根据实际应用场景的特点来决定，例如，可以在实际运营中分别尝试将对象控制特征作为对象特征、将对象随机特征作为对象特征、将对象控制特征和对象随机特征的加权和作为对象特征并且设定各种权值，根据实际运营时用户的推荐奖励来决定采用哪一种生成对象特征的方式。

如果在多任务交替训练的优化目标中，是根据目标对象的控制样本对于控制匹配模型的损失、与该目标对象的随机样本对于随机匹配模型的损失的加权和来决定目标对象的对象控制特征和对象随机特征之间的差异，则可以将采用相同权值的对象控制特征和对象随机特征的加权和作为对象特征。

具体而言，如果在多任务交替训练中目标对象的对象控制特征和对象随机特征之间的差异L^item基于(αL_St+(1-α)L_Sc)生成，其中L_Sc是目标对象的控制样本对于控制匹配模型的损失，L_St是目标对象的随机样本对于随机匹配模型的损失，α是L_St的权值，则目标对象的对象特征v可以由式3得到：

v＝αv_t+(1-α)v_c 式3

式3中，v_t是目标对象的对象随机特征，v_c是目标对象的对象控制特征，α是v_t的权值(即L_St的权值)。

步骤320，将用户特征和目标对象的对象特征输入匹配模型，根据匹配模型输出的用户特征与对象特征的匹配程度，确定向用户推荐的目标对象。

在生成目标对象的对象特征后，将对象特征和用户特征输入到匹配模型中，匹配模型的输出为对象特征和用户特征的匹配程度。依据实际应用场景中设定的推荐规则，依据匹配程度来决定向用户推荐的目标对象。例如，可以将一个到多个匹配程度较高的目标对象推荐给用户。

可见，本说明书的实施例中，采用控制样本和随机样本，以同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大为优化目标，对目标对象的对象控制特征和对象随机特征进行多任务交替训练，然后将由训练完成的对象控制特征和/或对象随机特征生成对象特征，根据匹配模型得到目标对象与用户的匹配程度，使得少量的随机样本即可纠正因使用控制样本导致的预测结果与用户自然行为之间的偏差，提高了推荐的多样性和准确性。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的一个应用示例中，互联网服务提供商在其App(应用程序)中向用户提供若干个产品(一种目标对象)。针对不同的用户，互联网服务提供商希望以个性化的排序，将这些产品展示给用户。互联网服务提供商采用推荐系统来实现对用户的个性化产品排序功能。

推荐系统采用FM模型(Factorization Machine，因子分解机)作为匹配模型，来预测产品与用户的匹配程度。以下以采用式4所示算法的FM模型为例来进行说明：

y＝σ(u^Tv) 式4

式4中，y是产品与用户的匹配程度，u是用户特征，v是产品的对象特征。用户特征u是将若干个用户原始特征UserOrig输入到用户嵌入模型后的嵌入处理结果，用户嵌入模型采用DNN(Deep Neural Networks，深度神经网络)算法。对象特征v是对产品的若干个对象原始特征ItemOrig的嵌入处理结果。

互联网服务提供商在推荐系统的运营过程中，搜集用户对所提供的每个产品的历史行为数据，提取历史行为数据中的用户原始特征和产品原始特征，生成带有用户与产品匹配程度标记值的行为样本。这些行为样本属于基于推荐策略的用户行为数据。推荐系统将行为样本按产品划分为每个产品的行为样本，统计每个产品的行为样本数量。推荐系统根据式2计算得出每个产品的目标对象权重，再在每个产品的行为样本中根据该产品目标对象权重抽取对应数量的行文样本。所有产品的行为样本中被抽取出来的组成随机样本S_t，未被抽取的所有行为样本组成控制样本S_c。

推荐系统采用图4所示的多任务交替训练模型来对控制嵌入(ControlEmbedding)模型和随机嵌入(Treatment Embedding)模型进行训练。Control Embedding模型和Treatment Embedding模型采用相同的算法，并在训练开始前进行模型参数的初始化。推荐系统交替采用随机样本S_t和控制样本进行训练，训练的优化目标包括3个：L_st、L_Sc与L^item尽可能的小，L_St是随机匹配模型y_t＝σ(u^Tv_t)的损失，L_Sc是控制匹配模型y_c＝σ(u^Tv_c)的损失，L^item由式1得到。

在采用随机样本S_t进行训练时，将S_t输入到Treatment Embedding模型，通过修改Treatment Embedding模型的模型参数，使L_St和L^item尽可能的小。在采用控制样本S_c进行训练时，将S_c输入到Control Embedding模型，通过修改Control Embedding模型的模型参数，使L_Sc和L^item尽可能的小。训练完成后，Treatment Embedding模型和Control Embedding模型将具有各自的模型参数。

当某个用户在其App上打开产品展示页面时，推荐系统生成该用户的用户原始特征UserOrig和每个产品的对象原始特征ItemOrig。对各个产品，将产品的ItemOrig输入到训练完成的Treatment Embedding模型，得到产品的对象随机特征v_t；将产品的ItemOrig输入到训练完成的Control Embedding模型，得到产品的对象控制特征v_c；由v＝αv_t+(1-α)v_c(式3)得到产品的对象特征v。对于用户，将用户的UserOrig输入DNN模型，得到用户特征u。

将各个产品的对象特征v和用户特征u输入到FM模型，由式4可以得到各个产品与用户的匹配程度预测值，推荐系统按照预测值从高到低的顺序对产品进行排序。用户将在其终端的App中看到按照上述排序显示的各个产品。

本应用示例中，通过多任务学习框架，交替学习控制样本和随机样本，一方面控制两种任务的差异性，另一方面控制匹配模型的学习效果，生成两种不同策略下的对象嵌入处理(item Embedding)，最后基于FM模型来预测用户与产品的匹配程度。这样，在基于控制策略的用户行为数据中抽取一部分作为随机样本，就可以使预测结果接近于对用户自然行为的预测。

与上述流程实现对应，本说明书的实施例还提供了一种向用户推荐目标对象装置。该装置可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为逻辑意义上的装置，是通过所在设备的CPU(Central Process Unit，中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图5所示的CPU、内存以及存储器之外，向用户推荐目标对象的装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件，和/或用于实现网络通信功能的板卡等其他硬件。

图6所示为本说明书实施例提供的一种向用户推荐目标对象的装置，包括对象特征生成单元和匹配程度预测单元，其中：对象特征生成单元用于根据目标对象的对象控制特征和对象随机特征中的至少一个生成所述目标对象的对象特征；所述对象控制特征和对象随机特征在对控制匹配模型和随机匹配模型进行多任务交替训练后得到；其中，控制匹配模型是输入项包括对象控制特征的匹配模型，随机匹配模型是输入项包括对象随机特征的匹配模型；在多任务交替训练中将控制样本作为控制匹配模型的输入样本，将随机样本作为随机匹配模型的输入样本，通过修改控制样本中目标对象的对象控制特征、或修改随机样本中目标对象的对象随机特征的值来达到优化目标；所述优化目标包括使同一目标对象的对象控制特征和对象随机特征之间的差异尽可能大；匹配程度预测单元用于将用户特征和目标对象的对象特征输入匹配模型，根据匹配模型输出的用户特征与对象特征的匹配程度，确定向用户推荐的目标对象。

可选的，所述优化目标还包括：使控制匹配模型的损失尽可能小，以及，使随机匹配模型的损失尽可能小；所述控制匹配模型的损失由控制匹配模型的输出与控制样本的标记值之间的差异确定；所述随机匹配模型的损失由随机匹配模型的输出与随机样本的标记值之间的差异确定。

一个例子中，所述同一目标对象的对象控制特征和对象随机特征之间的差异，根据所述目标对象的控制样本对于控制匹配模型的损失、与所述目标对象的随机样本对于随机匹配模型的损失的加权和，以及所述目标对象的对象控制特征的正则和所述目标对象的对象随机特征的正则来确定。

上述例子中，所述对象特征生成单元具体用于：将目标对象的对象控制特征和对象随机特征的加权和作为所述目标对象的对象特征，加权的权值与多任务交替训练中用来计算控制样本对于控制匹配模型的损失与随机样本对于随机匹配模型的损失的加权和时所采用的权值相同。

可选的，所述装置还包括特征嵌入单元，用于以下至少一项：将目标对象的对象原始特征输入控制嵌入模型得到所述目标对象的对象控制特征、将目标对象的对象原始特征输入随机嵌入模型得到所述目标对象的对象随机特征；所述控制嵌入模型在多任务交替训练中通过修改模型参数的值来修改输出的对象控制特征，所述随机嵌入模型在多任务交替训练中通过修改模型参数的值来修改输出的对象随机特征。

可选的，所述匹配模型为因子分解机FM模型。

可选的，所述多任务交替训练中使用的随机样本来源于由基于推荐策略的用户行为数据构成的行为样本，在每个目标对象的行为样本中抽取数量对应于该目标对象权重的行为样本作为随机样本，剩余的行为样本作为控制样本；所述目标对象权重根据所述目标对象在行为样本中的出现次数和其他目标对象的出现次数确定，出现次数更少的目标对象具有更高的目标对象权重。

可选的，所述目标对象权重由下式确定：

其中i为自然数，p为目标对象权重的预定上限值，N为所有目标对象在行为样本中出现次数的集合，N_i为第i个目标对象在行为样本中的出现次数。

本说明书的实施例提供了一种计算机设备，该计算机设备包括存储器和处理器。其中，存储器上存储有能够由处理器运行的计算机程序；处理器在运行存储的计算机程序时，执行本说明书实施例中向用户推荐目标对象的方法的各个步骤。对向用户推荐目标对象的方法的各个步骤的详细描述请参见之前的内容，不再重复。

本说明书的实施例提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，这些计算机程序在被处理器运行时，执行本说明书实施例中向用户推荐目标对象的方法的各个步骤。对向用户推荐目标对象的方法的各个步骤的详细描述请参见之前的内容，不再重复。

以上所述仅为本说明书的较佳实施例而已，并不用以限制请求保护的其他实施例，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在请求保护的范围之内。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种向用户推荐目标对象的方法，包括：

2.根据权利要求1所述的方法，所述优化目标还包括：使控制匹配模型的损失尽可能小，以及，使随机匹配模型的损失尽可能小；所述控制匹配模型的损失由控制匹配模型的输出与控制样本的标记值之间的差异确定；所述随机匹配模型的损失由随机匹配模型的输出与随机样本的标记值之间的差异确定。

3.根据权利要求1所述的方法，所述同一目标对象的对象控制特征和对象随机特征之间的差异，根据所述目标对象的控制样本对于控制匹配模型的损失、与所述目标对象的随机样本对于随机匹配模型的损失的加权和，以及所述目标对象的对象控制特征的正则和所述目标对象的对象随机特征的正则来确定。

4.根据权利要求3所述的方法，所述根据目标对象的对象控制特征和对象随机特征中的至少一个生成所述目标对象的对象特征，包括：将目标对象的对象控制特征和对象随机特征的加权和作为所述目标对象的对象特征，加权的权值与多任务交替训练中用来计算控制样本对于控制匹配模型的损失与随机样本对于随机匹配模型的损失的加权和时所采用的权值相同。

5.根据权利要求1所述的方法，所述方法还包括以下至少一项：将目标对象的对象原始特征输入控制嵌入模型得到所述目标对象的对象控制特征、将目标对象的对象原始特征输入随机嵌入模型得到所述目标对象的对象随机特征；所述控制嵌入模型在多任务交替训练中通过修改模型参数的值来修改输出的对象控制特征，所述随机嵌入模型在多任务交替训练中通过修改模型参数的值来修改输出的对象随机特征。

6.根据权利要求1所述的方法，所述匹配模型为因子分解机FM模型。

7.根据权利要求1所述的方法，所述多任务交替训练中使用的随机样本来源于由基于推荐策略的用户行为数据构成的行为样本，在每个目标对象的行为样本中抽取数量对应于该目标对象权重的行为样本作为随机样本，剩余的行为样本作为控制样本；所述目标对象权重根据所述目标对象在行为样本中的出现次数和其他目标对象的出现次数确定，出现次数更少的目标对象具有更高的目标对象权重。

8.根据权利要求7所述的方法，所述目标对象权重由下式确定：；其中为自然数，为目标对象权重的预定上限值，为所有目标对象在行为样本中出现次数的集合，为第个目标对象在行为样本中的出现次数。

9.一种向用户推荐目标对象的装置，包括：

10.根据权利要求9所述的装置，所述优化目标还包括：使控制匹配模型的损失尽可能小，以及，使随机匹配模型的损失尽可能小；所述控制匹配模型的损失由控制匹配模型的输出与控制样本的标记值之间的差异确定；所述随机匹配模型的损失由随机匹配模型的输出与随机样本的标记值之间的差异确定。

11.根据权利要求9所述的装置，所述同一目标对象的对象控制特征和对象随机特征之间的差异，根据所述目标对象的控制样本对于控制匹配模型的损失、与所述目标对象的随机样本对于随机匹配模型的损失的加权和，以及所述目标对象的对象控制特征的正则和所述目标对象的对象随机特征的正则来确定。

12.根据权利要求11所述的装置，所述对象特征生成单元具体用于：将目标对象的对象控制特征和对象随机特征的加权和作为所述目标对象的对象特征，加权的权值与多任务交替训练中用来计算控制样本对于控制匹配模型的损失与随机样本对于随机匹配模型的损失的加权和时所采用的权值相同。

13.根据权利要求9所述的装置，所述装置还包括特征嵌入单元，用于以下至少一项：将目标对象的对象原始特征输入控制嵌入模型得到所述目标对象的对象控制特征、将目标对象的对象原始特征输入随机嵌入模型得到所述目标对象的对象随机特征；所述控制嵌入模型在多任务交替训练中通过修改模型参数的值来修改输出的对象控制特征，所述随机嵌入模型在多任务交替训练中通过修改模型参数的值来修改输出的对象随机特征。

14.根据权利要求9所述的装置，所述匹配模型为因子分解机FM模型。

15.根据权利要求9所述的装置，所述多任务交替训练中使用的随机样本来源于由基于推荐策略的用户行为数据构成的行为样本，在每个目标对象的行为样本中抽取数量对应于该目标对象权重的行为样本作为随机样本，剩余的行为样本作为控制样本；所述目标对象权重根据所述目标对象在行为样本中的出现次数和其他目标对象的出现次数确定，出现次数更少的目标对象具有更高的目标对象权重。

16.根据权利要求15所述的装置，所述目标对象权重由下式确定：；其中为自然数，为目标对象权重的预定上限值，为所有目标对象在行为样本中出现次数的集合，为第个目标对象在行为样本中的出现次数。

17.一种计算机设备，包括：存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求1到8任意一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行如权利要求1到8任意一项所述的方法。