CN116029357A

CN116029357A - 训练样本生成、模型训练、点击率评估方法及电子设备

Info

Publication number: CN116029357A
Application number: CN202310322320.8A
Authority: CN
Inventors: 侯越; 冯晓东; 李虎; 徐琼; 王淼
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-04-28
Anticipated expiration: 2043-03-29
Also published as: CN116029357B

Abstract

本申请涉及计算机技术领域，尤其涉及一种训练样本生成、模型训练、点击率评估方法及电子设备，能够提高排序模型的预测准确率。方法包括：采集用户的正反馈行为数据及负反馈行为数据；通过第一嵌入层处理正反馈行为数据得到第一正反馈特征向量，通过第二嵌入层处理负反馈行为数据得到第一负反馈特征向量；将第一正反馈特征向量及第一负反馈特征向量进行拼接，得到第一交叉特征向量；根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；根据第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量得到用于训练排序模型的训练样本。

Description

训练样本生成、模型训练、点击率评估方法及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种训练样本生成、模型训练、点击率评估方法及电子设备。

背景技术

平台（例如电子商务网站、APP）可以使用推荐系统，根据用户的兴趣特点及用户对物品的行为数据，向用户推荐的物品。具体的，推荐系统可以包括排序模型，排序模型可以根据用户的兴趣特点及对用户对物品的行为数据，针对平台将要展示给用户的每一个物品，预测用户点击该物品的概率值。可以基于多个物品的预测概率值，对物品进行排序，生成推荐集并展示给用户。例如，按照用户点击物品的概率值的大小进行排序，将概率值大的物品排在首位。

用户对物品的行为数据可以包括正反馈行为数据及负反馈行为数据。正反馈行为数据包括表征用户对物品感兴趣的行为数据，例如可以是用户点击物品、用户购买物品、用户收藏物品等。负反馈行为数据包括表征用户对物品不感兴趣的行为数据，例如可以是用户拉黑物品、用户删除物品等。

相关技术中，在使用排序模型预测用户点击物品的概率值时，通常只采用用户的正反馈行为数据训练排序模型，或者将用户的负反馈行为数据简单拼接在正反馈行为数据上共同参与排序模型的训练。由于负反馈行为数据的数据量通常较少，将正反馈行为数据及负反馈行为数据一起输入排序模型中进行算法处理，会造成负反馈信息丢失。也就是说，相关技术中负反馈行为数据的利用率较低，但是正反馈行为特征数据和负反馈行为特征数据都可以反映用户偏好。在进行排序模型的训练时，主要使用正反馈行为数据，而不有效利用负反馈行为数据，会影响排序模型的训练效果，使得排序模型的预测效果不佳，进而影响推荐系统的推荐效果。

发明内容

有鉴于此，本申请提供了一种训练样本生成、模型训练、点击率评估方法及电子设备，能够提高排序模型的预测效果，提高推荐系统的推荐效果。

第一方面，本申请提供一种排序模型的训练样本生成方法，排序模型用于预测第一用户点击平台提供的物品的概率值，方法包括：采集第一用户针对物品的行为数据，行为数据包括正反馈行为数据及负反馈行为数据，正反馈行为数据包括表征第一用户对物品感兴趣的行为数据，负反馈行为数据包括表征第一用户对物品不感兴趣的行为数据；通过第一嵌入层处理正反馈行为数据得到第一正反馈特征向量，通过第二嵌入层处理负反馈行为数据得到第一负反馈特征向量；将第一正反馈特征向量及第一负反馈特征向量进行拼接，得到第一交叉特征向量；根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；其中，k为大于等于1的整数，第k+1正反馈特征向量与概率值的关联度高于第一正反馈特征向量与概率值的关联度，第k+1负反馈特征向量与概率值的关联度高于第一负反馈特征向量与概率值的关联度，第k+1交叉特征向量与概率值的关联度高于第一交叉特征向量与概率值的关联度；将第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量进行拼接，得到用于训练排序模型的训练样本。

本申请能够根据用户的正反馈行为数据与负反馈行为数据，提取到正负反馈行为数据中的交叉特征向量。并对由正反馈行为数据嵌入得来的正反馈特征向量、由负反馈行为数据嵌入得来的负反馈特征向量、及交叉特征向量进行迭代更新处理，筛选提取出正反馈特征向量、负反馈特征向量及交叉特征向量中更有用的特征数据（即与概率值关联程度更高的特征数据）。并且使正反馈特征向量、负反馈特征向量及交叉特征向量三者相互交互，避免在迭代更新过程中负反馈特征向量的丢失，能够更有效的利用负反馈行为数据。同时，提取到特征向量中更有用的特征数据，如此，能够得到包涵更多有用信息的特征向量，根据该特征向量得到训练样本，使用该训练样本训练排序模型能够提高排序模型的训练效果。

在第一方面的一种可能的实现方式中，根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包括：将第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量输入至少一个更新元，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；其中，更新元用于筛选第一正反馈特征向量中与概率值关联度高的向量元素、第一负反馈特征向量中与概率值关联度高的向量元素、第一交叉特征向量中与概率值关联度高的向量元素。本申请采用更新元筛选第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量中与概率值关联度高的向量元素，有助于提取到更有用的特征数据。

在第一方面的一种可能的实现方式中，将第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量输入至少一个更新元，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包括：将第k-1正反馈特征向量、第k-1负反馈特征向量及第k-1交叉特征向量，输入第k-1更新元，得到第k正反馈特征向量、第k负反馈特征向量及第k交叉特征向量，其中，第k正反馈特征向量、第k负反馈特征向量及第k交叉特征向量与概率值的关联度高于第k-1正反馈特征向量、第k-1负反馈特征向量及第k-1交叉特征向量与概率值的关联度；将第k正反馈特征向量、第k负反馈特征向量及第k交叉特征向量，输入第k更新元，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，其中，第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量与概率值的关联度高于第k正反馈特征向量、第k负反馈特征向量及第k交叉特征向量与概率值的关联度，k为大于等于1的整数；其中，当k等于1时，第k-1正反馈特征向量为第一正反馈特征向量、第k-1负反馈特征向量为第一负反馈特征向量及第k-1交叉特征向量为第一交叉特征向量。该实现方式提供一种采用更新元迭代更新第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量的一种可能的实现方式。

在第一方面的一种可能的实现方式中，在根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量之前，方法包括：通过第一全连接层处理第一正反馈特征向量，通过第二全连接层处理第一负反馈特征向量，通过第三全连接层处理第一交叉特征向量；其中，根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包括：根据通过第一全连接层处理后的第一正反馈特征向量、通过第二全连接层处理后的第一负反馈正特向量及通过第三全连接层处理后的第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量。本申请在采用更新元迭代更新第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量之前，采用全连接层处理上述特征向量，有助于提取到更加完整的特征向量。

在第一方面的一种可能的实现方式中，采用以下公式：

；

根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；其中，k为大于等于1的整数，为第k交叉特征向量，为将经第三全连接层处理得到，、、、、、为矩阵，用于放缩变量，为第k负反馈特征向量，为第k正反馈特征向量，为第k+1负反馈特征向量，为第k+1正反馈特征向量。该实现方式提供一种采用更新元迭代更新第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量的一种可能的运算方式。

第二方面，本申请提供一种排序模型的训练方法，排序模型用于预测第一用户点击平台提供的物品的概率值，方法包括；采用如第一方面任一项的方法生成的训练样本训练排序模型，使得排序模型具有预测第一用户点击平台提供的物品的概率值的能力。本申请采用前文介绍的排序模型的训练样本生成方法，生成的训练样本，由于训练样本中包涵更多有用信息，因此，由该训练样本训练得来的排序模型能够具有较好的预测效果，有助于提高推荐系统的推荐效果。

在第二方面的一种可能的实现方式中，训练样本包括特征向量及样本标签，特征向量由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量拼接得到，样本标签指示训练样本对应的物品的真实点击情况，第一用户点击训练样本对应的物品，样本标签为1，第一用户未点击训练样本对应的物品，样本标签为0；采用如第一方面任一项的方法生成的训练样本训练排序模型，使得排序模型具有预测第一用户点击平台提供的物品的概率值的能力，包括：将特征向量输入排序模型中，得到第一用户点击训练样本对应的物品的概率值；基于概率值及样本标签计算第一损失，第一损失用于衡量排序模型输出的第一用户点击训练样本对应的物品的概率值与样本标签间差距；采集一段时间内排序模型输出的用户点击物品的概率值及同一段时间内用户点击物品的真实概率值，计算第二损失，第二损失用于修正第一损失；根据第一损失及第二损失之和，优化排序模型的模型参数。该实现方式提供一种训练排序模型的一种可能的实现方式。

在第二方面的一种可能的实现方式中，基于概率值及样本标签计算第一损失包括：采用如下公式计算第一损失：

；

为针对训练样本i，排序模型输出的点击率预测值，为训练样本i的样本标签，第一用户点击训练样本i对应的物品，为1，第一用户未点击训练样本i对应的物品，为0，size为训练样本的数量。

上述采集一段时间内排序模型输出的用户点击物品的概率值及同一段时间内用户点击物品的真实概率值，计算第二损失，包括：

采用如下公式计算第二损失：

；

为用户维度统计用户点击物品的真实概率值，用户维度统计得到的用户点击物品的预测概率值，物品维度统计得到的用户点击物品的真实概率值，为物品维度统计得到的用户点击物品的预测概率值。

上述根据第一损失及第二损失之和，优化排序模型的模型参数，包括：

采用如下公式计算第一损失及第二损失之和：

；

其中，为第一损失，为第二损失，constant用于控制修正量的大小，，为一段时间内用户点击物品的真实概率值，为同一段时间内用户点击物品的预测概率值。本申请采用用户点击物品的真实概率值与排序模型预测的用户点击物品的预测概率值间的差值，修正第一损失函数，基于修正的模型损失优化模型参数，能够更好的模拟真实情况。

第三方面，本申请提供一种点击率评估方法，用于应用第二方面中任一项的方法训练得的排序模型进行点击率评估，方法包括：采集第二用户针对物品的行为数据，行为数据包括正反馈行为数据及负反馈行为数据，正反馈行为数据包括表征第二用户对物品感兴趣的行为数据，负反馈行为数据包括表征第二用户对物品不感兴趣的行为数据；将正反馈行为数据及负反馈行为数据输入排序模型中，得到第二用户点击物品的概率值，概率值用于对平台将要展示给第二用户的物品进行排序。本申请采用前文介绍的排序模型的训练方法，训练得到的排序模型进行点击率评估，由于训练后的排序模型具有较好的预测效果，使用训练后的排序模型进行点击率评估能够具有较高的准确率。

在第三方面的一种可能的实现方式中，根据正反馈行为数据及负反馈行为数据，输入排序模型中，得到第二用户点击物品的概率值，包括：将正反馈行为数据及负反馈行为数据输入排序模型中，得到特征向量，特征向量由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量拼接得到；根据特征向量，得到第二用户点击物品的概率值，概率值用于对平台将要展示给第二用户的物品进行排序。本申请中排序模型采用第一方面提供的训练样本生成方法，处理正负反馈数据，能够提升排序模型的预测效果。

第四方面，本申请提供一种电子设备，电子设备包括：存储器和一个或多个处理器；存储器与处理器耦合；其中，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令；当计算机指令被处理器执行时，使得电子设备执行如第一方面、第二方面及第三方面中任一项的方法。

第五方面，本申请提供一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面、第二方面及第三方面中任一项的方法。

可以理解地，第四方面任一种可能的设计方式的电子设备，第五方面的计算机可读存储介质所能达到的有益效果，可参考如第一方面、第二方面、第三方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为相关技术提供的一种推荐系统的模型示意图；

图2为相关技术提供的一种点击率评估过程的流程示意图；

图3为本申请实施例提供的一种个人计算机的结构示意图；

图4为本申请实施例提供的一种排序模型的训练样本的生成方法的流程示意图；

图5为本申请实施例提供的一种实现排序模型的训练样本的生成方法的模型示意图；

图6为本申请实施例提供的一种更新元的实现过程示意图；

图7为本申请实施例提供的另一种实现排序模型的训练样本的生成方法的模型示意图；

图8为本申请实施例提供的另一种更新元的实现过程示意图；

图9为本申请实施例提供的又一种更新元的实现过程示意图；

图10为本申请实施例提供的一种排序模型的训练方法的流程示意图；

图11为本申请实施例提供的一种点击率评估方法的流程示意图；

图12为本申请实施例提供的一种融合了正负反馈行为数据调节模型DeepFM模型的结构示意图；

图13为本申请实施例提供的一种推荐系统的模型示意图；

图14为本申请实施例提供的一种排序模型的预测效果示意图；

图15为本申请实施例提供的另一种排序模型的预测效果示意图。

具体实施方式

平台（例如电子商务网站、APP）可以使用推荐系统，根据用户的兴趣特点及用户对物品的行为数据，向用户推荐感兴趣的物品。图1示出了一种推荐系统的模型示意图。该推荐系统例如可以内置在手机中，手机可以包括商城应用程序，响应于用户点击商城应用程序，手机可以使用该推荐系统，显示包括多个物品的物品页面。平台不仅可以是电商域，例如电子商务网站，还可以是社区域，例如xx社区等。

如图1所示，推荐系统包括候选物品库、召回单元、排序单元、重排单元。具体的，响应于用户点击商城应用程序，召回单元可以根据不同的召回方式，从候选物品库中，初步选出待推荐给用户的物品集。召回方式例如可以包括策略召回、热度召回、多样性召回、兴趣召回、强推召回等。排序单元可以根据用户的行为数据对该物品集中的物品进行排序，例如将用户可能最想买的物品放在第一位。重排单元对排序后的物品集进行多样性控制、内容安全过滤、按规则重排处理，之后得到推荐集。手机将推荐集展示在界面上。应当理解，平台提供给用户的物品可以是商品，也可以是业务服务，还可以是资讯信息等，本申请对物品的具体类型不做限制。

排序模型例如可以是点击率(click-through rate，CTR)模型，CTR模型是推荐系统常用的机器学习模型之一。CTR模型可以用于预测用户对某款物品的点击率即用户点击某款物品的概率值，CTR模型可以为排序单元提供物品的点击率预测值，排序单元在对物品集中的物品进行排序时，可以参考物品的点击率预测值。

相关技术中，排序模型可以根据用户对物品的行为数据、用户属性特征、待预测物品的物品特征、以及上下文特征等，预测用户点击待预测物品的概率值。其中，用户属性特征例如可以包括用户的年龄、用户的性别等特征数据；待预测物品的物品特征例如可以包括物品ID、物品被点击次数等特征数据；上下文特征可以包括用户点击时间、用户登录设备等特征数据。

用户对物品的行为数据可以包括正反馈行为数据及负反馈行为数据。正反馈行为数据可以包括表征用户对物品感兴趣的行为数据，例如用户点击物品、用户购买物品、用户收藏物品、用户浏览物品等行为数据。用户对物品的负面行为即负反馈行为数据，也能体现用户的兴趣及特点。负反馈行为数据可以包括用户对物品不感兴趣的行为数据，例如用户拉黑物品、用户删除物品等行为数据。

如图2所示，相关技术中使用排序模型预测用户点击物品的概率值，预测过程包括从用户的行为日志中采集用户的行为数据、将用户的行为数据进行筛选得到特征信息，将特征信息嵌入为特征向量，将特征向量输出入算法模型中，排序模型进行用户行为预测。

在收集特征信息时，相关技术主要使用用户的正反馈行为数据，不使用负反馈行为数据，由于，负反馈行为数据能够反映出用户的喜好，缺少负反馈行为数据作为排序模型的输入，导致排序模型的预测准确率不高，进而导致所推荐物品的点击率不高，用户的转化率不高。

在一些实施例中，虽然将正反馈行为数据及负反馈行为数据，作为排序模型的输入，预测物品的点击率。例如，将正反馈行为数据及负反馈行为数据拼接之后，一起输入排序模型中。但是，由于负反馈行为数据的数据量通常较少，将正反馈行为数据及负反馈行为数据一起输入排序模型中进行算法处理，会造成负反馈信息丢失。

为此，本申请实施提供一种排序模型的训练样本生成方法，应用于第一电子设备，能够根据用户的正反馈行为数据与负反馈行为数据，提取到正负反馈行为数据中的交叉特征向量，并对由正反馈行为数据嵌入得来的正反馈特征向量、由负反馈行为数据嵌入得来的负反馈特征向量、及交叉特征向量进行迭代更新处理，筛选提取出正反馈特征向量、负反馈特征向量及交叉特征向量中更有用的特征数据（即与概率值关联程度更高的特征数据），并且使正反馈特征向量、负反馈特征向量及交叉特征向量三者相互交互，避免在迭代更新过程中特征向量的丢失，能够避免特征向量丢失的同时提取到特征向量中更有用的特征数据，如此，能够得到包涵更多有用信息的特征向量，根据该特征向量得到用于训练排序模型的训练样本，使用该训练样本训练排序模型能够提高排序模型的训练效果。

本申请实施例还提供一种排序模型的训练方法，应用于第二电子设备，采用前文介绍的排序模型的训练样本生成方法，生成的训练样本，由于训练样本中包涵更多有用信息，因此，由该训练样本训练得来的排序模型能够具有较好的预测效果，有助于提高推荐系统的推荐效果。

本申请实施例还提供一种点击率评估方法，应用于第三电子设备，采用前文介绍的排序模型的训练方法，训练得到的排序模型进行点击率评估，由于训练后的排序模型具有较好的预测效果，使用训练后的排序模型进行点击率评估能够具有较高的准确率。

示例性的，上述第一电子设备、第二电子设备或第三电子设备具体可以是服务器、手机、平板电脑、笔记本电脑、个人电脑（personal computer，PC）、超级移动个人计算机（ultra-mobile personal computer，UMPC）、手持计算机、上网本、智能家居设备（比如，智能电视、智慧屏、大屏、智能音箱、智能空调等）、个人数字助理（personal digitalassistant，PDA）、可穿戴设备（比如，智能手表、智能手环等）、车载设备、虚拟现实设备等，本申请实施例对此不做任何限制。在本申请实施例中，上述电子设备是可以运行操作系统，安装应用程序的电子设备。可选地，电子设备运行的操作系统可以是安卓®系统，Windows®系统，iOS®系统等。

需要说明的是，上述第一电子设备是用于生成排序模型的训练样本的设备。上述第二电子设备可以是用于训练排序模型的设备。上述第三电子设备可以是运行训练好的排序模型的设备。上述第一电子设备、第二电子设备、及第三电子设备可以是三个独立的设备，也可以是同一个设备，还可以是两个独立的设备，例如第一电子和与第二电子设备为同一个设备，第三电子设备为另一个设备。以下实施例中，以第一电子设备、第二电子设备和第三电子设备均为个人计算机PC为例，介绍本申请实施例的方法。

请参照图3，为本申请一实施例提供的个人计算机30的结构示意图。如图3所示，该个人计算机30可以包括：处理器31、存储器32、显示屏33、Wi-Fi装置34、蓝牙装置35、音频电路36、麦克风36A、扬声器36B、电源系统37、外设接口38、传感器模块39、数据转换模块40等部件。这些部件可通过一根或多根通信总线或信号线(图3中未示出)进行通信。本领域技术人员可以理解，图3中示出的硬件结构并不构成对个人计算机30的限定，个人计算机30可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，处理器31是个人计算机30的控制中心，利用各种接口和线路连接个人计算机30的各个部分，通过运行或执行存储在存储器32内的应用程序，以及调用存储在存储器32内的数据和指令，执行个人计算机30的各种功能和处理数据。在一些实施例中，处理器31可以包括一个或多个处理单元；处理器31还可以集成应用处理器和调制解调处理器；其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器31中。

在本申请其他一些实施例中，上述处理器31还可以包括AI芯片。AI芯片的学习和处理能力包括图像理解能力、自然语言理解能力和语音识别能力等。AI芯片可以使得个人计算机30具有更好的性能、更长的续航时间以及更好的安全性和隐私性。例如，若个人计算机30通过云端处理数据则需要数据上传处理后再返回结果，在现有技术条件下效率很低。若个人计算机30本地端具有较强的AI学习能力，那么个人计算机30就不需要把数据上传到云端，直接在本地端处理即可，因而可以在提高处理效率的同时，提高数据的安全性和隐私性。

例如，上述处理器31可以用于训练本申请实施例提供的排序模型；或者，还可以用于运行本申请实施例提供的排序模型，进行点击率评估。

存储器32用于存储应用程序以及数据，处理器31通过运行存储在存储器32的应用程序以及数据，执行个人计算机30的各种功能以及数据处理。存储器32主要包括存储程序区以及存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)；存储数据区可以存储根据使用个人计算机30时所创建的数据(比如音频数据、视频数据等)。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失存储器，例如磁盘存储器件、闪存器件或其他非易失性固态存储器件等。

示例性的，该存储器32可以用于存储上述预设神经网络模型对应的模型代码。

存储器32可以存储各种操作系统。示例性地，存储器32中还可以存储与本申请实施例相关的拨号软件等，存储器32中还存储可与本申请实施例注册登录相关的信息，例如用户账号信息。

显示屏33用于显示图像，视频等。该显示屏可以是触摸屏。在一些实施例中，个人计算机30可以包括1个或N个显示屏33，N为大于1的正整数。个人计算机30通过GPU，显示屏33，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏33和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器31可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

Wi-Fi装置34，用于为个人计算机30提供遵循Wi-Fi相关标准协议的网络接入。个人计算机30可以通过Wi-Fi装置34接入到Wi-Fi接入点，进而帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。个人计算机30还可以通过Wi-Fi装置和Wi-Fi接入点与连接到该Wi-Fi接入点的终端设备建立Wi-Fi连接，用于相互传输数据。在其他一些实施例中，该Wi-Fi装置34也可以作为Wi-Fi无线接入点，可以为其他计算机设备提供Wi-Fi网络接入。

蓝牙装置35，用于实现个人计算机30与其他短距离的电子设备(例如终端、智能手表等)之间的数据交换。本申请实施例中的蓝牙装置可以是集成电路或者蓝牙芯片等。

音频电路36、麦克风36A、扬声器36B可提供用户与个人计算机30之间的音频接口。音频电路36可将接收到的音频数据转换后的电信号，传输到扬声器36B，由扬声器36B换为声音信号输出；另一方面，麦克风36A将收集的声音信号转换为电信号，由音频电路36接收后转换为音频数据，再通过互联网或者Wi-Fi网络或者蓝牙将音频数据发送给终端，或者将音频数据输出至存储器32以便进一步处理。

电源系统37用于给个人计算机30的各个部件充电。电源系统37可以包括有电池和电源管理模块，电池可以通过电源管理芯片与处理器31逻辑相连，从而通过电源系统37实现管理充电、放电、以及功耗管理等功能。

外设接口38，用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线接口与鼠标连接，实现接收用户通过鼠标实施的相关操作的目的。又例如，通过外部存储器接口与外部存储器连接，例如Micro SD卡，实现扩展个人计算机30的存储能力。外设接口38可以被用来将上述外部的输入/输出外围设备耦接到处理器31和存储器32。

传感器模块39可以包括至少一种传感器。例如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器。其中，环境光传感器可根据环境光线的明暗来调节显示屏33的亮度。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别个人计算机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。当然，根据实际需求，传感器模块还可以包括其他任意可行的传感器。

数据转换模块40可以包括有数模转换器40A和模数转换器40B。其中，数模转换器（digital to analog converter，DAC），又称D/A转换器。数模转换器是把数字信号转变成模拟信号的器件。模数转换器(analog to digitalconverter,ADC)，又称为A/D转换器。模数转换器是把模拟信号转换成数字信号的器件。

以下实施例中，排序模型的训练样本生成方法、排序模型的训练方法以及点击率评估方法，均可以在具备上述硬件结构的计算机30中执行。

本申请实施例提供的一种排序模型的训练样本生成方法，该排序模型用于预测第一用户点击平台提供的物品的概率值。其中，平台例如可以是电子商务网站，信息资讯网站等，物品可以是商品、业务服务、资讯信息等。示例性的，电子商务网站在用户进入网站首页时，会在首页页面向用户展示各种商品，排序模型可以预测该用户点击首页展示的各个商品的概率值。下面结合图4介绍本申请实施例提供的一种排序模型的训练样本的生成方法。

在S401，PC采集第一用户针对物品的行为数据，行为数据包括正反馈行为数据及负反馈行为数据，正反馈行为数据包括表征第一用户对物品感兴趣的行为数据，负反馈行为数据包括表征第一用户对物品不感兴趣的行为数据。

PC采集第一用户针对物品的行为数据，例如PC采集一段时间内第一用户在浏览商城网站时对物品的行为数据，行为数据例如可以包括第一用户点击A物品、第一用户收藏B物品、第一用户评价C物品等。

第一用户针对物品的行为数据包括正反馈行为数据及负反馈行为数据。正反馈行为数据包括表征第一用户对物品感兴趣的行为数据，例如第一用户点击A物品、第一用户购买A物品、第一用户收藏B物品、第一用户浏览C物品、第一用户对物品A的点击次数、第一用户在一天时间内的点击物品的次数等行为数据。负反馈行为数据包括表征第一用户对物品不感兴趣的行为数据，例如第一用户拉黑D物品、第一用户删除E物品等行为数据。

在S402，PC通过第一嵌入层处理正反馈行为数据得到第一正反馈特征向量，通过第二嵌入层处理负反馈行为数据得到第一负反馈特征向量。

嵌入层（embedding层）可以进行数据的降维，实现高维稀疏特征向量向低维稠密特征向量的转化，将正反馈行为数据及负反馈行为数据经独热编码后的稀疏向量转化成稠密的特征向量。具体的，PC将正反馈行为数据输入第一嵌入层，通过第一嵌入层处理该正反馈行为数据，得到第一正反馈特征向量。PC将负反馈行为数据输入第二嵌入层，通过第二嵌入层处理该负反馈行为数据，得到第一负反馈特征向量。第一嵌入层与第二嵌入层可以是不同的嵌入层，例如第一嵌入层与第二嵌入层可以是参数不同的嵌入层，参数例如可以是嵌入层的布尔值、嵌入矩阵的正则项、嵌入矩阵的约束项等各项参数。

在S403，PC将第一正反馈特征向量及第一负反馈特征向量进行拼接，得到第一交叉特征向量。

第一交叉特征向量包括第一正反馈特征向量中的向量元素及第一负反馈特征向量中的向量元素。

本申请不限制向量的拼接方式，例如向量的拼接可以包括行拼接及列拼接。行拼接用于横向拼接，例如，PC将第一正反馈特征向量[x1,x2,x3,x4,x5]与第一负反馈特征向量[y1,y2,y3]拼接，得到拼接后的第一交叉特征向量[x1,x2,x3,x4,x5,y1,y2,y3]。又例如，PC将第一正反馈特征向量与第一负反馈特征向量拼接，得到拼接后的第一交叉特征向量。列拼接用于纵向拼接，例如，PC将第一正反馈特征向量与第一负反馈特征向量拼接，得到拼接后的第一交叉特征向量。

在S404，PC根据第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量。其中，k为大于等于1的整数。第k+1正反馈特征向量与概率值的关联度高于第一正反馈特征向量与概率值的关联度。第k+1负反馈特征向量与概率值的关联度高于第一负反馈特征向量与概率值的关联度。第k+1交叉特征向量与概率值的关联度高于第一交叉特征向量与概率值的关联度。

示例性的，PC可以将第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量输入至少一个更新元中，便可以得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量。其中，k为大于等于1的整数。

其中，上述更新元用于筛选第一正反馈特征向量中与概率值关联度高的向量元素（即筛选第一正反馈特征向量中更有用的特征数据）。第一负反馈特征向量中与概率值关联度高的向量元素（即筛选第一负反馈特征向量中更有用的特征数据）。第一交叉特征向量中与概率值关联度高的向量元素（即筛选第一交叉馈特征向量中更有用的特征数据）。同时，更新元可以使第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量相互交互，避免在迭代更新过程中特征向量的丢失。

经过处理后的第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，丢弃了不重要的特征数据例如噪声数据，仅保留更有用的特征数据。因此，第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量与概率值的关联度高于第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量与概率值的关联度。也就是说，处理后的第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包涵更多有用信息。使用k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量预测第一用户点击物品的概率值时能够更加的准确。

为了提取到更加完整的第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量，

在更新元更新第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量之前，可以通过全连接层对第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量分别进行处理。

其中，全连接层中每一个结点都与上一层的所有结点相连，可以将前边提取到的特征综合起来，有助于提取到更加完整的第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量。

具体的，可以通过第一全连接层处理第一正反馈特征向量，可以通过第二全连接层处理第一负反馈特征向量，可以通过第三全连接层处理第一交叉信息。第一全连接层、第二全连接层、第三全连接层可以是不同的全连接层，例如，第一全连接层、第二全连接层与第三全连接层可以是结点数量不同且结点的权重系数不同的全连接层。

如此，便可以根据通过第一全连接层处理后的第一正反馈特征向量、通过第二全连接层处理后的第一负反馈特征向量，及通过第三全连接层处理后的第一交叉特征向量得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量。

本申请实施例中，K≥1，K为整数。

以k等于1为例。在K等于1的情况下，本申请实施例中，可以通过一层更新元进行特征向量的筛选。

在K=1的情况下，上述至少一个更新元可以包括一个更新元，如第一更新元。PC可以将第一正反馈特征向量、第一负反馈特征向量及第一交叉特征向量输入第一更新元，可以得到第二正反馈特征向量、第二负反馈特征向量及第二交叉特征向量。

作为一个示例，如图5及图6所示，首先，PC将正反馈行为数据输入第一嵌入层，得到第一正反馈特征向量，将负反馈数据输入第二嵌入层得到第一负反馈特征向量。通过第一全连接层处理第一正反馈特征向量得到第一正反馈特征向量，通过第二全连接层处理第一负反馈特征向量得到第一负反馈特征向量。PC将第一正反馈特征向量与第一负反馈特征向量进行拼接，得到第一交叉特征向量。通过第三全连接层处理第一交叉特征向量，得到处理后的第一交叉特征向量。

其次，PC将第一正反馈特征向量、第一负反馈特征向量、第一交叉特征向量输入第一更新元中，得到第二正反馈特征向量、第二负反馈特征向量、第二交叉特征向量。具体的，采用下面的公式实现。

公式1：。

公式1用于计算、、的哈达玛积得到。其中，为哈达玛积(Hadamard product)运算。若A=(a_ij)和B=(b_ij)是两个同阶矩阵，若c_ij=a_ij×b_ij，则称矩阵C=(c_ij)为A和B的哈达玛积或称基本积。tanh()函数为双曲正切函数是一种非线性激活函数。将特征向量中的所有向量元素的值映射在（-1,1）之间。将特征向量中的所有向量元素的值映射在（-1,1）之间。

采用公式1可以筛选第一交叉特征向量中与概率值关联度高的向量元素。

具体的，与中包括值为0向量元素，在于、进行哈达玛积运算时，中向量元素与值为0的向量元素进行哈达玛积运算后，其值也为0即丢弃了中不重要的特征数据。中向量元素与值为1的向量元素进行哈达玛积运算后，其值不变即保留了中重要的特征数据。也就是说，保留了中重要的特征数据丢弃了不重要的特征数据。同时，包涵了第一正反馈特征向量和及第一负反馈特征向量的特征信息。

公式2：。

公式2中为sigmoid激活函数又称为Logistic函数，可以将实数映射到(0,1)的区间。将特征向量中的所有向量元素的值映射在(0,1)之间。将特征向量中的所有向量元素的值映射在(0,1)之间。

公式3：。

公式3中PReLU()为参数化修正线性单元，是一种修正类的激活函数。采用PReLU()激活函数对进行修正，能够得到。

。

公式4：。

公式4用于计算第一正反馈特征向量与的哈达玛积，得到更新后的第二正反馈特征向量。

采用公式4可以筛选第一正反馈特征向量中与概率值关联度高的向量元素。

具体的，包括值为0的向量元素，与进行哈达玛积运算时，中向量元素与值为0的向量元素进行哈达玛积运算后，其值也为0即丢弃了中不重要的特征数据。中向量元素与值为1的向量元素进行哈达玛积运算后，其值不变即保留了中重要的特征数据。同时，由第一正反馈特征向量，第一负反馈特征向量、及得到。由第一交叉特征向量与第一正反馈特征向量，第一负反馈特征向量运算得到。因此，包括第一正反馈特征向量，第一负反馈特征向量、第一交叉特征向量的特征数据。将更新为时，可以避免特征数据的丢失。

公式5：。

公式5用于计算第一负反馈特征向量与的哈达玛积，得到更新后的第二负反馈特征向量。

采用公式5可以筛选第一负反馈特征向量中与概率值关联度高的向量元素。

具体的，包括值为0的向量元素，与进行哈达玛积运算时，中向量元素与值为0的向量元素进行哈达玛积运算后，其值也为0即丢弃了中部分不重要的特征数据。中向量元素与值为1的向量元素进行哈达玛积运算后，其值不变即保留了中重要的特征数据。同时，由第一正反馈特征向量，第一负反馈特征向量、及得到。由第一交叉特征向量与第一正反馈特征向量，第一负反馈特征向量运算得到。因此，包括第一正反馈特征向量，第一负反馈特征向量、第一交叉特征向量的特征数据。将更新为时，可以避免特征数据的丢失。

公式6：。

公式6用于根据第一交叉特征向量及得到更新后的第二交叉特征向量。如公式6所示，将及第一交叉特征向量相加，并采用PReLU()激活函数对进行修正，得到第二交叉特征向量。

采用公式6可以提取第一正反馈特征向量，第一负反馈特征向量中的交叉信息。具体的，由得来，由第一正反馈特征向量，第一负反馈特征向量、及得到。由第一交叉特征向量与第一正反馈特征向量，第一负反馈特征向量运算得到。因此，第二交叉特征向量可以提取到第一正反馈特征向量，第一负反馈特征向量中的交叉信息。

在上述公式1-公式5中，、、、、、为矩阵，用于放缩变量。

在图5中，第一更新元采用上述公式1-公式6，可以实现第一正反馈特征向量，第一负反馈特征向量及第一交叉特征向量相互交互及更新迭代。图5中，第一更新元1及第一更新元1为同一个更新元，为了便于理解，将同一个更新元画在交叉信息提取模块的两边。第一更新元1具有三个的输入分别为第一正反馈特征向量、第一负反馈特征向量、第一交叉特征向量。

作为另一个示例，K也可以大于1。在K大于1的情况下，本申请实施例中，可以通过多层更新元进行特征向量的筛选。

在K＞1的情况下，上述至少一个更新元可以包括多个更新元。例如以k等于3为例，上述至少一个更新元可以包括第一更新元、第二更新元和第三更新元。在图7中，第一更新元1及第一更新元1为同一个更新元，为了便于理解，将同一个更新元画在交叉信息提取模块的两边。同理，第二更新元1与第二更新元1为同一个更新元，第三更新元1与第三更新元1为同一个更新元。

图7还可以包括3个全连接层，第三全连接层1、第三全连接层2、以第三全连接层3。这三个全连接层可以为不同的全连接层，例如这三个全连接层可以为结点数量相同但结点的权重系数不同的全连接层。

如图7及图8所示，首先，PC将第一正反馈特征向量、第一负反馈特征向量、第一交叉特征向量输入第一更新元1中，得到第二正反馈特征向量、第二负反馈特征向量、第二交叉特征向量。该实现过程与k=1时，将上述特征向量输入第一更新元的实现过程一致，此处不在赘述。

之后，PC将第一更新元1的输出作为第二更新1的输入，实现特征向量的迭代更新。

具体的，PC将第一更新元1输出的将第二交叉特征向量输入第三全连接层2，得到处理后的第二交叉特征向量。

PC将第一更新元输出第二负反馈特征向量、第二正反馈特征向量、以及处理后第二交叉特征向量输入第二更新元1中，得到第三负反馈特征向量、第三正反馈特征向量、第三交叉特征向量。具体的采用如下公式，公式中的参数详见前文，此处不再赘述。

。

之后，PC将第二更新元1的输出作为第三更新1的输入，实现特征向量的迭代更新。

具体的，第二更新元1的输出第三交叉特征向量输入第三全连接层3，得到处理后的第二交叉特征向量。

第二更新元1的输出第三负反馈特征向量、第三正反馈特征向量、以及处理后第三交叉特征向量输入第三更新元1，得到第四负反馈特征向量、第四正反馈特征向量、第四交叉特征向量。

。

也就是说，如图9所示，对于第k级更新元，其输入为第k负反馈特征向量、第k正反馈特征向量、第k交叉特征向量，其输出为经过更新后的第k+1负反馈特征向量、第k+1正反馈特征向量、第k+1交叉特征向量。具体的采用如下公式更新迭代。

。

PC在得到的第k+1负反馈特征向量、第k+1正反馈特征向量、第k+1交叉特征向量之后，可以将第k+1负反馈特征向量、第k+1正反馈特征向量、第k+1交叉特征向量作为训练样本中的特征向量，即得到用于训练排序模型的训练样本。

图6、图8及图9中激活函数均为PReLU()激活函数。

在S405，PC将第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量进行拼接，得到用于训练排序模型的训练样本。

训练样本包括特征向量及样本标签，其中，特征向量由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量的拼接得到。前文已经介绍了特征向量的拼接方法，此处不再赘述。

样本标签用于指示训练样本对应的物品的真实点击情况。第一用户点击训练样本对应的物品，该训练样本可以是正样本，训练样本的样本标签可以为1。第一用户未点击训练样本对应的物品，该训练样本可以是负样本，训练样本的样本标签可以为0。训练样本对应的物品可以是训练样本对应的待预测的物品，训练样本中可以包括待预测物品的物品特征。

作为一个示例，正样本例如可以是。其中，由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量的拼接得到。“1”为训练样本的第一样本标签，指示用户点击了与正样本对应的物品。

负样本例如可以是，其中，由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量的拼接得到。“0”为训练样本的第二样本标签，指示用户没有点击与负样本对应的物品。

如图5或图7所示，本申请实施例提供的一种排序模型的样本生成方法基于由正负反馈行为数据调节模型实现。正负反馈行为数据调节模型可以是一种神经网络，其输入是正反馈行为数据及负反馈行为数据，其输出是由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量的拼接得到特征向量。该正负反馈行为数据调节模型包括第一嵌入层，第二嵌入层、第一全连接层、第二全连接层、至少一个第三全连接层、及至少一个更新元，其中，上述各个层及更新元的作用前文已经介绍，可详见前文。正负反馈行为数据调节模型可以包括正反馈特征链，用于提取正反馈特征向量。负反馈特征链，用于提取负反馈特征向量。交叉信息提取模块，用于提取交叉特征数据。正反馈特征向量、负反馈特征向量及交叉特征向量通过更新元相互交互，使得模型可以更好地捕捉真实信息，进而更好的拟合数据。将正负反馈特征向量分开更新后再拼接在一起，减少了大量正反馈特征向量对负反馈特征向量的影响。

如图5或图7所示，将由k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量拼接后的特征向量，输入排序模型中，排序模型可以输出第一用户点击物品的概率值。

本申请实施例还提供一种排序模型的训练方法，采用如前文介绍的任一种方法生成训练样本训练排序模型，使得该排序模型具有预测第一用户点击平台提供的物品的概率值的能力。

例如，PC将正样本输入点击率评估模型中，模型输出用户点击第一物品的概率值，例如该概率值为0.6，基于正样本的第一标签“1”，PC迭代优化点击率评估模型的模型参数，使得该概率值趋近1。又例如，PC将负样本输入点击率评估模型中，模型输出用户点击第一物品的概率值，例如该概率值为0.6，PC基于负样本的第二标签“0”，迭代优化点击率评估模型的模型参数，使得该概率值趋近0。如此，使得点击率评估模型具有输出第一物品被点击的概率值的能力。

进一步的，在训练该排序模型时，可以采用损失函数，优化模型参数，提高模型的预测准确性。损失函数（loss function）是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。然而，训练样本中的正负样本非常不均匀，具体的，以电子商城为例，推荐展示给用户的物品较多，被用户点击的物品较少，也就是说，展示给用户且用户点击物品的行为（正样本）较少。展示给用户但用户没点击的物品的行为（负样本）较多。负样本的数量远大于正样本的数量，导致点击率评估模型不能很好的拟合真实的数据，模型预测值产生偏差。基于此，本申请实施例还提供一种新的修正损失函数，用于训练排序模型。

具体的，如图10所示，图10示出了一种排序模型的训练方法的流程示意图。

在S1001，PC将特征向量输入排序模型中，得到第一用户点击物品的概率值。

训练样本的特征向量由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量的拼接得到。将训练样本的特征向量输入排序模型中，得到第一用户点击训练样本对应的物品的概率值。应当理解，训练样本还可以包括第一用户的用户特征向量、待预测物品的特征向量、上下文特征向量等，在使用训练样本训练排序模型时，可以将上述特征向量都输入排序模型中，得到用户点击待预测物品的概率值。

在S1002，PC基于概率值及样本标签计算第一损失。

第一损失用户衡量排序模型输出的概率值与样本标签间差距。作为一个示例，对于正样本，排序模型输出的概率值为0.6，样本标签为1，第一损失函数衡量排序模型输出的概率值与样本标签间的距离。通过优化排序模型的参数，使得该距离越近即预测值与真实值越接近，实现模型的优化训练。

在一些实施例中，第一损失可以是交叉熵函数，可以用于计算一定数量的训练样本的第一损失。具体的，可以采用如下公式计算第一损失。

。

为第一损失，用于排序模型拟合训练数据。为针对训练样本i，排序模型预测的第一用户点击与训练样本i对应的物品的概率值，即第一用户点击训练样本i中的待预测物品的概率值。为训练样本i样本标签，第一用户点击该训练样本对应的物品，训练样本i为正样本，为1。第一用户未点击该训练样本对应的物品，训练样本i为负样本，为0。size为训练样本的数量。

在S1003，PC采集一段时间内排序模型输出的用户点击物品的概率值及同一段时间内用户点击物品的真实概率值，计算第二损失。

第二损失用于修正第一损失，采用下面的公式计算第二损失。

。为第二损失，用于修正第一损失，修正因训练集随机采样带来的误差。

为用户维度统计得到用户点击物品的真实概率值，为用户维度统计得到的用户点击物品的预测概率值。

示例性的，可以根据上一批次（batch）内排序模型的预测结果和真实值的偏差进行修正。具体的，PC可以采集上一批次（batch）内排序模型输出的用户点击物品的概率值。例如商城首页曝光了10次即用户打开了10次商城首页，用户可以是同一用户也可以是不同用户，商城首页可以展示10种商品。针对一次首页曝光，排序模型可以输出用户点击10种商品对应的10个概率值。可以采集10次首页曝光，排序模型输出100个概率值。将其求和，得到，也就是说，为排序模型预测10次首页曝光中，用户点击物品的概率值的总和。在这10次曝光中，用户真实点击首页展示的物品2次，则用户点击物品的真实概率值为1/5。

为物品维度统计得到的用户点击物品的真实概率值，为物品维度统计得到的用户点击物品的预测概率值。

示例性的，商城首页曝光了10次即用户打开了10次商城首页，用户可以是同一用户也可以是不同用户，商城首页可以展示10种商品。可以采集10次首页曝光，排序模型输出100个概率值。将其求和，得到，为排序模型预测100个物品每个物品被点击的概率值的总和。在这10次曝光中，针对被曝光的100个物品，被点击的物品为5个，则用户点击物品的真实概率值为1/20。

在S1004，PC根据第一损失及第二损失之和，优化排序模型的模型参数。

在一些实施例中，会对第二损失函数进行修正，控制第二损失函数的大小。具体的，采用下面的公式计算排序模型的损失。

。

Loss为排序模型的模型损失。constant用于控制第二损失的大小。，其中，为一段时间内用户点击物品的真实概率值，为同一段时间内用户点击物品的预测概率值。

例如，PC可以统计前一天用户点击某购物网站首页中物品的真实概率值及前一天排序模型预测的用户点击某该购物网站首页中物品的预测概率值，得到constant。某购物网站首页前一天将首页曝光给用户的次数为100次，用户点击首页所展示的物品的次数为20次，则为1/5。以首页包括20个物品为例，点击率评估模型针对每次曝光，预测用户点击首页所展示的20个物品的20个概率值。计算20个概率值的总和，得到一次曝光模型的预测值，首页曝光了100次，计算每次曝光模型的预测值。并将100次模型的预测值总和并除以20×100，得到。

常量（constant）借鉴了自适应算法思想，当模型前一天预测效果与真实情况吻合时（即预测效果较好时），constant的值较小，可以对模型进行小幅度的误差修正，反之，则需要进行大幅度的误差修正。

可见，使用深度处理后交叉特征向量、正反馈特征向量及负反馈特征向量训练排序模型，能够使得模型更加准确的识别用户的意图及喜好，更加精准的预测出用户点击物品的概率值，有助于更精准的营销与推荐，提升用户体验。同时，采用用户点击物品的真实概率值与排序模型预测的用户点击物品的预测概率值间的差值，修正第一损失函数，基于修正的模型损失优化模型参数，能够更好的模拟真实情况。

前文主要介绍了排序模型的训练样本的生成方法，排序模型的训练方法，下面介绍一下本申请实施例提供的一种点击率评估方法。采用如前文介绍的任一种排序模型的训练方法训练得到来的排序模型预测第二用户点击物品的概率值。图11示出了一种点击率评估方法的流程示意图。

在S1101，PC采集第二用户针对物品的行为数据，行为数据包括正反馈行为数据及负反馈行为数据。

在S1102，PC将正反馈行为数据及负反馈行为数据输入排序模型中，得到第二用户点击物品的概率值。

PC将正反馈行为数据及负反馈行为数据输入排序模型中，得到用户点击物品的概率值。示例性的，将第二用户的正反馈行为数据及负反馈行为数据输入排序模型中，对于平台将要展示给第二用户的10个物品，排序模型可以输出针对每个物品，第二用户点击该物品的概率值，因此可以得到10个概率值。该概率值用户对平台将要展示给第二用户的10个物品进行排序，例如按照概率值由大到小依次展示对应的物品。

在一些实施例中，如图5或图7所示的正负反馈行为数据调节模型可以融合在排序模型中。应当理解，本申请实施例提供的正负反馈行为数据调节模型可以融合在任意一种类型的排序模型中，本申请不限制用于融合正负反馈行为数据调节模型的排序模型的类型。示例性的，正负反馈行为数据调节模型可以融合在深度因子分解机（deepfactorization machine，DeepFM）模型中，正负反馈行为数据调节模型还可以融合在（deepinterest network，DIN）模型中。

以DeepFM模型为例，将正负反馈行为数据调节模型融合在DeepFM模型中得到PN-DeepFM模型。如图12所示，PN-DeepFM模型包括FM层及Deep层，将本申请实施例提供的正负反馈行为数据调节模型融合在Deep层中，可以提高DeepFM模型对正负反馈行为数据的获取能力。如图12所示，PN-DeepFM模型还包括嵌入层，相当于正负反馈行为数据调节模型中第一嵌入层及第二嵌入层，用于对正反馈行为数据进行嵌入处理得到第一正反馈特征向量，对负反馈行为数据进行嵌入处理得到第一负反馈特征向量。

排序模型例如还可以是DIN模型，将正负反馈行为数据调节模型融合在该排序模型中得到PN-DIN模型。

如此，在S1102还包括S1102a及S1102b。

在S1102a，PC将正反馈行为数据集负反馈行为数据输入排序模型中，得到特征向量，特征向量由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量拼接得到。

在S1102b，PC根据特征向量，得到第二用户点击物品的概率值，概率值用于对平台将要展示给第二用户的物品进行排序。

以图12所示的PN-DeepFM模型为例，将正反馈行为数据及负反馈行为数据输入PN-DeepFM模型中，通过正负反馈行为数据调节模型处理正反馈行为数据及负反馈行为数据，得到由第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量拼接得到的特征向量。PN-DeepFM模型根据该特征向量，输出第二用户点击物品的概率值。

将正负反馈行为数据调节模型融合在排序模型中，能够提高排序模型对正负反馈信息的获取能力，从而提高模型的AUC及CTR，进而提升推荐系统的推荐能力。

图13示出了另一种推荐系统的模型。与图1所示的推荐系统的模型不同，图13所示的推荐系统在排序单元加入了正负反馈行为数据调节模型。能够根据用户的反馈行为数据及负反馈行为数据，处理得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量。根据第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量进行点击率预测，可以提高排序模型的预测准确率，进而提升推荐系统的推荐效果。

进一步的，本申请实施例基于埋点日志对真实推荐场景进行仿真，模拟点击率评估模型的线上应用效果。本申请实施例采用测试数据集对点击率评估样本进行线上测试效果的测试。

测试数据集包括正反馈行为数据及负反馈行为数据，将正反馈行为数据及负反馈行为数据输入包涵正负反馈行为数据调节模型的排序模型中，测试排序模型的预测效果。

具体的，测试样本包括正样本及负样本，将正样本中的正反馈行为数据及负反馈行为数据输入排序模型中，得到用户点击正样本对应的物品的概率值。将负样本中的正反馈行为数据及负反馈行为数据输入排序模型中，得到用户点击负样本对应的物品的概率值。根据概率值及样本标签计算排序模型的AUC指标及CTR指标，用于评估模型的预测效果。其中，AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积。AUC指标的取值范围在0.5到1之间。AUC指标的值越大，指示模型的预测效果越好。CTR（Click-Through-Rate）等于物品点击次数/物品曝光次数。CTR指标的值越大，指示模型的推荐效果越好。

如图14所示，图14展示了初始DeepFM模型、基于正负反馈信息调节的PN-DeepFM模型、初始DIN模型、基于正负反馈信息调节的PN-DIN模型的离线AUC指标。离线AUC指标可以用于衡量排序模型的离线效果。

基于正负反馈信息调节的PN-DeepFM模型的AUC指标为0.73。初始DeepFM模型的AUC指标为0.715。可见增加了正负反馈行为数据调节模型的PN-DeepFM模型的预测效果较好。基于正负反馈信息调节的PN-DIN模型的AUC指标为0.738。初始DIN模型AUC指标为0.728。可见增加了正负反馈行为数据调节模型的PN-DIN模型的预测效果较好。

如图15所示，图15展示了初始DeepFM模型、基于正负反馈信息调节的PN-DeepFM模型、初始DIN模型、基于正负反馈信息调节的PN-DIN模型的离线CTR指标。基于正负反馈信息调节的PN-DeepFM模型的CTR指标为1.57%。初始DeepFM模型的CTR指标为1.43%。可见增加了正负反馈行为数据调节模型的PN-DeepFM模型的推荐效果较好。基于正负反馈信息调节的PN-DIN模型的CTR指标为1.62%。初始DIN模型CTR指标为1.49%。可见增加了正负反馈行为数据调节模型的PN-DIN模型的推荐效果较好。

可见，如图14及图15所示，基于正负反馈行为数据调节模型的排序模型的预测效果更好，具体的，离线AUC效果提升约2%，点击率提升约10%，转换率提升8%。

可见，本申请实施例提供的基于正负反馈行为数据调节模型的排序模型，相比于初始DeepFM模型及初始DIN模型更加充分地使用正负反馈信息，同时使用修正后的损失函数可以更好地修正模型。同时正负反馈行为数据调节模型可以作为模块，很好地适用于其他模型。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当计算机指令在上述电子设备（如图3所示的个人计算机30）上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例中的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种排序模型的训练样本生成方法，其特征在于，所述排序模型用于预测第一用户点击平台提供的物品的概率值，所述方法包括：

采集所述第一用户针对物品的行为数据，所述行为数据包括正反馈行为数据及负反馈行为数据，所述正反馈行为数据包括表征所述第一用户对所述物品感兴趣的行为数据，所述负反馈行为数据包括表征所述第一用户对所述物品不感兴趣的行为数据；

通过第一嵌入层处理所述正反馈行为数据得到第一正反馈特征向量，通过第二嵌入层处理所述负反馈行为数据得到第一负反馈特征向量；

将所述第一正反馈特征向量及所述第一负反馈特征向量进行拼接，得到第一交叉特征向量；

根据所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；其中，k为大于等于1的整数，所述第k+1正反馈特征向量与所述概率值的关联度高于所述第一正反馈特征向量与所述概率值的关联度，所述第k+1负反馈特征向量与所述概率值的关联度高于所述第一负反馈特征向量与所述概率值的关联度，所述第k+1交叉特征向量与所述概率值的关联度高于所述第一交叉特征向量与所述概率值的关联度；

将所述第k+1正反馈特征向量、所述第k+1负反馈特征向量及所述第k+1交叉特征向量进行拼接，得到用于训练所述排序模型的训练样本。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包括：

将所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量输入至少一个更新元，得到所述第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；

其中，所述更新元用于筛选所述第一正反馈特征向量中与所述概率值关联度高的向量元素、所述第一负反馈特征向量中与所述概率值关联度高的向量元素、所述第一交叉特征向量中与所述概率值关联度高的向量元素。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量输入至少一个更新元，得到所述第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包括：

将第k-1正反馈特征向量、第k-1负反馈特征向量及第k-1交叉特征向量，输入第k-1更新元，得到第k正反馈特征向量、第k负反馈特征向量及第k交叉特征向量，其中，所述第k正反馈特征向量、所述第k负反馈特征向量及所述第k交叉特征向量与所述概率值的关联度高于所述第k-1正反馈特征向量、所述第k-1负反馈特征向量及所述第k-1交叉特征向量与所述概率值的关联度；

将所述第k正反馈特征向量、所述第k负反馈特征向量及所述第k交叉特征向量，输入第k更新元，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，其中，所述第k+1正反馈特征向量、所述第k+1负反馈特征向量及所述第k+1交叉特征向量与所述概率值的关联度高于所述第k正反馈特征向量、所述第k负反馈特征向量及所述第k交叉特征向量与所述概率值的关联度，k为大于等于1的整数；

其中，当所述k等于1时，所述第k-1正反馈特征向量为所述第一正反馈特征向量、所述第k-1负反馈特征向量为所述第一负反馈特征向量及所述第k-1交叉特征向量为所述第一交叉特征向量。

4.根据权利要求1所述的方法，其特征在于，在根据所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量之前，所述方法包括：

通过第一全连接层处理所述第一正反馈特征向量，通过第二全连接层处理所述第一负反馈特征向量，通过第三全连接层处理所述第一交叉特征向量；

其中，所述根据所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量，包括：

根据所述通过第一全连接层处理后的所述第一正反馈特征向量、所述通过第二全连接层处理后的所述第一负反馈正特向量及所述通过第三全连接层处理后的所述第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量。

5.根据权利要求4所述的方法，其特征在于，采用以下公式：

；

根据所述第一正反馈特征向量、所述第一负反馈特征向量及所述第一交叉特征向量，得到第k+1正反馈特征向量、第k+1负反馈特征向量及第k+1交叉特征向量；

其中，所述k为大于等于1的整数，为第k交叉特征向量，为将经第三全连接层处理得到，、、、、、为矩阵，用于放缩变量，为第k负反馈特征向量，为第k正反馈特征向量，为第k+1负反馈特征向量，为第k+1正反馈特征向量。

6.一种排序模型的训练方法，其特征在于，所述排序模型用于预测第一用户点击平台提供的物品的概率值，所述方法包括；

采用如权利要求1-5任一项所述的方法生成的训练样本训练所述排序模型，使得所述排序模型具有预测所述第一用户点击所述平台提供的物品的概率值的能力。

7.根据权利要求6所述的方法，其特征在于，所述训练样本包括特征向量及样本标签，所述特征向量由所述第k+1正反馈特征向量、所述第k+1负反馈特征向量及所述第k+1交叉特征向量拼接得到，所述样本标签指示所述训练样本对应的物品的真实点击情况，所述第一用户点击所述训练样本对应的物品，所述样本标签为1，所述第一用户未点击所述训练样本对应的物品，所述样本标签为0；

所述采用如权利要求1-5任一项所述的方法生成的训练样本训练所述排序模型，使得所述排序模型具有预测所述第一用户点击所述平台提供的物品的概率值的能力，包括：

将所述特征向量输入所述排序模型中，得到所述第一用户点击训练样本对应的物品的概率值；

基于所述概率值及所述样本标签计算第一损失，所述第一损失用于衡量所述排序模型输出的所述第一用户点击所述训练样本对应的物品的概率值与样本标签间差距；

采集一段时间内排序模型输出的用户点击物品的概率值及同一段时间内用户点击物品的真实概率值，计算第二损失，所述第二损失用于修正所述第一损失；

根据所述第一损失及所述第二损失之和，优化所述排序模型的模型参数。

8.根据权利要求7所述的方法，其特征在于，所述基于所述概率值及所述样本标签计算第一损失包括：

采用如下公式计算所述第一损失：

；

为针对训练样本i，所述排序模型输出的点击率预测值，为训练样本i的样本标签，所述第一用户点击所述训练样本i对应的物品，所述为1，所述第一用户未点击所述训练样本i对应的物品，所述为0，size为所述训练样本的数量；

采集一段时间内排序模型输出的用户点击物品的概率值及同一段时间内用户点击物品的真实概率值，计算第二损失，包括：

采用如下公式计算所述第二损失：

；

为用户维度统计用户点击物品的真实概率值，用户维度统计得到的用户点击物品的预测概率值，物品维度统计得到的用户点击物品的真实概率值，为物品维度统计得到的用户点击物品的预测概率值；

所述根据所述第一损失及所述第二损失之和，优化所述排序模型的模型参数，包括：

采用如下公式计算所述第一损失及所述第二损失之和：

；

其中，为所述第一损失，为所述第二损失，constant用于控制修正量的大小，，为一段时间内用户点击物品的真实概率值，为同一段时间内用户点击物品的预测概率值。

9.一种点击率评估方法，其特征在于，用于应用如权利要求6-8中任一项所述的方法训练得的排序模型进行点击率评估，所述方法包括：

采集第二用户针对物品的行为数据，所述行为数据包括正反馈行为数据及负反馈行为数据，所述正反馈行为数据包括表征所述第二用户对物品感兴趣的行为数据，所述负反馈行为数据包括表征所述第二用户对所述物品不感兴趣的行为数据；

将所述正反馈行为数据及负反馈行为数据输入所述排序模型中，得到所述第二用户点击所述物品的概率值，所述概率值用于对所述平台将要展示给所述第二用户的物品进行排序。

10.根据权利要求9所述的方法，其特征在于，所述根据所述正反馈行为数据及负反馈行为数据，输入所述排序模型中，得到所述第二用户点击所述物品的概率值，包括：

将所述正反馈行为数据及负反馈行为数据输入所述排序模型中，得到特征向量，所述特征向量由所述第k+1正反馈特征向量、所述第k+1负反馈特征向量及所述第k+1交叉特征向量拼接得到；

根据所述特征向量，得到所述第二用户点击所述物品的概率值，所述概率值用于对所述平台将要展示给所述第二用户的物品进行排序。

11.一种电子设备，其特征在于，所述电子设备包括：存储器和一个或多个处理器；所述存储器与所述处理器耦合；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1-10中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-10中任一项所述的方法。