CN117421471A

CN117421471A - 多样性感知模型训练方法、推荐排序方法及装置

Info

Publication number: CN117421471A
Application number: CN202310201252.XA
Authority: CN
Inventors: 王朝旭; 曹茜; 杨牡丹; 郑宇航; 秦首科
Original assignee: Baidu China Co Ltd
Current assignee: Baidu China Co Ltd
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2024-01-19

Abstract

本公开提供了一种多样性感知模型训练方法、推荐排序方法及装置。涉及人工智能技术领域，尤其涉及大数据处理、深度学习、智能推荐等技术领域。具体实现方案为：获取多个样本和多个样本分别对应的感知标签；将多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到多个样本分别对应的用户对资源的感知值；根据多个样本分别对应的感知值和感知标签，对待训练模型进行训练，得到多样性感知模型。根据本公开的方案，能够使多样性感知模型预测出不同用户对资源的多样性感知情况，进而提高推荐的准确性。

Description

多样性感知模型训练方法、推荐排序方法及装置

技术领域

本公开涉及人工智能技术领域，具体为大数据处理、深度学习、智能推荐等技术领域。

背景技术

推荐系统已经成为许多电子商务和多媒体平台的内核，个性化推荐服务能够为用户推荐多样性的资源。然而，不同用户对资源的多样性感知是有差异的。例如，部分用户喜欢多样性的资源，会涉猎多个类别的资源；部分用户仅喜欢某个类别下的不同资源。另外，用户的偏好还可能会因人因时因内容而发生变化。因此，如何衡量推荐的多样性以及如何根据推荐的多样性，提高推荐的准确性，是目前推荐系统面临的两大关键难题，是目前推荐系统面临的两大关键难题。

发明内容

本公开提供了一种多样性感知模型训练方法、推荐排序方法及装置。

根据本公开的第一方面，提供了一种多样性感知模型训练方法，包括：

获取多个样本和多个样本分别对应的感知标签；

将多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到多个样本分别对应的用户对资源的感知值；

根据多个样本分别对应的感知值和感知标签，对待训练模型进行训练，得到多样性感知模型。

根据本公开的第二方面，提供了一种推荐排序方法，包括：

将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，得到多样性感知模型输出的目标用户对候选资源的感知值；

根据目标用户对候选资源的感知值，生成目标用户的推荐排序列表；

其中，多样性感知模型通过第一方面中提供的方法训练获得。

根据本公开的第三方面，提供了一种多样性感知模型训练装置，包括：

第一获取模块，用于获取多个样本和多个样本分别对应的感知标签；

第一输入模块，用于将多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到多个样本分别对应的用户对资源的感知值；

训练模块，用于根据多个样本分别对应的感知值和感知标签，对待训练模型进行训练，得到多样性感知模型。

根据本公开的第四方面，提供了一种推荐排序装置，包括：

第二输入模块，用于将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，得到多样性感知模型输出的目标用户对候选资源的感知值；

生成模块，用于根据目标用户对候选资源的感知值，生成目标用户的推荐排序列表；

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；

与至少一个处理器通信连接的存储器；

存储器存储有可以被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的多样性感知模型训练方法和/或第二方面提供的推荐排序方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的多样性感知模型训练方法和/或第二方面提供的推荐排序方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现第一方面提供的多样性感知模型训练方法和/或第二方面提供的推荐排序方法。

根据本公开的技术方案，能够使多样性感知模型预测出不同用户对资源的多样性感知情况，进而提高推荐的准确性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的多样性感知模型训练方法的流程示意图；

图2是根据本公开实施例的多样性感知模型的架构示意图；

图3是根据本公开实施例的感知标签的获取示意图；

图4是根据本公开实施例的多样性感知特征的确定示意图；

图5是根据本公开实施例的推荐排序方法的流程示意图；

图6是根据本公开实施例的生成目标用户的推荐排序列表的示意图；

图7是根据本公开实施例的融合价值模型在线进化学习的处理示意图；

图8是根据本公开实施例的多样性感知模型训练装置的结构示意图；

图9是根据本公开实施例的推荐排序装置的结构示意图；

图10是根据本公开实施例的多样性感知模型训练的场景示意图；

图11是根据本公开实施例的推荐排序的场景示意图；

图12是用来实现本公开实施例的多样性感知模型训练方法和/或推荐排序方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，在多样性体验的解决方案中，认为多样性越多样越好，越丰富用户体验越好，都忽略了不同用户对多样性体验的差异化。并且，从用户或内容生态的多样性的角度看，牺牲了很多用户沉浸式持续浏览的需求。此外，随着场景不同，用户的偏好可能会动态变化。

相关技术中，衡量推荐多样性的方法包括：

(1)人均展现/分发的分类个数：直接统计人均展现或分发的分类个数；

(2)最大边际相关性方法(Maximal Marginal Relevance，MMR)：该方法可以实现既保持关联性，又减小排序结果的冗余性。在推荐场景下，既给用户推荐相关内容又保证推荐结果的多样性。

(3)行列式点过程方法(Determinantal Point Process，DPP)：通过最大后验概率估计，找到候选资源集合中相关性和多样性最大的子集，从而推荐给用户。

(4)信息熵：计算一个集合中的类别分布的信息熵来代表该集合的多样性，熵越大，表示集合中资源的多样性越好。

(5)多样性评价指标(Intra-List Similarity，ILS)由公式(1)得到：

其中，R为推荐给用户的商品集合，k为商品个数，Sim为i和j两个对象的相似性，当推荐列表中对象越不相似，ILS(R)值越小，推荐结果的多样性越好。

对于如何衡量推荐的多样性，现有技术或是从基于显式标签的信息熵、ILS、人均展现/分发的分类个数，或者基于隐式标签的DPP、MMR，但是，缺乏将显隐式相结合来衡量推荐多样性的方法。因此，无法综合地刻画和度量用户对资源感知的多样性。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种多样性感知模型训练方法，能够使多样性感知模型预测出不同用户对资源的多样性感知情况，进而提高推荐的准确性。

本公开实施例提供了一种多样性感知模型训练方法，图1是根据本公开实施例的多样性感知模型训练方法的流程示意图，该多样性感知模型训练方法可以应用于多样性感知模型训练装置。该多样性感知模型训练装置位于电子设备。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、车载终端。在一些可能的实现方式中，该多样性感知模型训练方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该多样性感知模型训练方法包括：

S101：获取多个样本和多个样本分别对应的感知标签；

S102：将多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到多个样本分别对应的用户对资源的感知值；

S103：根据多个样本分别对应的感知值和感知标签，对待训练模型进行训练，得到多样性感知模型。

本公开实施例中，用户特征用于表征用户的个性化特征。用户特征可以基于日志服务系统存储的用户日志分析得到。例如，用户特征可包括用户在一段时间内的活跃度。又例如，用户特征可包括用户的历史点击/展示数量。再例如，用户特征可包括用户请求访问资源的时间。以上仅为示例性说明，不作为对用户特征全部可能的内容的限定，只是这里不做穷举。

本公开实施例中，资源特征用于表示资源的特征。例如，资源特征可包括资源的类型，资源的类型可以包括视频、直播、图文等类型。又例如，资源特征还可包括资源在所有用户中的历史点击/展示数量。再例如，资源特征还可包括资源所在类别在敏捷评估样本中的分布，资源所在类别可包括娱乐、体育、社会和财经等类别。以上仅为示例性说明，不作为对资源特征全部可能的内容的限定，只是这里不做穷举。

本公开实施例中，多样性感知特征用于表示用户对推荐多样性的感知情况。推荐评估指标可以包括连续展现不点击(Longest Continuous no-click Num，LCN)、展现占比、点击占比和点击通过率(Click-Through-Rate，CTR)等。各类统计值可以包括最小值、最大值、平均值、方差以及分布等。

本公开实施例中，可以通过分析用户日志，提取用户数据，根据用户数据得到用户特征。可以通过分析资源数据，得到资源特征。可以通过目标特征在不同预设时间段内不同推荐评估指标的各类统计值，来确定多样性感知特征，这里，该目标特征可分为显式特征和隐式特征。其中，隐式特征可以包括资源标题相似度、图神经协同过滤(GraphCollaborative Filtering，GCF)相似度；显式特征可包括不同细化程度下资源的分类特征；例如，泛类、一级分类、二级分类和兴趣点；其中，泛类、一级分类、二级分类以及兴趣点的细化程度，是逐渐增大的。

本公开实施例中，用户对资源的感知值可以用0-1之间的值来表示。当该感知值靠近1，代表用户对资源的感知是过多。当该感知值靠近0，代表用户对资源的感知是过少。当该感知值接近0-1的某段中间值，则代表用户对资源的感知是合适。

本公开实施例中，获取多个样本分别对应的调查问卷反馈结果，调查问卷用于询问用户对资源的多样性感知体验；基于多个样本分别对应的调查问卷反馈结果，获取多个样本分别对应的感知标签。该感知标签可以包括过多、过少和合适三类标签，用于表征用户对资源的多样性感知度。

图2示出了多样性感知模型的架构示意图，如图2所示，多样性感知模型可以为分布式梯度增强库(XGBoost)模型。将样本的用户特征、资源特征以及多样性感知特征输入到树状结构的XGBoost模型中，得到对用户对资源的感知值的预估结果。

本公开实施例中，该多样性感知模型可以是XGBoost模型，也可以是支持向量机(Support Vector Machine，SVM)模型，还可以是逻辑回归(Logistic Regression，LR)模型。为了训练得到更准确的感知多样性模型，可通过解释性相对好的XGBoost模型进行拟合，预测用户对资源的感知值。

其中，待训练模型用于根据待训练数据包括的多个样本分别对应的用户特征、资源特征和多样性感知特征，输出用户对资源的感知值。基于此，可以理解的是，本公开实施例中，待训练模型可以包括至少一个特征提取模型，至少用于提取用户特征、资源特征和多样性感知特征；至少一个预测模型，用于预测多个样本分别对应的用户对资源的感知值。多样性感知模型是通过待训练数据对待训练模型进行训练获得的，因此，与待训练模型具有相同的模型结构，区别在于模型参数在经过训练后被更新。

本公开实施例的技术方案，通过引入多样性感知特征，结合用户特征、资源特征，使得模型训练时考虑的输入因子更加丰富；由于多样性感知特征涵盖了显式特征和隐式特征，通过将显隐式特征结合来衡量多样性感知，能综合地刻画和度量多样性，使多样性感知模型预测出不同用户对资源的多样性感知情况，进而提高推荐的准确性。

在一些实施例中S101包括：

S101a：获取多个样本分别对应的调查问卷反馈结果，调查问卷用于询问用户对资源的多样性感知体验；

S101b：基于多个样本分别对应的调查问卷反馈结果，获取多个样本分别对应的感知标签。

本公开实施例中，感知标签可以包括推荐过多、推荐过少和推荐合适。该感知标签用于表示用户对资源的多样性感知度。该感知标签还可以用于对资源的分类或资源的价值评估提供数据支持。

图3示出了感知标签的获取示意图，如图3所示，接收各用户返回的调查问卷反馈结果，分析各用户反馈的调查问卷反馈结果，得到各用户分别对应的感知标签。

本公开实施例中，可通过敏捷评估问卷来询问用户对资源的多样性感知体验。基于多个样本分别对应的调查问卷反馈结果，获取多个样本分别对应的感知标签。其中，调查问卷反馈结果包括：推荐过多、推荐过少和推荐合适。通过问卷调查的方式，能够得到用户对资源的多样性的真实感知体验。并且，通过“推荐过多、推荐合适、推荐过少”三个标签进行分类，简洁地概括了用户对资源的真实多样性感知体验的三种状态，便于用户理解，且有比较好的区分度。

如此，通过问卷调查的方式，能够得到用户对资源的多样性感知度的真实数据，保证了样本的真实性与准确性，有助于提升多样性感知模型的准确性，从而有助于提升推荐的准确性。

在一些实施例中，S101a中调查问卷至少包括以下内容：与当前主题相似的资源的推荐数量是否合适。

本公开实施例中，通过敏捷评估问卷来询问用户对资源的多样性感知体验。例如，询问文案具体可以是：“问题：与当前主题相似的内容推荐数量如何？选项：推荐过多、推荐合适、推荐过少”。根据上述文案获取多个样本分别对应的调查问卷反馈结果。需要说明的是，询问文案中至少包括“主题相似”和“推荐数量”，以上仅为示例性说明，不作为对询问文案全部可能的形式或内容的限定，只是这里不做穷举。

由于不同用户对询问文案这一问题的理解(用户自己感知)可能不一样，有人认为该问题是粗粒度的，有人认为该问题是细粒度的，从而使得询问文案的调查问卷反馈结果既包括了粗细粒度的相似，也包括了显隐式相结合，进而实现全面表达了用户对于多样性的感知。

如此，通过问卷调查的方式，能够得到用户对与当前主题相似的资源的推荐数量是否合适的多样性感知标签，有助于提升多样性感知模型的准确性，从而有助于提升推荐的准确性。

在一些实施例中，该多样性感知模型训练方法，还可包括：

S104：确定多个样本的多个目标特征；

S105：获取各目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值；

S106：基于各目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值，确定多个样本分别对应的多个候选多样性感知特征；

S107：基于多个样本分别对应的多个候选多样性感知特征，确定多个样本分别对应的多样性感知特征。

本公开实施例中，该目标特征可以分为显式特征和隐式特征。该隐式特征可以包括资源标题相似度、GCF相似度；该显式特征可包括不同细化程度下资源的分类特征；例如，泛类、一级分类、二级分类和兴趣点；其中，泛类、一级分类、二级分类以及兴趣点的细化程度逐渐增大。

在一些实施方式中，不同细化程度下资源的分类特征可以包括泛类、一级分类、二级分类和兴趣点。其中，泛类、一级分类和二级分类是指资源的类型。泛类是资源的较大类型级别；例如，娱乐、影视、音乐和体育等。一级类别是小于泛类的类型级别；例如，体育泛类下的足球、排球和篮球等。二级分类是小于一级分类的类型级别；例如，一级类别足球下的足球赛事、足球明星和足球运动员等。泛类、一级分类、二级分类以及兴趣点的细化程度是逐渐增大的。

在一些实施方式中，不同预设时间段可以理解为多窗口。该预设时间段可以是1天，也可以是一个星期，还可以是某一个月内每天晚上9点至11点。预设时间段可以根据模型训练需求自动调整，还可以根据需求人工调整。

在一些实施方式中，该推荐评估指标可以包括连续展现不点击、展现占比、点击占比和点击通过率等。

在一些实施方式中，各类统计值可以包括最小值、最大值、平均值、方差以及分布等。该各类统计值用于表示资源使用情况。

在一些实施方式中，可将每个显式特征和隐式特征在不同预设时间段推荐评估指标的各类统计值，利用笛卡尔积计算得到多样性感知特征。图4示出了多样性感知特征的确定示意图，如图4所示，具体确定方式包括：确定多个样本的多个目标特征；获取各目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值；基于各目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值，确定多个样本分别对应的多个候选多样性感知特征；基于多个样本分别对应的多个候选多样性感知特征，确定多个样本分别对应的多样性感知特征。

表1示出了在场景一和场景二对应的多样性感知特征包括：

表1

在一些实施方式中，如表1中所示，该多样性可以包括：泛类、一级分类、二级分类、兴趣点、标题相似度和GCF相似度。该多窗口是指不同的预设时间，可以是最近3天，也可以是最近1周。多维是指连续展现不点击、展现占比、点击占比、点击通过率等推荐评估指标。统计值可以包括：最小值、最大值、平均值、方差以及分布。通过将显隐式多样性相结合的方式，能全面刻画用户在不同场景下的感知多样性。

如此，基于多个目标特征在不同预设时间段推荐评估指标的各类统计值，通过笛卡尔积能够得到丰富的多样性感知特征，能为多样性感知模型训练提供数据支撑，提高多样性感知模型的准确性。

本公开实施例中，多个目标特征包括不同细化程度下资源的分类特征，多个目标特征还包括资源标题相似度、GCF向量相似度至少之一。

如此，多个目标特征包括不同细化程度下资源的分类特征，还包括资源标题相似度、GCF向量相似度至少之一，能够使得通过笛卡尔积获得的多样性感知特征既包括了粗细粒度的相似，也包括了显隐式相结合，进而实现全面表达了用户对于多样性的感知，丰富了多样性感知特征的数量，丰富了多样性感知模型的输入多样性，有助于提高多样性感知模型的准确性，更有助于提高推荐的准确性。

在一些实施方式中，S107包括：

S107a：确定多个样本分别对应的多个候选多样性感知特征的特征重要度；

S107b：按照多个样本分别对应的多个候选多样性感知特征的特征重要度，从多个样本分别对应的多个候选多样性感知特征中分别选择出目标数量的候选多样性感知特征，作为多个样本分别对应的多样性感知特征。

本公开实施例中，若多个样本分别对应的多个候选多样性感知特征的特征数量繁多，多个候选多样性感知特征会存在大量的稀疏特征。如果特征过于稀疏会影响待训练模型的训练效果。因此，可以通过排列重要性(Permutation Importance)对稀疏特征进行剪枝优化，以提高样本数据的可用性。

在一些实施方式中，特征重要度是通过排列重要性方法进行计算得到的。排列重要性方法会将样本的变量随机打乱，用于破坏样本变量X和目标Y原有的关系。如果打乱其中一个变量显著增加了待训练模型在验证集上的损失函数，则说明该变量很重要。如果打乱一个变量对模型在验证集上的损失函数没有影响，甚至还降低了损失函数，则说明该变量对模型不重要，甚至是有害的，以此来对样本数据进行筛选。

如此，通过确定多个样本分别对应的多个候选多样性感知特征的特征重要度，可以对候选多样性感知特征进行特征优化，减少样本中的稀疏特征，能够提高多样性感知模型的准确性。

表2示出了将多个样本分别对应的用户特征、资源特征和多样性感知特征输入至多样性感知模型中，得到多个样本分别对应的用户对资源的感知值，如表2所示：

表2

本公开实施例中，用户1对应的用户特征与用户1所点击链接的标题对应的资源特征，和用户1对该资源的多样性感知特征输入至多样性感知模型中，得到多样性感知模型输出的模型感知值0.8570。则，该用户1对该资源的多样性感知值为过多。其中，表2中示出的资源类型、一级类别、二级类别、7日内一级类别展现占比、一级类别LCN、二级类别LCN和兴趣点LCN均值的数据，该数据体现了显式特征与隐式特征相结合，全面的刻画了用户感知多样性。

表3示出了多样性感知模型的指标评估，如表3所示：

是否[过多]	整体用户	轻活用户	中度用户	重度用户
					AUC	0.7162	0.6922	0.6990	0.7378

表3

其中，AUC(Area Under Curve)是衡量学习器优劣的一种性能指标。对于整体用户下的多样性感知模型的感知资源“是否过多”的准确性是0.7162。对于轻活用户下的多样性感知模型的感知资源“是否过多”的准确性是0.6922。对于中度用户下的多样性感知模型的感知资源“是否过多”的准确性是0.6990。对于重度用户下的多样性感知模型的感知资源“是否过多”的准确性是0.7378。AUG的值越大，表示多样性感知模型的感知“是否过多”越准确。该轻活用户为轻度活跃的用户；中度用户为中度活跃的用户；重度用户重度活跃的用户。

应理解，图2、图3和图4所示的示意图仅仅是示例性而不是限制性的，并且其是可扩展的，本领域技术人员可以基于图2、图3和图4的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种推荐排序方法，该推荐排序方法可以应用于电子设备。以下，将结合图5所示流程示意图，对本公开实施例提供的一种推荐排序方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

S501：将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，得到多样性感知模型输出的目标用户对候选资源的感知值；

S502：根据目标用户对候选资源的感知值，生成目标用户的推荐排序列表。

其中，多样性感知模型通过上文所述的多样性感知模型训练方法训练获得。

本公开实施例中，目标用户的用户特征可通过对目标用户的日志分析得到。例如，用户特征包括目标用户的在一段时间内的活跃度。又例如，用户特征包括目标用户历史的点击/展示数量。再例如，用户特征包括目标用户请求时间。以上仅为示例性说明，不作为对目标用户特征全部可能的内容的限定，只是这里不做穷举。

本公开实施例中，候选资源的资源特征可以包括资源的类型、资源在所有用户中的历史的点击/展示数量和资源所在类别在敏捷评估样本中的分布。

本公开实施例中，可通过目标特征在不同预设时间段内不同推荐评估指标的各类统计值，来确定多样性感知特征，这里，该目标特征可分为显式特征和隐式特征。其中，隐式特征可以包括资源标题相似度、GCF相似度；显式特征包括不同细化程度下资源的分类特征；例如，泛类、一级分类、二级分类和兴趣点；其中，泛类、一级分类、二级分类以及兴趣点的细化程度逐渐增大。推荐评估指标可以包括：连续展现不点击、展现占比、点击占比和点击通过率。各类统计值可以包括：最小值、最大值、平均值、方差以及分布。

本公开实施例中，将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，若多样性感知模型输出的目标用户对第一候选资源的感知值为0.9，则根据该感知值0.9，将第一候选资源排序到目标用户的推荐列表的底部。

本公开实施例中，将目标用户的用户特征、多样性感知特征以及2个候选资源的资源特征输入至多样性感知模型中，若多样性感知模型输出的目标用户对2个的候选资源的感知值分别为0.8、0.6，则根据目标用户对2个候选资源的感知值，将感知值为0.6的资源排序到推荐列表的顶部，将感知值为0.8的资源排序到推荐列表的底部。

如此，通过多样性感知模型输出的目标用户对候选资源的感知值，生成目标用户的推荐排序列表，能够提高推荐排序列表中对于候选资源排序的准确性，从而提高推荐的准确性。

在一些实施例中如图5所示，S502包括：

S502a：基于目标用户对候选资源的感知值，确定感知多样性调权因子；

S502b：将感知多样性调权因子输入融合价值模型，得到融合价值模型输出的候选资源的预估值，融合价值模型用于对资源的价值进行预估；

S502c：根据候选资源的预估值，对候选资源进行排序；

S502d：根据候选资源的排序结果，生成目标用户的推荐排序列表。

本公开实施例中，将感知多样性调权因子引入到融合价值模型中，通过进化学习，自适应的学习作用力度。其中，该感知多样性调权因子为融合价值模型输入值之一。当融合价值模型的输入值仅为感知多样性调权因子时，感知多样性模型等于融合价值模型。

图6示出了生成目标用户的推荐排序列表的示意图，如图6所示，多样感知模型确定出目标用户对候选资源的感知值，基于目标用户对候选资源的感知值，确定感知多样性调权因子，将该多样性调权因子输入融合价值模型，得到融合价值模型输出的候选资源的预估值，根据候选资源的预估值生成推荐排序列表。

本公开实施例中，基于目标用户对候选资源的感知值，确定感知多样性调权因子，该多样性感知调权因子通过公式(2)进行求解：

其中，q表示多样性感知调权因子，x为多样性感知模型对目标用户感知值的预估结果，m为序列生成阶段所有资源的预估均值，s为预估值的标准差。

图7示出了融合价值模型在线进化学习的处理示意图，如图7所示，在线进化学习包括策略网络，该策略网络包括多个h，该h表示融合价值模型的参数。该参数包括场景参数以及用户沉浸状态参数；该融合价值模型通过用户的反馈与进化、应用与探索持续进行在线进化学习。

本公开实施例中，基于目标用户对N个候选资源的感知值，确定感知多样性调权因子；将感知多样性调权因子、信息点击率调权因子和网页点击率调权因子输入融合价值模型，得到融合价值模型输出的候选资源的预估值，根据候选资源的预估值，对候选资源进行排序；根据候选资源的排序结果，生成目标用户的推荐排序列表。其中，融合价值模型可以根据实际需求，调整融合价值模型输入项的权重。例如，将感知多样性调权因子的权重设置为0.6、信息点击率调权因子的权重设置为0.2以及网页点击率调权因子的权重设置为0.2。

如此，通过将感知多样性调权因子输入融合价值模型，得到融合价值模型输出的候选资源的预估值，根据候选资源的预估值，对候选资源进行排序，根据候选资源的排序结果，生成目标用户的推荐排序列表，能够全面预估资源的价值，提高推荐排序列表中对于候选资源排序的准确性，从而提高推荐的准确性。

在一些实施例中，S502c包括：

S502c’：对感知值大于第一阈值且预估值大于第二阈值的候选资源，在排序时进行密度控制。

本公开实施例中，第一阈值是指感知值的预设阈值；第二阈值是指预估值的预设阈值。当感知值大于第一阈值且预估值大于第二阈值的候选资源，该候选资源的感知值是“推荐过多”且预估值在融合价值模型的综合得分是TOP10％的特别关注资源，对该特别关注资源进行密度控制。其中，密度控制策略为：一个展示界面中可以展示7条候选资源，该7条候选资源中可以有一条特别关注资源。且每一次展示界面刷新后，所展示的7条候选资源中，仅可以存在一条特别关注资源。或是在该展示界面不存在该特别关注资源。

如此，通过多样性感知模型以及融合价值模型，能够更加全面的衡量候选资源的价值，从而有助于提高推荐排序列表的准确性，更有助于提高推荐排序的准确性。

本公开提出了一种基于多样性感知的推荐排序方案，能够使多样性感知模型预测出不同用户对资源的多样性感知情况，进而提高推荐的准确性。

本公开实施例提供了一种多样性感知模型训练装置，如图8所示，该多样性感知模型训练装置可以包括：第一获取模块801，用于获取多个样本和多个样本分别对应的感知标签；第一输入模块802，用于将多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到多个样本分别对应的用户对资源的感知值；训练模块803，用于根据多个样本分别对应的感知值和感知标签，对待训练模型进行训练，得到多样性感知模型。

在一些实施例中，该第一获取模块801，包括：第一获取子模块，用于获取多个样本分别对应的调查问卷反馈结果，调查问卷用于询问用户对资源的多样性感知体验；第二获取子模块，用于基于多个样本分别对应的调查问卷反馈结果，获取多个样本分别对应的感知标签。

在一些实施例中，该多样性感知模型训练装置，调查问卷至少包括以下内容：与当前主题相似的资源的推荐数量是否合适。

在一些实施例中，该多样性感知模型训练装置，还包括：第一确定模块804(图8中未示出)，用于确定多个样本的多个目标特征；第二获取模块805(图8中未示出)，用于获取各目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值；第二确定模块806(图8中未示出)，用于基于各目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值，确定多个样本分别对应的多个候选多样性感知特征；第三确定模块807(图8中未示出)，用于基于多个样本分别对应的多个候选多样性感知特征，确定多个样本分别对应的多样性感知特征。

在一些实施例中，该多样性感知模型训练装置，多个目标特征包括不同细化程度下资源的分类特征，多个目标特征还包括资源标题相似度、图协同过滤GCF向量相似度至少之一。

在一些实施例中，该第三确定模块807，包括：第一确定子模块，用于确定多个样本分别对应的多个候选多样性感知特征的特征重要度；选择子模块，用于按照多个样本分别对应的多个候选多样性感知特征的特征重要度，从多个样本分别对应的多个候选多样性感知特征中分别选择出目标数量的候选多样性感知特征，作为多个样本分别对应的多样性感知特征。

本领域技术人员应当理解，本公开实施例的多样性感知模型训练装置中各处理模块的功能，可参照前述的多样性感知模型训练方法的相关描述而理解，本公开实施例的多样性感知模型训练装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的多样性感知模型训练装置，能够使多样性感知模型预测出不同用户对资源的多样性感知情况，进而提高推荐的准确性。

本公开实施例提供了一种推荐排序装置，如图9所示，该推荐排序装置可以包括：第二输入模块901，用于将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，得到多样性感知模型输出的目标用户对候选资源的感知值；生成模块902，用于根据目标用户对候选资源的感知值，生成目标用户的推荐排序列表；其中，多样性感知模型通过上文所述的多样性感知模型训练方法训练获得。

在一些实施例中，该生成模块902，包括：第二确定子模块，用于基于目标用户对候选资源的感知值，确定感知多样性调权因子；输出子模块，用于将感知多样性调权因子输入融合价值模型，得到融合价值模型输出的候选资源的预估值，融合价值模型用于对资源的价值进行预估；排序子模块，用于根据候选资源的预估值，对候选资源进行排序；生成子模块，用于根据候选资源的排序结果，生成目标用户的推荐排序列表。

在一些实施例中，该排序子模块，用于：对感知值大于第一阈值且预估值大于第二阈值的候选资源，在排序时进行密度控制。

本领域技术人员应当理解，本公开实施例的推荐排序装置中各处理模块的功能，可参照前述的推荐排序方法的相关描述而理解，本公开实施例的推荐排序装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的推荐排序模型装置，能够利用多样性感知模型输出的每个用户对资源的多样性感知情况，为每个用户确定更合适的资源排序列表，进而提高推荐排序的准确性。

本公开实施例提供了一种多样性感知模型训练的场景示意图，如图10所示。

如前所述的，本公开实施例提供的多样性感知模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

具体地，电子设备可具体执行以下操作：

获取多个样本和多个样本分别对应的感知标签；

其中，多个样本分别对应的用户特征、资源特征和多样性感知特征可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

应理解，图10所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例还提供了一种推荐排序装置，如图11所示。

如前所述的，本公开实施例提供的推荐排序方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

具体地，电子设备可具体执行以下操作：

其中，目标用户的用户特征、多样性感知特征以及候选资源的资源特征可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

应理解，图11所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图11的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RandomAccess Memory，RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如多样性感知模型训练方法/推荐排序方法。例如，在一些实施例中，多样性感知模型训练方法/推荐排序方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的多样性感知模型训练方法/推荐排序方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多样性感知模型训练方法/推荐排序方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多样性感知模型训练方法，包括：

获取多个样本和所述多个样本分别对应的感知标签；

将所述多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到所述多个样本分别对应的用户对资源的感知值；

根据所述多个样本分别对应的所述感知值和所述感知标签，对所述待训练模型进行训练，得到多样性感知模型。

2.根据权利要求1所述的方法，其中，获取所述多个样本分别对应的感知标签，包括：

获取所述多个样本分别对应的调查问卷反馈结果，所述调查问卷用于询问用户对资源的多样性感知体验；

基于所述多个样本分别对应的所述调查问卷反馈结果，获取所述多个样本分别对应的所述感知标签。

3.根据权利要求2所述的方法，其中，所述调查问卷至少包括以下内容：与当前主题相似的资源的推荐数量是否合适。

4.根据权利要求1所述的方法，还包括：

确定所述多个样本的多个目标特征；

获取各所述目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值；

基于各所述目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值，确定所述多个样本分别对应的多个候选多样性感知特征；

基于所述多个样本分别对应的所述多个候选多样性感知特征，确定所述多个样本分别对应的所述多样性感知特征。

5.根据权利要求4所述的方法，其中，所述多个目标特征包括不同细化程度下资源的分类特征，所述多个目标特征还包括资源标题相似度、图协同过滤GCF向量相似度至少之一。

6.根据权利要求4所述的方法，其中，基于所述多个样本分别对应的多个候选多样性感知特征，确定所述多个样本分别对应的所述多样性感知特征，包括：

确定所述多个样本分别对应的多个候选多样性感知特征的特征重要度；

按照所述多个样本分别对应的所述多个候选多样性感知特征的特征重要度，从所述多个样本分别对应的所述多个候选多样性感知特征中分别选择出目标数量的候选多样性感知特征，作为所述多个样本分别对应的所述多样性感知特征。

7.一种推荐排序方法，包括：

将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，得到所述多样性感知模型输出的所述目标用户对所述候选资源的感知值；

根据所述目标用户对所述候选资源的感知值，生成所述目标用户的推荐排序列表；

其中，所述多样性感知模型采用根据权利要求1至6任一项所述的多样性感知模型训练方法得到。

8.根据权利要求7所述的方法，其中，所述根据所述目标用户对所述候选资源的感知值，生成所述目标用户的推荐排序列表，包括：

基于所述目标用户对所述候选资源的感知值，确定感知多样性调权因子；

将所述感知多样性调权因子输入融合价值模型，得到所述融合价值模型输出的所述候选资源的预估值，所述融合价值模型用于对资源的价值进行预估；

根据所述候选资源的预估值，对所述候选资源进行排序；

根据所述候选资源的排序结果，生成所述目标用户的推荐排序列表。

9.根据权利要求8所述的方法，其中，所述根据所述候选资源的预估值，对所述候选资源进行排序，包括：

对所述感知值大于第一阈值且所述预估值大于第二阈值的所述候选资源，在排序时进行密度控制。

10.一种多样性感知模型训练装置，包括：

第一获取模块，用于获取多个样本和所述多个样本分别对应的感知标签；

第一输入模块，用于将所述多个样本分别对应的用户特征、资源特征和多样性感知特征输入至待训练模型中，得到所述多个样本分别对应的用户对资源的感知值；

训练模块，用于根据所述多个样本分别对应的所述感知值和所述感知标签，对所述待训练模型进行训练，得到多样性感知模型。

11.根据权利要求10所述的装置，其中，所述第一获取模块，包括：

第一获取子模块，用于获取所述多个样本分别对应的调查问卷反馈结果，所述调查问卷用于询问用户对资源的多样性感知体验；

第二获取子模块，用于基于所述多个样本分别对应的所述调查问卷反馈结果，获取所述多个样本分别对应的所述感知标签。

12.根据权利要求11所述的装置，其中，所述调查问卷至少包括以下内容：与当前主题相似的资源的推荐数量是否合适。

13.根据权利要求10所述的装置，还包括：

第一确定模块，用于确定所述多个样本的多个目标特征；

第二获取模块，用于获取各所述目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值；

第二确定模块，用于基于各所述目标特征分别对应的不同预设时间段内不同推荐评估指标的各类统计值，确定所述多个样本分别对应的多个候选多样性感知特征；

第三确定模块，用于基于所述多个样本分别对应的所述多个候选多样性感知特征，确定所述多个样本分别对应的所述多样性感知特征。

14.根据权利要求13所述的装置，其中，所述多个目标特征包括不同细化程度下资源的分类特征，所述多个目标特征还包括资源标题相似度、图协同过滤GCF向量相似度至少之一。

15.根据权利要求13所述的装置，其中，所述第三确定模块，包括：

第一确定子模块，用于确定所述多个样本分别对应的多个候选多样性感知特征的特征重要度；

选择子模块，用于按照所述多个样本分别对应的所述多个候选多样性感知特征的特征重要度，从所述多个样本分别对应的所述多个候选多样性感知特征中分别选择出目标数量的候选多样性感知特征，作为所述多个样本分别对应的所述多样性感知特征。

16.一种推荐排序装置，包括：

第二输入模块，用于将目标用户的用户特征、多样性感知特征以及候选资源的资源特征输入至多样性感知模型中，得到所述多样性感知模型输出的所述目标用户对所述候选资源的感知值；

生成模块，用于根据所述目标用户对所述候选资源的感知值，生成所述目标用户的推荐排序列表；

17.根据权利要求16所述的装置，其中，所述生成模块，包括：

第二确定子模块，用于基于所述目标用户对所述候选资源的感知值，确定感知多样性调权因子；

输出子模块，用于将所述感知多样性调权因子输入融合价值模型，得到所述融合价值模型输出的所述候选资源的预估值，所述融合价值模型用于对资源的价值进行预估；

排序子模块，用于根据所述候选资源的预估值，对所述候选资源进行排序；

生成子模块，用于根据所述候选资源的排序结果，生成所述目标用户的推荐排序列表。

18.根据权利要求17所述的装置，其中，所述排序子模块，用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。