CN116108267A

CN116108267A - 一种推荐方法及相关设备

Info

Publication number: CN116108267A
Application number: CN202211634087.9A
Authority: CN
Inventors: 刘卫文; 西云佳; 唐睿明; 李帅; 张伟楠; 俞勇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-12
Also published as: WO2024131762A1

Abstract

本申请实施例公开了一种推荐方法，本申请实施例方法可以应用于电影推荐、游戏推荐等向用户推荐物品的场景。该方法包括：获取用于表示多个待推荐物品的初步推荐排序；并通过获取与用户历史行为相关的多个历史物品的排序，并根据该多个历史物品的排序获取的第二特征对初步推荐排序进行更新。由于第二特征体现了用户对多个历史物品所属类别的喜好程度，因此由第二特征确定的第三序列可以为用户提供个性化与多样性的物品推荐。

Description

一种推荐方法及相关设备

技术领域

本申请涉及人工智能领域，尤其涉及一种推荐方法及相关设备。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

目前，推荐系统经历了多年的发展，已经成为互联网产品的标配，也是AI成功落地的分支之一，在电商、资讯、音乐、短视频等热门应用中，推荐系统发挥着重要的作用。推荐系统是用于海量数据信息过载情况下，为用户主动快速从海量数据中推荐出符合用户需求的推荐结果(例如，商品、电影、音乐等)。然而，现有的推荐系统大多只优化推荐结果准确性，而忽略了推荐结果的多样性。

因此，如何为用户提供多样性的推荐结果是亟待解决的技术问题。

发明内容

本申请实施例提供了一种推荐方法以及相关设备，可以为用户提供个性化与多样性的物品推荐。可以应用在电影推荐、游戏推荐等向用户推荐物品的场景。

本申请实施例第一方面提供了一种推荐方法，可以应用于电影推荐、游戏推荐等向用户推荐物品的场景。该方法可以由推荐设备执行，也可以由推荐设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括：获取第一序列，第一序列用于表示多个待推荐物品的初步推荐排序；基于第一序列获取多个第一特征，多个第一特征中的每个第一特征用于表示每个第一特征对应的待推荐物品与其他待推荐物品的关联关系；获取第二序列，第二序列用于表示与用户历史行为相关的多个历史物品排序；基于第二序列获取第二特征，第二特征用于表示用户对多个历史物品所属类别的喜好程度；基于多个第一特征与第二特征对第一序列进行重排序，以得到第三序列，第三序列用于为用户推荐物品。

本申请实施例中，通过获取与用户历史行为相关的多个历史物品的排序，并根据该多个历史物品的排序获取的第二特征对初步推荐排序进行更新。由于第二特征体现了用户对多个历史物品所属类别的喜好程度，因此由第二特征确定的第三序列可以为用户提供个性化与多样性的物品推荐。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第二序列获取第二特征，包括：基于多个历史物品的类别将第二序列拆分为多个子序列；获取多个子序列的多个第一子特征，多个第一子特征中的每个第一子特征用于表示每个第一子特征对应的子序列中至少两个历史物品之间的关联关系，多个子序列与多个第一子特征一一对应；基于多个第一子特征获取多个第二子特征，多个第二子特征中的每个第二子特征用于表示每个第二子特征对应的子序列与其他子序列之间的关联关系，多个第一子特征与多个第二子特征一一对应；拼接降维处理多个第二子特征以得到第二特征。

该种可能的实现方式中，通过历史物品之间的关联关系获取子序列之间的关联关系，进而子序列之间的关联关系考虑到用户的历史行为，从而提供符合用户习惯的推荐结果。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第二序列获取第二特征，包括：基于第二序列获取第三特征，第三特征用于表示第二序列中各历史物品所属类别之间的关联关系；降维处理第三特征以得到第二特征。

该种可能的实现方式中，通过历史物品所属类别之间的关联关系得到第二特征，因此第二特征可以表示用户对于物品类别的喜好程度，在后续重排序过程中考虑用户对物品类别的喜好，进而为用户提供多样性的推荐结果。

可选地，在第一方面的一种可能的实现方式中，上述步骤还包括：获取多个待推荐物品的多个第四特征，多个第四特征用于表示多个待推荐物品的多样性，多个待推荐物品与多个第四特征一一对应；基于多个第一特征与第二特征对第一序列进行重排序，以得到第三序列，包括：基于多个第一特征、第二特征、多个第四特征获取多个评分，多个评分用于表示多个待推荐物品重排序的评分，多个评分与多个待推荐物品一一对应；基于多个评分对多个待推荐物品进行重排序，以得到第三序列。

该种可能的实现方式中，获取待推荐物品的评分过程中，不仅考虑到多个待推荐物品之间的关联关系，还考虑到待推荐物品的多样性，从而通过评分排序可以为用户提供具有个性化多样化的推荐结果。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于多个第一特征、第二特征、多个第四特征获取多个评分，包括：基于第二特征与多个第四特征得到多个第五特征，多个第五特征用于表示多个待推荐物品的个性化多样性特征，多个第四特征与多个第五特征一一对应；基于多个第一特征与多个第五特征获取多个评分。

该种可能的实现方式中，先获取用于表示个性化多样的化的第五特征，进而再结合个性化特征(即第一特征)给出可以表示个性化多样化的评分，从而为用户提供个性化多样化的推荐结果。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于多个第一特征与多个第五特征获取多个评分，包括：拼接多个第一特征与多个第五特征以得到多个第六特征，多个第一特征、多个第五特征以及多个第六特征一一对应；降维处理多个第六特征以得到多个评分。

该种可能的实现方式中，获取评分的一种示例，先拼接第一特征与第五特征，进而对拼接后的特征进行降维处理得到用于表示个性化多样化的评分。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于多个第一特征与多个第五特征获取多个评分，包括：对多个第一特征与多个第五特征进行点乘处理以得到多个评分。

该种可能的实现方式中，获取评分的另一种示例，直接对第一特征与第五特征间点乘得到用于表示个性化多样化的评分。

本申请实施例第三方面提供一种推荐设备，该推荐设备包括：获取单元，用于获取第一序列，第一序列用于表示多个待推荐物品的初步推荐排序；获取单元，还用于基于第一序列获取多个第一特征，多个第一特征中的每个第一特征用于表示每个第一特征对应的待推荐物品与其他待推荐物品的关联关系；获取单元，还用于获取第二序列，第二序列用于表示与用户历史行为相关的多个历史物品排序；获取单元，还用于基于第二序列获取第二特征，第二特征用于表示用户对多个历史物品所属类别的喜好程度；重排序单元，用于基于多个第一特征与第二特征对第一序列进行重排序，以得到第三序列，第三序列用于为用户推荐物品。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于基于多个历史物品的类别将第二序列拆分为多个子序列；获取单元，具体用于获取多个子序列的多个第一子特征，多个第一子特征中的每个第一子特征用于表示每个第一子特征对应的子序列中至少两个历史物品之间的关联关系，多个子序列与多个第一子特征一一对应；获取单元，具体用于基于多个第一子特征获取多个第二子特征，多个第二子特征中的每个第二子特征用于表示每个第二子特征对应的子序列与其他子序列之间的关联关系，多个第一子特征与多个第二子特征一一对应；获取单元，具体用于拼接降维处理多个第二子特征以得到第二特征。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于基于第二序列获取第三特征，第三特征用于表示第二序列中各历史物品所属类别之间的关联关系；获取单元，具体用于降维处理第三特征以得到第二特征。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，还用于获取多个待推荐物品的多个第四特征，多个第四特征用于表示多个待推荐物品的多样性，多个待推荐物品与多个第四特征一一对应；重排序单元，具体用于基于多个第一特征、第二特征、多个第四特征获取多个评分，多个评分用于表示多个待推荐物品重排序的评分，多个评分与多个待推荐物品一一对应；重排序单元，具体用于基于多个评分对多个待推荐物品进行重排序，以得到第三序列。

可选地，在第二方面的一种可能的实现方式中，上述的重排序单元，具体用于基于第二特征与多个第四特征得到多个第五特征，多个第五特征用于表示多个待推荐物品的个性化多样性特征，多个第四特征与多个第五特征一一对应；重排序单元，具体用于基于多个第一特征与多个第五特征获取多个评分。

可选地，在第二方面的一种可能的实现方式中，上述的重排序单元，具体用于拼接多个第一特征与多个第五特征以得到多个第六特征，多个第一特征、多个第五特征以及多个第六特征一一对应；重排序单元，具体用于降维处理多个第六特征以得到多个评分。

可选地，在第二方面的一种可能的实现方式中，上述的重排序单元，具体用于对多个第一特征与多个第五特征进行点乘处理以得到多个评分。

本申请实施例第三方面提供了一种推荐设备，该推荐设备或推荐设备的部件(例如处理器、芯片或芯片系统)执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第四方面提供了一种推荐设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得推荐设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第五方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第六方面提供了一种计算机程序产品，该计算机程序产品在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

其中，第二、第三、第四、第五、第六方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

从以上技术方案可以看出，本申请具有以下优点：通过获取与用户历史行为相关的多个历史物品的排序，并根据该多个历史物品的排序获取的第二特征对初步推荐排序进行更新。由于第二特征体现了用户对多个历史物品所属类别的喜好程度，因此由第二特征确定的第三序列可以为用户提供个性化与多样性的物品推荐。

附图说明

图1为本申请提供的系统架构的结构示意图；

图2为本申请提供的一种芯片硬件结构示意图；

图3A为本申请提供的一种部署场景示意图；

图3B为本申请提供的另一种部署场景示意图；

图4为本申请提供的系统架构的另一结构示意图；

图5为本申请提供的推荐方法的一个流程示意图；

图6为本申请提供的相关性评估器的处理流程示意图；

图7为本申请提供的推荐方法的另一个流程示意图；

图8为本申请提供的多样性评估器的处理流程示意图；

图9A与图9B为本申请提供的重排序打分器的几种处理流程示意图；

图10为本申请提供的推荐网络的一种结构示意图；

图11为本申请实施例提供的推荐网络与现有推荐模型的对比结果示意图；

图12为本申请实施例提供的推荐网络与现有推荐模型的另一对比结果示意图；

图13为本申请实施例中推荐设备的结构示意图；

图14为本申请实施例中推荐设备的另一结构示意图。

具体实施方式

下面对本申请实施例涉及到的一些术语或概念进行解释，以便于本领域技术人员理解。

1、神经网络。

神经网络可以是由神经单元组成的，神经单元可以是指以X_s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为X_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

2、transformer

transformer结构是一种包含编码器与解码器的特征提取网络(类别于卷积神经网络)。

编码器：通过自注意力的方式在全局感受野下进行特征学习，例如像素点的特征。

解码器：通过自注意力与交叉注意力来学习所需模块的特征，例如输出框的特征。

下面对注意力(也可以称为注意力机制)进行描述：

注意力机制可以快速提取稀疏数据的重要特征。注意力机制是发生在编码器和解码器之间，也可以说是发生在输入句子和生成句子之间。而自注意力模型中的自注意力机制则发生在输入序列内部，或者输出序列内部，可以抽取到同一个句子内间隔较远的单词之间的联系，比如句法特征(短语结构)。自注意力机制通过QKV提供了一种有效的捕捉全局上下文信息的建模方式。假定输入为Q(query)，以键值对(K，V)形式存储上下文。那么注意力机制其实是query到一系列键值对(key，value)上的映射函数。attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。attention本质上是为序列中每个元素都分配一个权重系数，这也可以理解为软寻址。如果序列中每一个元素都以(K，V)形式存储，那么attention则通过计算Q和K的相似度来完成寻址。Q和K计算出来的相似度反映了取出来的V值的重要程度，即权重，然后加权求和就得到最后的特征值。

注意力的计算主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数(一方面可以进行归一化，得到所有权重系数之和为1的概率分布。另一方面可以用softmax函数的特性突出重要元素的权重)对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的特征值。具体计算公式可以如下：

其中，d为QK矩阵的维度。

另外，注意力包括自注意力与交叉注意力，自注意可以理解为是特殊的注意力，即QKV的输入一致。而交叉注意力中的QKV的输入不一致。注意力是利用特征之间的相似程度(例如内积)作为权重来集成被查询特征作为当前特征的更新值。自注意力是基于特征图本身的关注而提取的注意力。

对于卷积而言，卷积核的设置限制了感受野的大小，导致网络往往需要多层的堆叠才能关注到整个特征图。而自注意的优势就是它的关注是全局的，它能通过简单的查询与赋值就能获取到特征图的全局空间信息。自注意力在查询、键、值(query key value，QKV)模型中的特殊点在于QKV对应的输入是一致的。后续会对QKV模型进行描述。

3、多层感知器(multilayer perceptron，MLP)

多层感知器，也可以称为多层感知机，是一种前馈人工神经网络模型，其将输入映射到单一的输出的上。

4、损失函数。

在训练神经网络的过程中，因为希望神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么神经网络的训练就变成了尽可能缩小这个loss的过程。

5、交叉熵。

交叉熵是深度学习中常用的概念，一般用来求目标值与预测值之间的差距，经常使用交叉熵作为神经网络的损失函数。

6、词向量(Embedding)。

词向量也可以称为“词嵌入”、“向量化”、“向量映射”、“嵌入”等。从形式上讲，词向量是用一个稠密的向量表示一个对象，例如：用向量表示用户身份证标识号(identitydocument，ID)、物品ID等。

7、推荐系统

推荐系统是一种自动联系用户和物品的工具，它能够帮助用户在信息过载的环境中发现令他们感兴趣的信息。例如，推荐系统可以为用户主动快速从海量数据中推荐出符合用户需求的推荐结果(例如商品、电影、音乐、游戏等)。

推荐系统包括多个阶段。例如，推荐系统包括召回阶段与排序阶段。其中，召回阶段主要是根据用户的部分特征，从海量物品中快速找回用户潜在感兴趣的一部分物品。排序阶段通过引入更多的特征和/或复杂模型从上述一部分物品中精准地为用户提供具有个性化的推荐物品。

实际应用中，由于数据量太大，可能再上述召回阶段与排序阶段中间加入粗排阶段和/或精排阶段。或者理解为上述的排序阶段包括粗排阶段、精排阶段、重排序阶段等中的至少一项。粗排阶段与精排阶段可以理解为是为了减少往后阶段传送的物品数量。通常境况下，粗排阶段输出的物品数量大于精排阶段输出的物品数量。而重排序阶段主要用于对召回阶段、粗排阶段或精排阶段输出的物品进行重新排序，进而为用户提供用户更加感兴趣的物品。进一步的，重排序阶段作为多阶段推荐系统的最后一个阶段，其表现直接决定了用户满意度和系统收入。重排序阶段输入精排阶段的初始排序结果，依据不同的优化目标，输出重新排序后的序列并展示给用户。重排序阶段是一种考虑到物品之间的相互关系和影响的排序方式。用户对列表内的某一个物品是否感兴趣，不仅取决于该物品本身，也取决于同一列表内的其他物品。

8、推荐个性化

推荐个性化主要是指推荐系统为不同用户提供的推荐结果不同。由于用户与用户之间有不同的兴趣偏好，推荐多样化是指为不同用户提供相应不同的推荐结果，进而满足不同用户的兴趣偏好。

9、推荐多样性

推荐个性化主要是指推荐系统为不同用户提供的推荐结果应尽可能多样而丰富，如覆盖更多的类别。

传统的推荐系统常常简单地假设所有用户对多样性的接受程度相同，无差别地提升所有用户的推荐多样性。换句话说，传统的推荐系统大多只优化推荐结果准确性，而忽略了推荐结果的多样性。事实上，不同的用户对多样性的接受程度不同，不应同等均匀地提升所有用户的推荐多样性。为了实现向用户提供多样性的推荐结果，现有推荐系统常常采用通过五大人格模型(Big-five personality)实现向用户提供多样性的推荐结果。该五大人格模型的维度包括经验开放性、尽责性、外向性、亲和性、神经质。具体的，该方案通过向用户发放问卷调查的方式得到相应的五大人格模型输出，从而为不同用户提供不同程度的多样性推荐结果。

然而，问卷调查的方式需要用户主动上报信息，且数据量庞大，并不适用于现有的商用推荐系统。

为了解决上述问题，本申请实施例提供一种推荐方法，通过获取与用户历史行为相关的多个历史物品的排序，并根据该多个历史物品的排序获取的第二特征对初步推荐排序进行更新。由于第二特征体现了用户对多个历史物品所属类别的喜好程度，因此由第二特征确定的第三序列可以为用户提供个性化与多样性的物品推荐。

在结合附图对本申请提供的推荐方法及相关设备介绍之前，先对本申请提供的系统架构进行说明。

参见附图1，本申请实施例提供了一种系统架构100。如系统架构100所示，数据采集设备160用于采集训练数据，本申请中训练数据包括：与用户行为相关的历史物品，用户行为表示用户对于历史物品的关联，例如用户行为包括查询物品、点击物品、收藏物品、分享物品、购买物品、播放物品等。并将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。下面将更详细地描述训练设备120如何基于训练数据得到目标模型/规则101，该目标模型/规则101能够用于实现本申请实施例提供的推荐方法。本申请实施例中的目标模型/规则101具体可以是推荐网络等。需要说明的是，在实际的应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集的数据，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于与训练设备120不同的系统或设备中，如应用于图1所示的执行设备110，执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实技术(augmented reality，AR)/虚拟现实技术(virtualreality，VR)，车载终端等，还可以是服务器或者云端等。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，输入数据在本申请实施例中包括以下至少一项：用户信息、物品信息、类别信息、推荐请求、模型下载请求等，其中，用户信息可以包括用户年龄、性别、职业等。物品信息基于物品的不同会有多种情况。例如，物品是商品时，物品信息包括价格、颜色、适用人群等。又例如，物品是电影时，物品信息包括票价、电影评分、电影主演、电影导演等。类别信息与物品信息相关。例如，在物品是商品时，类别信息包括服饰、电器、化妆品。又例如，在物品是电影时，类别信息包括动作、喜剧、悬疑等。模型下载请求用于下载训练好的目标模型/规则101。另外该输入数据可以是用户输入的，也可以是来自数据库，具体此处不做限定。

预处理模块113用于根据I/O接口112接收到的输入数据进行预处理(例如，线性处理、分割处理等)。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，例如使用目标模型/规则101处理输入数据得到处理结果。又例如向用户显示处理结果等等，也可以将相应处理得到的数据、指令等存入数据存储系统150中。其中，处理结果可以理解为是推荐结果，具体可以是多个推荐物品的排序，或预设数量的推荐物品等。

最后，I/O接口112将处理结果，如上述得到的处理结果或训练好的模型(即目标模型/规则101)返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据。例如，通过I/O接口112输入用户可接受的价格、颜色、物品所属厂家等。又例如，通过I/O接口112提供的界面从执行设备110的存储器中选择输入数据等。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本申请实施例实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101。该目标模型/规则101在本申请实施例中可以为推荐网络。关于推荐网络的训练过程后续实施例会有描述，此处不再展开。

下面介绍本申请实施例提供的一种芯片硬件结构。

图2为本申请实施例实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器20。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。

神经网络处理器20可以是神经网络处理器(neural-networkprocessing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphicsprocessing unit，GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：神经网络处理器20作为协处理器挂载到主中央处理器(central processing unit，CPU)(hostCPU)上，由主CPU分配任务。NPU的核心部分为运算电路203，控制器204控制运算电路203提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路203内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器201中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器208中。

向量计算单元207可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元207可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现种，向量计算单元207将经处理的输出的向量存储到统一缓存器206。例如，向量计算单元207可以将非线性函数应用到运算电路203的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元207生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路203的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器206用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器205(direct memory accesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202，以及将统一存储器206中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)210，用于通过总线实现主CPU、DMAC和取指存储器209之间进行交互。

与控制器204连接的取指存储器(instruction fetch buffer)209，用于存储控制器204使用的指令。

控制器204，用于调用指存储器209中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器206，输入存储器201，权重存储器202以及取指存储器209均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double datarate synchronous dynamic random accessmemory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

下面对本申请实施例提供的几种部署场景进行描述。

图3A为本申请实施例提供的一种部署场景结构示意图，该部署场景包括终端设备(图3A中仅以终端设备是手机为例)以及服务器。可以理解的是，终端设备除了可以是手机之外，还可以是平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)、车辆、车载终端、飞机终端、智能机器人等终端设备。终端设备为数据处理(例如模型训练或推荐方法)的发起端，作为数据处理请求的发起方，通常由用户通过终端设备发起数据处理请求。该服务器可以理解为是数据处理设备。

上述的服务器可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自终端设备的数据处理请求，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的数据处理。例如，终端设备向服务器上报推荐请求，服务器通过推荐网络对推荐请求进行处理以得到推荐结果。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在数据处理设备上，也可以在其它网络服务器上。

在图3A所示的部署场景中，终端设备可以接收用户的指令。例如，终端设备可以获取用户输入/选择的多个信息(例如，与用户历史行为相关的物品、物品颜色、物品价格、物品所属厂家等)，然后向数据处理设备发起请求，使得数据处理设备针对终端设备得到的多个信息对神经网络进行训练，从而得到训练好的神经网络(例如推荐网络)。并供终端设备下载或上传推荐请求等进行推荐。又例如，终端设备可以获取用户输入/选择的输入数据，然后向数据处理设备(即服务器)发起请求，使得数据处理设备针对终端设备得到的输入数据执行数据处理应用，从而得到针对输入数据的对应的处理结果(例如推荐结果)。并通过终端设备显示处理结果，以供用户观看和使用(例如购买、收藏等)。

在图3A中，数据处理设备可以执行本申请实施例的推荐方法。

图3B为本申请实施例提供的一种部署场景结构示意图，在图3B中，终端设备(图3B中仅以终端设备是手机为例)直接作为数据处理设备，该终端设备能够直接获取多个样本，并直接由终端设备本身的硬件进行处理，具体过程与图3A相似，可参考上面的描述，在此不再赘述。

可选地，在图3B所示的部署场景中，终端设备可以接收用户的指令。例如，终端设备可以获取用户输入/选择的多个信息(例如，与用户历史行为相关的物品、物品颜色、物品价格、物品所属厂家等)，然后再由终端设备自身训练得到训练好的神经网络(例如推荐网络)，以供用户使用。又例如，终端设备可以获取用户输入/选择的输入数据，然后针对终端设备得到的输入数据执行数据处理应用，从而得到针对输入数据的对应的处理结果(例如推荐结果)。并向用户显示处理结果，以供用户观看和使用(例如购买、收藏等)。

可选地，终端设备可以实时或周期性的采集用户的浏览物品等，然后通过用户浏览过的物品执行神经网络训练或模型推理，从而得到推理结果等。

在图3B中，终端设备自身就可以执行本申请实施例的推荐方法。

上述图3A和图3B中的终端设备具体可以是图1中的客户设备140或执行设备110，图3A中的数据处理设备具体可以是图1中的执行设备110，其中，数据存储系统150可以存储执行设备110的样本，数据存储系统150可以集成在执行设备110上，也可以设置在云上或其它网络服务器上。

图3A和图3B中的处理器可以通过神经网络模型对输入数据进行处理得到推荐结果，或者使用获取到的多个样本对推荐网络进行训练。并将推理结果或训练好的推荐网络传输给用户。

上面对本申请实施例提供的几种部署场景进行描述，接下来介绍本申请实施例提供的推荐方法的应用场景，或者可以理解为训练好的神经网络的应用场景。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

参见附图4，本申请实施例提供了另一种系统架构。该系统架构包括相关性预估器401、多样性预估器402以及重排序打分器403。

相关性预估器401获取包含L个物品的初始排序列表，并通过建模L个物品之间的相互关系和影响，输出每个物品对应的相关性表征。其中，该初始排序列表可以来自于推荐系统的召回阶段、粗排阶段或精排阶段等。

多样性预估器402获取包含L个物品的初始排序列表与包含M个物品的用户历史序列，并通过用户历史序列自动学习到用户对于不同类别的多样性偏好，结合初始排序列表中物品的类别特征，输出每个物品对应的多样性表征。

重排序打分器403结合物品的相关性表征和多样性表征，输出最终重排序评分。并按照重排序打分对物品进行排序得到推荐结果，进而向用户展示推荐结果。

图4所示的过程可以如下述公式一所示。

公式一：

其中，R_u表示待推荐物品的初始排序列表，

表示列表R中各物品对于用户u的评分，f_r表示相关性预估器，f_d表示多样性预估器，g表示重排序打分器。T_u表示用户u的历史行为(或者与用户历史行为相关的历史物品序列)，

与物品R的类别特征相关。

可以理解的是，上述公式一只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

关于上述的具体流程下面结合图5进行详细描述。

该系统架构中，一方面，通过学习用户对于历史物品的类别偏好，并应用于重排序打分，从而得到推荐结果是具有多样性的。且重排序打分不仅考虑多样性表征，还考虑个性化表征，从而推荐结果不仅具有多样性还具有个性化，从而为用户提供满足用户需求的推荐结果。另一方面，多样性预估器、重排序打分器以及重排序打分器可以共同训练。进而提升推理过程中更加准确的利用多样性预估器、重排序打分器以及重排序打分器之间的关联，从而得到更好的推荐结果。

本申请实施例提供的推荐方法可以应用在各种推荐系统中，例如，音乐、电影、电商、应用市场等推荐系统。具体可以实现音乐推荐、电影推荐、商品推荐、饭店推荐、书籍推荐、网页推荐、软件下载推荐等需要推荐物品的场景。该推荐方法可以由推荐设备执行，或推荐设备的部件(例如处理器、芯片、或芯片系统等)执行。其中，推荐设备可以是前述图1中的训练设备120。也可以是前述图3A或图3B中的数据处理设备等。推荐设备的部件可以由前述图2中芯片的神经网络处理器20等。具体此处不做限定。

请参阅图5，本申请实施例提供的推荐方法的一个流程示意图，该方法可以包括步骤501至步骤505。

步骤501，获取第一序列。

本申请实施例中，获取第一序列的方式有多种方式，可以是来自推荐系统的召回阶段，也可以是来自推荐系统的粗排阶段，还可以是来自推荐系统的精排阶段，也可以通过接收其他设备发送的方式，也可以是从数据库中选取的方式等，具体此处不做限定。

其中，上述的第一序列用于表示多个待推荐物品的初步推荐排序。

步骤502，基于第一序列获取多个第一特征。

获取第一序列之后，基于第一序列获取多个第一特征。多个第一特征中的每个第一特征用于表示每个第一特征对应的待推荐物品与其他待推荐物品的关联关系。

其中，待推荐物品与其他待推荐物品的关联关系可以是指价格关系、质量关系、口碑关系、是否适用于用户等。由于用户选择待推荐物品并不是独立的，而是依赖于列表内的其他物品的相互影响在对比中产生的。比如有两个质量相似的耳机在同一个推荐列表内展示，价格更优，口碑更好的那个耳机用户点击的概率会增高，反之另外一个耳机的点击率会降低。这种现象可以理解为物品之间的相互关系或相互影响。

具体的，先基于第一序列确定多个待推荐物品。并分别提取多个待推荐物品的多个第一特征。多个待推荐物品与多个第一特征一一对应。

可选地，通过图4所示的相关性预估器获取多个第一特征。本申请实施例中相关性预估器主要用于提取第一序列中待推荐物品之间的关联关系。相关性预估器的具体结构可以是以下至少一项：双向长短期记忆模型(bi-directional long short-termmemory，BiLSTM)、长短期记忆模型(long short-termmemory，LSTM)、门控循环单元(GatedRecurrent Unit，GRU)、注意力机制(Attention)、指针网络(PointerNet)等。

示例性的，以相关性预估器是BiLSTM为例，本步骤502的过程可以如图6所示。图6也可以理解为是相关性预估器的处理流程示意图，相关性预估器获取第一序列之后，通过BiLSTM获取多个待推荐物品的多个第一特征多个第一特征中的每个第一特征用于表示每个第一特征对应的待推荐物品与其他待推荐物品的关联关系。其中，待推荐物品与其他待推荐物品的关联关系可以是指价格关系、质量关系、口碑关系、是否适用于用户等。

示例性的，第一序列用R表示，则第一序列中第i个待推荐物品的第一特征记作h_R(i)。

步骤503，获取第二序列。

本申请实施例中，获取第二序列的方式有多种方式，可以是来自用户的操作，还可以通过接收其他设备发送的方式，也可以是从数据库中选取的方式等，具体此处不做限定。其中，上述的第二序列用于表示与用户历史行为相关的多个历史物品排序。

示例性的，上述的历史行为包括以下至少一项：选择操作、收藏操作、购买操作、浏览操作、分享操作等。

可选地，获取与用户相关的多个历史物品，并按照多个历史物品与用户产生关联(例如，上述的选择操作、购买操作、收藏操作等)的时刻对多个历史物品进行排序，进而得到第二序列。

步骤504，基于第二序列获取第二特征。

获取第二序列之后，基于第二序列获取第二特征。第二特征用于表示用户对多个历史物品所属类别的喜好程度。

本申请实施例中，基于第二序列获取第二特征的方式有多种，下面分别进行描述。

第一种，拆分第二序列的方式获取第二特征。

该种情况下，步骤504的流程可以如图7所示。该过程包括步骤701至步骤704，下面进行描述。

步骤701，基于多个历史物品的类别将第二序列拆分为多个子序列。

获取第二序列之后，基于物品类别将第二序列拆分为多个子序列。其中，该物品类别可以是指电器、服饰、运动等。可以理解的是，该物品类别可以根据实际需要设置，例如，物品类别包括衣服、裤子等。又例如，物品类别包括物品产地、物品价格区间等，具体此处不做限定。

另外，子序列的数量与类别相关。以子序列的数量与历史物品的类别数量相等为例，多个历史物品有m个类别，则子序列的数量可以是m。m为大于1的正整数。示例性的，多个子序列记作T₁,...,T_m。

步骤702，获取多个子序列的多个第一子特征。

获取多个子序列之后，获取多个子序列的多个第一子特征。多个第一子特征中的每个第一子特征用于表示每个第一子特征对应的子序列中至少两个历史物品之间的关联关系，多个子序列与多个第一子特征一一对应。

其中，上述的第一子特征可以理解为是一个子序列中各历史物品之间的关联关系。

可选地，可以通过多个LSTM获取多个子序列的多个第一子特征。或者理解为，通过一个LSTM获取一个子序列的一个第一子特征。可以理解的是，也可以通过其他结构获取多个第一子特征，具体此处不做限定。

示例性的，以多个子序列的数量是m个为例，则多个第一子特征可以记作t_j,j＝1,...,m。

步骤703，基于多个第一子特征获取多个第二子特征。

获取多个第一子特征之后，基于多个第一子特征获取多个第二子特征。多个第二子特征中的每个第二子特征用于表示每个第二子特征对应的子序列与其他子序列之间的关联关系，多个第一子特征与多个第二子特征一一对应。

其中，上述的第二子特征可以理解为是多个子序列之间的关联关系。

可选地，可以将多个第一子特征输入自注意力机制以得到注意力结果，并拆解该注意力结果以得到多个第二子特征。可以理解的是，也可以通过其他结构获取多个第二子特征，具体此处不做限定。

示例性的，上述注意力结果可以用下述公式二进行表示。

公式二：

其中，V表示多个第一子特征的堆叠，

用于稳定Attention训练过程中的参数。A表示经过多个第一子序列相互交互过后的矩阵。将A矩阵的每一行元素作为一个第二子特征。

可以理解的是，上述公式二只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

步骤704，拼接降维处理多个第二子特征以得到第二特征。

获取多个第二子特征之后，拼接降维处理多个第二子特征以得到第二特征。

具体的，先将多个第二子特征进行拼接处理以得到一个长向量，再对该长向量进行降维处理得到第二特征。

示例性的，延续上述举例，先将A矩阵的每一行元素拼接为一个长向量[a₁,...,a_m]，再利用多层感知机(multi layer perceptron，MLP)对该长向量进行降维处理得到m维的第二特征。该过程可以如公式三所示。

公式三：

其中，

中的每个元素代表了用户对于相应类别的兴趣偏好(即第二特征)。

可以理解的是，上述公式三只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

示例性的，为了更直观的看出第一种情况的处理流程，请参阅图8，图8也可以理解为是多样性评估器的处理流程示意图。获取多个子序列，将多个子序列分别输入LSTM以得到多个第一子特征。并通过自注意力机制获取多个第一子特征对应的多个第二子特征。进而拼接降维处理多个第二子特征以得到第二特征。

第二种，不拆分第二序列的方式获取第二特征。

该种情况，获取第二序列之后，先基于第二序列获取第三特征，并降维处理第三特征以得到第二特征。其中，第三特征用于表示第二序列中各历史物品所属类别之间的关联关系。

可选地，将第二序列输入LSTM以得到第三特征，再通过MLP降维处理第三特征得到第二特征。

可以理解的是，上述几种获取第二特征的方式只是举例，在实际应用中，还可以有其他方式，具体此处不做限定。

由于不同用户对于多样性的程度可能有所不同。例如，有些用户尤其喜欢更加多样的推荐结果，有些用户只希望在某几个类别下进行多样化，有些用户可能根本不喜欢多样化的结果。通过获取第二序列的第二特征，由于第二特征可以表示用户对类别的喜好程度，进而可以根据第二序列中自动学习到用户的多样性偏好，后续为用户提供多样性偏好对应的推荐结果。

步骤505，基于多个第一特征与第二特征对第一序列进行重排序，以得到第三序列。

获取多个第一特征与第二特征之后，基于多个第一特征与第二特征对第一序列进行重排序，以得到第三序列。第三序列用于为用户推荐物品。

具体的，首先，基于多个第一特征与第二特征获取多个评分，多个评分用于表示多个待推荐物品重排序的评分，多个评分与多个待推荐物品一一对应。其次，基于多个评分对多个待推荐物品进行重新排序以得到第三序列。

其中，基于多个第一特征与第二特征获取多个评分的方式有多种，可以是每个第一特征与第二特征进行点乘以得到评分。也可以是通过其他方式，例如对第一特征和第二特征进行加权求和之后，再进行降维处理得到评分等，具体此处不做限定。

进一步的，为了考虑到初步推荐排序中各待推荐物品对于最终推荐结果的多样性影响。还可以获取多个待推荐物品的多个第四特征。多个第四特征用于表示多个待推荐物品的多样性，多个待推荐物品与多个第四特征一一对应。该种情况下，上述的基于多个第一特征与第二特征获取多个评分具体包括：基于多个第一特征、第二特征以及多个第四特征获取多个评分。

接下来对上述获取多个第四特征与获取多个评分的具体过程进行描述。

首先，对上述获取多个第四特征的具体过程进行描述。由于推荐结果的多样性也依赖于初步推荐排序中各待推荐物品的差别性。本申请实施例仅以概率覆盖函数作为多样性函数为例，先通过概率覆盖函数确定初步推荐排序是否已经覆盖到类别j，并获取推荐结果中含有待推荐物品i与不含有待推荐物品i之间的差异(即第i个第四特征)。其中，j＝1,...,m，m为推荐系统中物品的类别总数，R(i)表示列表R(即待推荐物品的初步推荐排序)中的第i个待推荐物品。

下面通过公式四描述获取一个第四特征的过程。

公式四：

其中，m为推荐系统中物品的类别总数，j＝1,...,m。c_j(R)表示列表R(即待推荐物品的初步推荐排序)是至少有一个待推荐物品覆盖到类别j，

表示列表R中的物品R(i)是否属于类别j。d_R(R(i))表示含有待推荐物品R(i)与不含有待推荐物品物品R(i)之间的多样性差异(即第i个第四特征)，R/R(i)表示列表R去掉待推荐物品R(i)之后的列表。

可以理解的是，上述公式四只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

例如，如果某个待推荐物品R(i)与已经存在于列表内的其他待推荐物品很相似，则将待推荐物品R(i)添加到列表里并不能带来很大的多样性提升。

其次，接下来描述基于多个第一特征、第二特征以及多个第四特征获取多个评分的具体过程。

可选地，先基于第二特征与多个第四特征得到多个第五特征，再基于多个第一特征与多个第五特征获取多个评分。其中，多个第五特征用于表示多个待推荐物品的个性化多样性特征(即待推荐物品的多样性个性化表征)，多个第四特征与多个第五特征一一对应。

示例性的，对第二特征与多个第四特征进行点乘处理已得到多个第五特征。下面通过公式五描述对第二特征与一个第四特征进行点乘得到一个第五特征的过程。

公式五：

其中，Δ_R(R(i))表示待推荐物品R(i)为列表R带来的个性化多样化增益。d_R(R(i))表示第i个第四特征。

表示第二特征。如果待推荐物品在用户更喜欢的类别中能够提供更多的多样性增益，则该待推荐物品会更加吸引用户且该列表的多样性也得以提升。

可以理解的是，上述公式五只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

本申请实施例中，基于多个第一特征与多个第五特征获取多个评分有多种情况，可以是先拼接多个第一特征与多个第五特征以得到多个第六特征，基于多个第六特征获取多个评分。也可以是对多个第一特征与多个第五特征进行点乘处理得到多个评分等，具体此处不做限定。其中，多个第一特征、多个第五特征以及多个第六特征一一对应。

可选地，对于获取多个第六特征后，基于多个第六特征获取多个评分的方式有多种情况。第一种情况(也可以称为确定型)：直接通过多个第六特征估计多个评分(例如降维处理多个第六特征得到多个评分)。第二种情况(也可以称为概率型)：先通过多个第六特征估计评分的均值和方差，再根据均值和方差确定得到多个评分。

示例性的，上述第一种情况中，获取多个评分的过程可以如公式六所示。

公式六：

其中，

表示各待推荐物品的评分。H_R表示多个第一特征堆叠得到的相关性矩阵，Δ_R表示多个第五特征堆叠得到的多样性矩阵。[H_R,Δ_R]表示H_R与Δ_R进行拼接处理得到的多个第六特征。MLP用于降维多个第六特征。

可以理解的是，上述公式六只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

示例性的，上述第二种情况中，获取多个评分的过程可以如公式七所示。

公式七：

其中，使用两个MLP分别估计评分的均值m_R与方差Σ_R，

表示各待推荐物品的评分，即使用打分函数的置信上届(upper confidence bound)对待推荐物品进行重新排序。

在训练阶段，由于采样操作不可导，可以将随机采样过程使用下述公式八进行替代，该公式八引入一个标准正态分布随机变量ξ。

公式八：

其中，Ψ_R表示评分的随机采样。该过程可以理解为将评分当做一个分布。这样均值和方差相关的参数可以使用标准反向传播进行优化，进而学习这种分布。

可以理解的是，上述公式七与公式八只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

为了更加直观的看出上述获取评分的多种情况，图9A示出了第一种情况的一种示例，先拼接多个第一特征与多个第五特征以得到多个第六特征，再通过打分网络处理多个第六特征得到多个评分。其中，该打分网络也可以理解为是用于降维处理，具体可以是MLP等用于降维处理的网络结构，具体此处不做限定。图9B示出了第二种情况的一种示例，先拼接多个第一特征与多个第五特征以得到多个第六特征，并通过多个第六特征估计评分的均值和方差，再根据均值和方差确定得到多个评分(其中获取多个第六特征的步骤与图9A类似，图9B中未示出)。图9A与图9B也可以理解为是重排序打分器的几种处理流程示意图。

本申请实施例中的各步骤之间的时序可以根据实际需要设置，具体此处不做限定。例如，步骤503可以在步骤501之前或之后。又例如，步骤502可以在步骤504之前或之后。又例如，步骤502可以在步骤503之前或之后等。

示例性的，图10示出了本申请提供的推荐方法在图4所示系统架构中的一种示例，图10也可以理解为是本申请实施例提供的推荐网络的结构示意图。该推荐网络包括：相关性预估器、多样性预估器以及重排序打分器。具体的，相关性预估器获取物品的相关性特征。多样性预估器获取物品的多样性特征。重排序打分器结合物品的相关性特征和多样性特征，输出最终重排序评分。并按照重排序打分对物品进行排序得到推荐结果，进而向用户展示推荐结果。

另外，本申请实施例中相关性预估器、多样性预估器以及重排序打分器可以共同训练。即推荐网络包括相关性预估器、多样性预估器以及重排序打分器。

示例性的，以损失函数是二元交叉熵损失函数为例，在训练集上的训练过程可以如下述公式九所示。

公式九：

其中，上述也可以理解为，以R_l(i)为推荐网络的输入，以

为推荐网络的输出，以损失函数的值小于阈值为目标对推荐网络进行训练。损害函数用于表示推荐网络的输出

与标签值

之间的差异。其中，

为0或1的标签，表示用户是否点击了列表R_l中的第i个物品，其中1表示用户点击了该物品，0表示未点击。n为训练集中的重排序次数，可以根据用户请求次数确定，也可以是预设值等。L表示每一次重排序中的物品数量。

可以理解的是，上述公式九只是一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

为了更直观的看出本申请实施例提供的推荐网络的推荐准确性，以两个公开数据集(电商推荐数据集与电影推荐数据集)为例，在不同多样性实验设定下(多样性权重不同)验证本申请实施例提供的推荐网络与现有推荐模型的推荐准确性进行对比。对比结果如图11所示。图11中的(a)与(b)的区别在于多样性的权重不同，即(a)中的λ＝0.5，(b)中的λ＝0.9。λ表示实验设定中的多样性和准确性权重，值越大代表多样性权重越低。

本申请实施例提供的推荐网络也可以称为个性化多样性重排序模型(Re-rankingwith personalized diversification，RAPID)，RAPID-det(如前述图9A)和RAPID-pro(如前述图9B)为两种不同的重排序打分器的实现方式。

现有的推荐模型包括三种类型，第一种类型为考虑推荐准确性的推荐模型。第二种类型为考虑推荐多样性的推荐模型。第三种类型为考虑推荐个性化与推荐多样性的推荐模型。

第一种类型的推荐模型(简称为I)包括：不经过重排序的初始排序结果(initialranking，Init)、深度列表上下文模型(deep listwise context model，DLCM)、个性化重排序模型(personalized re-ranking model，PRM)、集合排序模型(SetRank)、范围感知的门控注意力重排序模型(scope-aware reranking with gated attention model，SRGA)。

第二种类型的推荐模型(简称为II)包括：最大边际相关性(maximal marginalrelevance，MMR)、行列式点过程(determinantal point process，DPP)、自注意力多样性编码器(diversity encoder with self-attention，DESA)、滑动谱分解(sliding spectrumDecomposition，SSD)。

第三种类型的推荐模型(简称为III)包括：自适应最大边际相关性(adaptivemaximal marginal relevance，adpMMR)、个性化多样性促进生成对抗网络(personalizeddiversity-promoting generative adversarial networks，PD-GAN)。

图11中的评价指标包括：前k个物品的点击次数(click at k，click@k)、前k个物品的归一化折损累计增益(normalized discounted cumulative gain at k，ndcg@k)、)前k个物品的用户满意度(satisfaction at k，satis@k)、前k个物品的多样性(diversity atk，div@k)。其中，K为5或10。上述评价指标均为值越大性能越优。

从图11可以看出，RAPID取得了最优的推荐准确度，以及相比I和III最优的多样性。II类现有模型虽然可以取得较好的多样性，但是其推荐精度大幅下降，在实际应用中不可取，因为推荐准确性是推荐系统最主要的优化目标。综上，本申请实施例提供的RAPID可以同时取得较好的推荐准确度和多样性。

同理，在私有数据集上进一步验证本申请实施例提供的推荐网络与上述现有模型的对比效果。对比效果如图12所示。其中，评价指标中增加了前k个物品的推荐收益(revenue at k，rev@k)，直接对应平台推荐所能获得的收入。可以看出，RAPID在多种指标下都能获得最优的效果，如相比目前重排序业界效果最好的技术PRM在前五和前十位的推荐收益上分别提升了2.06％和1.07％。

上面对本申请实施例中的推荐方法进行了描述，下面对本申请实施例中的推荐设备进行描述，请参阅图13，本申请实施例中推荐设备的一个实施例包括：

获取单元1301，用于获取第一序列，第一序列用于表示多个待推荐物品的初步推荐排序；

获取单元1301，还用于基于第一序列获取多个第一特征，多个第一特征中的每个第一特征用于表示每个第一特征对应的待推荐物品与其他待推荐物品的关联关系；

获取单元1301，还用于获取第二序列，第二序列用于表示与用户历史行为相关的多个历史物品排序；

获取单元1301，还用于基于第二序列获取第二特征，第二特征用于表示用户对多个历史物品所属类别的喜好程度；

重排序单元1302，用于基于多个第一特征与第二特征对第一序列进行重排序，以得到第三序列，第三序列用于为用户推荐物品。

本实施例中，推荐设备中各单元所执行的操作与前述图4至图12所示实施例中描述的类似，此处不再赘述。

本实施例中，获取单元1301通过获取与用户历史行为相关的多个历史物品的排序，重排序单元1302根据该多个历史物品的排序获取的第二特征对初步推荐排序进行更新。由于第二特征体现了用户对多个历史物品所属类别的喜好程度，因此由第二特征确定的第三序列可以为用户提供个性化与多样性的物品推荐。

请参阅图14，本申请提供的另一种推荐设备的结构示意图。该推荐设备可以包括处理器1401、存储器1402和通信端口1403。该处理器1401、存储器1402和通信端口1403通过线路互联。其中，处理器1401用于对推荐设备的动作进行控制处理。存储器1402中存储有程序指令和数据。

存储器1402中存储了前述图4至图12所示对应的实施方式中，由推荐设备执行的步骤对应的程序指令以及数据。

处理器1401，用于执行前述图4至图12所示实施例中任一实施例所示的由推荐设备执行的步骤。

此外，处理器1401可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

通信端口1403可以用于进行数据的接收和发送，用于执行前述图4至图12所示实施例中任一实施例中与获取、发送、接收相关的步骤。

需要说明的是，图14所示推荐设备具体可以用于实现图4至图12对应方法实施例中推荐设备所执行的步骤的功能，并实现推荐设备对应的技术效果，图14所示推荐设备的具体实现方式，均可以参考图4至图12对应的各个方法实施例中的叙述，此处不再一一赘述。

一种实现方式中，推荐设备可以包括相对于图14更多或更少的部件，本申请对此仅仅是示例性说明，并不作限定。

本申请实施例还提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，该处理器执行如前述实施例中可能的实现方式的方法，其中，该推荐设备具体可以执行前述图4至图12对应方法实施例中的步骤。

本申请实施例还提供一种存储一个或多个计算机的计算机程序产品，当计算机程序产品被该处理器执行时，该处理器执行上述可能实现方式的方法，其中，该推荐设备具体可以执行前述图4至图12对应方法实施例中的步骤。

本申请实施例还提供了一种芯片系统，该芯片系统包括处理器，用于支持推荐设备实现上述推荐设备可能的实现方式中所涉及的功能。在一种可能的设计中，该芯片系统还可以包括存储器，存储器，用于保存该推荐设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件，其中，该推荐设备具体可以执行前述图4至图12对应方法实施例中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种推荐方法，其特征在于，所述方法包括：

获取第一序列，所述第一序列用于表示多个待推荐物品的初步推荐排序；

基于所述第一序列获取多个第一特征，所述多个第一特征中的每个第一特征用于表示所述每个第一特征对应的待推荐物品与其他待推荐物品的关联关系；

获取第二序列，所述第二序列用于表示与用户历史行为相关的多个历史物品排序；

基于所述第二序列获取第二特征，所述第二特征用于表示用户对所述多个历史物品所属类别的喜好程度；

基于所述多个第一特征与所述第二特征对所述第一序列进行重排序，以得到第三序列，所述第三序列用于为所述用户推荐物品。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二序列获取第二特征，包括：

基于所述多个历史物品的类别将所述第二序列拆分为多个子序列；

获取所述多个子序列的多个第一子特征，所述多个第一子特征中的每个第一子特征用于表示所述每个第一子特征对应的子序列中至少两个历史物品之间的关联关系，所述多个子序列与所述多个第一子特征一一对应；

基于所述多个第一子特征获取多个第二子特征，所述多个第二子特征中的每个第二子特征用于表示所述每个第二子特征对应的子序列与其他子序列之间的关联关系，所述多个第一子特征与所述多个第二子特征一一对应；

拼接降维处理所述多个第二子特征以得到所述第二特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第二序列获取第二特征，包括：

基于所述第二序列获取第三特征，所述第三特征用于表示所述第二序列中各历史物品所属类别之间的关联关系；

降维处理所述第三特征以得到所述第二特征。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

获取所述多个待推荐物品的多个第四特征，所述多个第四特征用于表示所述多个待推荐物品的多样性，所述多个待推荐物品与所述多个第四特征一一对应；

所述基于所述多个第一特征与所述第二特征对所述第一序列进行重排序，以得到第三序列，包括：

基于所述多个第一特征、所述第二特征、所述多个第四特征获取多个评分，所述多个评分用于表示所述多个待推荐物品重排序的评分，所述多个评分与所述多个待推荐物品一一对应；

基于所述多个评分对所述多个待推荐物品进行重排序，以得到所述第三序列。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个第一特征、所述第二特征、所述多个第四特征获取多个评分，包括：

基于所述第二特征与所述多个第四特征得到多个第五特征，所述多个第五特征用于表示所述多个待推荐物品的个性化多样性特征，所述多个第四特征与所述多个第五特征一一对应；

基于所述多个第一特征与所述多个第五特征获取所述多个评分。

6.根据权利要求5所述的方法，其特征在于，所述基于所述多个第一特征与所述多个第五特征获取所述多个评分，包括：

拼接所述多个第一特征与所述多个第五特征以得到多个第六特征，所述多个第一特征、所述多个第五特征以及所述多个第六特征一一对应；

降维处理所述多个第六特征以得到所述多个评分。

7.根据权利要求5所述的方法，其特征在于，所述基于所述多个第一特征与所述多个第五特征获取所述多个评分，包括：

对所述多个第一特征与所述多个第五特征进行点乘处理以得到所述多个评分。

8.一种推荐设备，其特征在于，所述推荐设备包括：

获取单元，用于获取第一序列，所述第一序列用于表示多个待推荐物品的初步推荐排序；

所述获取单元，还用于基于所述第一序列获取多个第一特征，所述多个第一特征中的每个第一特征用于表示所述每个第一特征对应的待推荐物品与其他待推荐物品的关联关系；

所述获取单元，还用于获取第二序列，所述第二序列用于表示与用户历史行为相关的多个历史物品排序；

所述获取单元，还用于基于所述第二序列获取第二特征，所述第二特征用于表示用户对所述多个历史物品所属类别的喜好程度；

重排序单元，用于基于所述多个第一特征与所述第二特征对所述第一序列进行重排序，以得到第三序列，所述第三序列用于为所述用户推荐物品。

9.根据权利要求8所述的设备，其特征在于，所述获取单元，具体用于基于所述多个历史物品的类别将所述第二序列拆分为多个子序列；

所述获取单元，具体用于获取所述多个子序列的多个第一子特征，所述多个第一子特征中的每个第一子特征用于表示所述每个第一子特征对应的子序列中至少两个历史物品之间的关联关系，所述多个子序列与所述多个第一子特征一一对应；

所述获取单元，具体用于基于所述多个第一子特征获取多个第二子特征，所述多个第二子特征中的每个第二子特征用于表示所述每个第二子特征对应的子序列与其他子序列之间的关联关系，所述多个第一子特征与所述多个第二子特征一一对应；

所述获取单元，具体用于拼接降维处理所述多个第二子特征以得到所述第二特征。

10.根据权利要求8所述的设备，其特征在于，所述获取单元，具体用于基于所述第二序列获取第三特征，所述第三特征用于表示所述第二序列中各历史物品所属类别之间的关联关系；

所述获取单元，具体用于降维处理所述第三特征以得到所述第二特征。

11.根据权利要求8至10中任一项所述的设备，其特征在于，所述获取单元，还用于获取所述多个待推荐物品的多个第四特征，所述多个第四特征用于表示所述多个待推荐物品的多样性，所述多个待推荐物品与所述多个第四特征一一对应；

所述重排序单元，具体用于基于所述多个第一特征、所述第二特征、所述多个第四特征获取多个评分，所述多个评分用于表示所述多个待推荐物品重排序的评分，所述多个评分与所述多个待推荐物品一一对应；

所述重排序单元，具体用于基于所述多个评分对所述多个待推荐物品进行重排序，以得到所述第三序列。

12.根据权利要求11所述的设备，其特征在于，所述重排序单元，具体用于基于所述第二特征与所述多个第四特征得到多个第五特征，所述多个第五特征用于表示所述多个待推荐物品的个性化多样性特征，所述多个第四特征与所述多个第五特征一一对应；

所述重排序单元，具体用于基于所述多个第一特征与所述多个第五特征获取所述多个评分。

13.根据权利要求12所述的设备，其特征在于，所述重排序单元，具体用于拼接所述多个第一特征与所述多个第五特征以得到多个第六特征，所述多个第一特征、所述多个第五特征以及所述多个第六特征一一对应；

所述重排序单元，具体用于降维处理所述多个第六特征以得到所述多个评分。

14.根据权利要求12所述的设备，其特征在于，所述重排序单元，具体用于对所述多个第一特征与所述多个第五特征进行点乘处理以得到所述多个评分。

15.一种推荐设备，其特征在于，包括处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序或指令，所述处理器用于执行存储器中的所述计算机程序或指令，使得权利要求1至7中任一项所述的方法被执行。

16.一种芯片，其特征在于，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行计算机程序或指令，使得权利要求1至7中任一项所述的方法被执行。

17.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1至7中任一项所述的方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品在计算机上执行时，使得所述计算机执行如权利要求1至7中任一项所述的方法。