CN111782927B

CN111782927B - 物品推荐方法及其装置、计算机可存储介质

Info

Publication number: CN111782927B
Application number: CN201910405932.7A
Authority: CN
Inventors: 廖耀华; 雷章明; 汤桢伟; 周东; 古川; 刘杨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Filing date: 2019-05-15
Publication date: 2024-05-17
Anticipated expiration: 2039-05-15

Abstract

本公开涉及物品推荐方法及其装置、计算机可存储介质，涉及网络技术领域。物品推荐方法包括：获取历史物品推荐集合，所述历史物品推荐集合是根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到的物品推荐集合，所述历史物品推荐集合包括至少一个物品；获取所述用户的实时物品数据和第二用户画像数据；根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐。根据本公开，提高了物品推荐的准确性。

Description

物品推荐方法及其装置、计算机可存储介质

技术领域

本公开涉及网络技术领域，特别涉及物品推荐方法及其装置、计算机可存储介质。

背景技术

随着电商平台的不断发展，基于海量的电商数据，准确地为用户推荐个性化的物品变得尤为重要。

相关物品推荐技术使用用户的历史数据离线训练模型，得到推荐给用户的物品，物品推荐的准确性较差。

发明内容

发明人认为：相关物品推荐技术使用用户的历史数据离线训练模型，得到推荐给用户的物品，物品推荐的准确性较差。

针对上述技术问题，本公开提出了一种解决方案，提高物品推荐的准确性。

根据本公开的第一方面，提供了一种物品推荐方法，包括：获取历史物品推荐集合，所述历史物品推荐集合是根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到的物品推荐集合，所述历史物品推荐集合包括至少一个物品；获取所述用户的实时物品数据和第二用户画像数据；根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐。

在一些实施例中，根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐包括：根据所述实时物品数据和所述历史物品推荐集合，确定实时物品特征向量；根据所述第二用户画像数据，确定第二用户画像特征向量；根据所述实时物品特征向量和第二用户画像特征向量，利用所述第一神经网络模型，进行实时物品推荐。

在一些实施例中，根据所述实时物品特征向量和所述第二用户画像特征向量，利用所述第一神经网络模型，进行实时物品推荐包括：合并所述实时物品特征向量和所述第二用户画像特征向量，得到实时特征向量；根据所述实时特征向量，利用所述第一神经网络模型，进行实时物品推荐。

在一些实施例中，所根据所述实时特征向量，利用所述第一神经网络模型，进行实时物品推荐包括：将所述实时特征向量输入到所述第一神经网络模型，得到实时物品推荐集合；根据所述实时物品推荐集合，进行实时物品推荐。

在一些实施例中，根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐包括：根据所述实时物品数据和所述历史物品推荐集合的并集，确定实时物品推荐集合。

在一些实施例中，根据所述实时物品特征向量和所述第二用户画像特征向量，利用所述第一神经网络模型，进行实时物品推荐还包括：根据所述实时物品特征向量，确定所述实时物品推荐集合中的每个物品对应的实时物品子特征向量；根据每个物品对应的实时子物品特征向量和第二用户画像特征向量，利用所述第一神经网络模型，进行实时物品推荐。

在一些实施例中，根据每个物品对应的实时物品子特征向量和第二用户画像特征向量，利用所述第一神经网络模型，进行实时物品推荐包括：获取所述第一神经网络模型的N个常量矩阵，N为大于等于2的整数；根据每个物品对应的实时物品子特征向量和第二用户画像特征向量，通过所述N个常量矩阵确定每个物品的分值；根据每个物品的分值，进行实时物品推荐。

在一些实施例中，所述N个常量矩阵包括M个权值矩阵和(N-M)个偏值矩阵，M为大于等于1的整数。

在一些实施例中，根据每个物品对应的实时物品子特征向量和实时用户画像特征向量，通过所述多个常量矩阵确定每个物品的分值包括：根据所述N个常量矩阵，构建第二神经网络模型，所述第二神经网络模型包括多层神经网络，每一层神经网络包括至少一个所述权值矩阵和至少一个所述偏值矩阵；计算每一层神经网络的输入特征向量和与该输入特征向量对应的权值矩阵的乘积；在第一层神经网络中，对所述乘积和与该层神经网络对应的偏值矩阵加和，并经过激活函数后，得到该层神经网络的输出特征向量；在除第一层神经网络以外的其它层神经网络中，对所述乘积和与该层神经网络对应的偏值矩阵加和，得到该层神经网络的输出特征向量；根据最后一层神经网络的输出特征向量，确定每个物品的分值；其中，第一层神经网络的输入特征向量包括每个物品对应的实时物品子特征向量、第二用户画像特征向量；除第一层神经网络以外的其它层神经网络的输入特征向量为上一层神经网络的输出特征向量。

在一些实施例中，根据每个物品的分值，进行实时物品推荐包括：根据每个物品的分值，对所述实时物品推荐集合中的物品进行排序；根据排序得到的结果，推荐分值从大到小的前P个物品，P为正整数。

在一些实施例中，获取所述用户的实时物品数据包括：实时获取用户浏览或者评价的物品数据；解析所述物品数据；过滤不包括用户标识和物品标识的物品数据，以及过滤包括非推荐类标识的物品数据，得到所述实时物品数据。

在一些实施例中，物品推荐方法还包括：使用历史物品数据和对应的用户画像数据，训练所述第一神经网络模型。

在一些实施例中，所述第一神经网络模型包括DDPG(深度确定性策略梯度)算法模型。

在一些实施例中，所述历史物品数据和所述实时物品数据分别包括至少一个物品标识，所述物品标识唯一标识一个物品。

在一些实施例中，以预定时间间隔更新所述历史物品数据、所述第一用户画像数据和所述第二用户画像数据。

在一些实施例中，通过用户标识获取所述用户的历史物品数据、第一用户画像数据、实时物品数据、第二用户画像数据。

根据本公开的第二方面，提供了一种物品推荐装置，包括：第一获取模块，被配置为获取历史物品推荐集合，所述历史物品推荐集合根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到，所述历史物品推荐集合包括至少一个物品；第二获取模块，被配置为获取所述用户的实时物品数据和第二用户画像数据；实时推荐模块，被配置为根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐。

根据本公开的第三方面，提供了一种物品推荐装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的物品推荐方法。

根据本公开的第四方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的物品推荐方法。

在上述实施例中，提高了物品推荐的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出根据本公开一些实施例的物品推荐方法的流程图；

图2示出根据本公开的一些实施例的训练第一神经网络模型的流程图；

图3示出根据本公开一些实施例的实时物品推荐的流程图；

图4示出根据本公开一些实施例的根据实时物品特征向量和第二用户画像特征向量、利用第一神经网络模型、进行实时物品推荐的流程图；

图5示出根据本公开另一些实施例的根据实时物品特征向量和第二用户画像特征向量、利用第一神经网络模型、进行实时物品推荐的流程图；

图6示出根据本公开一些实施例的采用第二神经网络模型计算每个物品的分值的示意图；

图7示出根据本公开一些实施例的物品推荐装置的框图；

图8示出根据本公开一些实施例的物品推荐装置的框图；

图9示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出根据本公开一些实施例的物品推荐方法的流程图。

如图1所示，物品推荐方法包括步骤S1～步骤S3。

在步骤S1中，获取历史物品推荐集合。历史物品推荐集合是根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到的物品推荐集合。历史物品推荐集合包括至少一个物品。用户的历史物品数据例如为用户历史浏览、购买、加购、收藏的物品数据。

在一些实施例中，第一神经网络模型为DDPG(Deep Reinforcement Learning，深度确定性策略梯度)算法模型。在步骤S1之前，物品推荐方法例如还可以包括步骤：使用历史物品数据和对应的用户画像数据，训练第一神经网络模型。

图2示出根据本公开的一些实施例的训练第一神经网络模型的流程图。

如图2所示，训练第一神经网络模型包括：步骤S210，获取物品数据，物品数据例如为各个用户历史浏览、购买、加购、收藏的物品数据；步骤S220，清洗物品数据，例如过滤无效的物品数据；步骤S230，将清洗好的物品数据转换成物品向量，例如使用One-Hot(独热)编码将清洗好的物品数据转换成物品向量；以及步骤S240，使用物品向量训练第一神经网络模型。

在一些实施例中，训练第一神经网络模型还包括：步骤S250，输出并保存第一神经网络模型的N个常量矩阵，N为大于等于2的整数。例如，将第一神经网络模型的N个常量矩阵保存到文件存储服务器中。在一些实施例中，文件存储服务器为分布式文件存储服务器，例如为OSS(Operation Support System，运营支撑系统)服务器。

返回图1描述本公开一些实施例的物品推荐方法。

在步骤S2中，获取用户的实时物品数据和第二用户画像数据。用户的实时物品数据例如为用户实时浏览、评价的物品数据。

获取用户的实时物品数据例如可以通过如下方式实现。

首先，实时获取用户浏览或者评价的物品数据。

例如，申请接入分布式消息队列，根据要获取的用户的实时物品数据选择对应的Topic(主题)。Topic为消息中间件的主题，用于消费特定主题的消息。例如，在获取用户实时浏览的物品数据的情况下，接入用户实时浏览的物品数据的主题进行消费处理。消费处理例如为获取用户实时浏览的物品数据的消息。

根据分布式消息队列的客户端编号、组编号、服务器地址、用户名和访问秘钥构建实时计算系统Storm的消息源Spout。消息源Spout即为消息生成者。通过构建消息源Spout接入主题Topic，可以获取用户实时浏览的物品数据，并以Tuple(元组)为载体对象，将用户实时浏览的物品数据发送给实时计算系统Storm初始化的Bolt实例。Bolt为实时计算系统Storm中的接口。用户实时浏览的物品数据例如为JSON(JavaScript Object Notation，JavaScript对象简谱)数据格式，包括用户标识和物品标识。

然后，解析物品数据。例如，Bolt实例对获取到的物品数据进行解析处理。

最后，过滤不包括用户标识和物品标识的物品数据，以及过滤包括非推荐类标识的物品数据，得到用户的实时物品数据。例如，Bolt实例在解析物品数据的过程中，过滤不包括用户标识和物品标识的物品数据，以及过滤包括非推荐类标识的物品数据。

非推荐类标识的物品数据包括禁止推荐的物品、无库存的物品、复购期内的物品。例如，根据物品标识判断实时的物品数据是否为禁止推荐的物品。根据用户标识获取用户的收货地址，检查物品标识在收货地址是否有库存，在没有库存的情况下，判断该物品为无库存物品。

根据所有物品的复购周期构建复购模型。在用户购买物品的情况下，解析用户的订单信息中的用户标识和物品标识。通过复购模型计算该用户下次购买该物品的时间，即得到该物品的复购周期。在用户再次浏览该物品的时间在复购周期内的情况下，该物品为复购期内的物品，过滤该物品。例如，一物品的复购周期为30天，当用户在第25天浏览该物品时，过滤该物品；当用户在第31天浏览该物品时，不过滤该物品。

在一些实施例中，记录用户浏览的物品标识，将浏览次数加1，同时设置过期时间为30天。即，在用户最近30天都没有浏览该物品的情况下，过滤该物品。在30天后浏览该物品后，重新记录浏览次数。

返回步骤S2，在一些实施例中，用户的历史物品数据和实时物品数据分别包括至少一个物品标识，物品标识用于唯一标识一个物品，例如为物品SKU(Stock Keeping Unit，库存量单位)。

用户的第一用户画像数据和第二用户画像数据例如为用户的年龄、性别、会员等级、收入、婚姻状况、学历、职业、常住地址、是否有车、是否有小孩、小孩年龄、小孩性别、最近一个月客单价、购物类型、用户活跃度、品类勋章、勋章等级、最近一年最后一次下单时间、用户价值分组、用户忠诚度、平台影响力、社交关系影响力、颜色偏好、品牌偏好、品类偏好等。

在一些实施例中，通过用户标识获取用户的历史物品数据、第一用户画像数据、实时物品数据、第二用户画像数据。用户标识用于唯一标识一个用户，例如为用户PIN(Personal Identification Number，个人识别密码)。

在一些实施例中，以预定时间间隔更新历史物品数据、第一用户画像数据和第二用户画像数据。例如，用户的历史物品数据、第一用户画像数据和第二用户画像数据的时效为T+1，每天更新一次。第一用户画像数据的更新时间例如可以比第二用户画像数据早一天。

在步骤S3中，根据用户的实时物品数据、第二用户画像数据和历史物品推荐集合，利用第一神经网络模型，进行实时物品推荐。

图3示出根据本公开一些实施例的实时物品推荐的流程图。

如图3所示，根据用户的实时物品数据、第二用户画像数据和历史物品推荐集合，利用第一神经网络模型，进行实时物品推荐包括步骤S31～步骤S33。

在步骤S31中，根据用户的实时物品数据和历史物品推荐集合，确定实时物品特征向量。例如，合并用户的实时物品数据和历史物品推荐集合，对合并后的物品数据进行One-Hot编码确定实时物品特征向量。

在步骤S32中，根据第二用户画像数据，确定第二用户画像特征向量。例如，对用户的第二用户画像数据进行One-Hot编码确定第二用户画像特征向量。在一些实施例中，用户的会员等级包括['银牌会员','金牌会员','其他','VIP会员','铜牌会员','钻石会员','易迅会员','注册会员']，一用户的会员等级为金牌会员，对该用户的会员等级进行One-Hot编码后得到向量[0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0]。

在步骤S33中，根据实时物品特征向量和第二用户画像特征向量，利用第一神经网络模型，进行实时物品推荐。

图4示出根据本公开一些实施例的根据实时物品特征向量和第二用户画像特征向量、利用第一神经网络模型、进行实时物品推荐的流程图。

如图4所示，根据实时物品特征向量和第二用户画像特征向量、利用第一神经网络模型、进行实时物品推荐包括步骤S331和步骤S333。

在步骤S331中，合并实时物品特征向量和第二用户画像特征向量，得到实时特征向量。例如，实时特征向量前半部分是第二用户画像特征向量，后半部分是实时物品特征向量。

在步骤333中，根据实时特征向量，利用第一神经网络模型，进行实时物品推荐。例如，将实时特征向量输入到第一神经网络模型，得到实时物品推荐集合。根据实时物品推荐集合，进行实时物品推荐。

图5示出根据本公开另一些实施例的根据实时物品特征向量和第二用户画像特征向量、利用第一神经网络模型、进行实时物品推荐的流程图。

如图5所示，根据实时物品特征向量和第二用户画像特征向量、利用第一神经网络模型、进行实时物品推荐包括步骤S332～步骤S336。

在步骤S332中，根据实时物品数据和历史物品推荐集合的并集，确定实时物品推荐集合。在一些实施例中，根据实时物品推荐集合确定实时物品特征向量。

在步骤S334中，根据实时物品特征向量，确定实时物品推荐集合中的每个物品对应的实时物品子特征向量。

在步骤S336中，根据每个物品对应的实时子物品特征向量和第二用户画像特征向量，利用第一神经网络模型，进行实时物品推荐。

例如，可以通过如下方式进行实时物品推荐。

首先，获取第一神经网络模型的N个常量矩阵，N为大于等于2的整数。在一些实施例中，N个常量矩阵包括M个权值矩阵和(N-M)个偏值矩阵，M为大于等于1的整数。

然后，根据每个物品对应的实时物品子特征向量和第二用户画像特征向量，通过N个常量矩阵确定每个物品的分值。

最后，根据每个物品的分值，进行实时物品推荐。在一些实施例中，根据每个物品的分值，对实时物品推荐集合中的物品进行排序。根据排序得到的结果，推荐分值从大到小的前P个物品，P为正整数。P例如为10。

在一些实施例中，通过如下方式确定每个物品的分值。

首先，根据N个常量矩阵，构建第二神经网络模型。第二神经网络模型包括多层神经网络，每一层神经网络包括至少一个权值矩阵和至少一个偏值矩阵。

然后，计算每一层神经网络的输入特征向量和与该输入特征向量对应的权值矩阵的乘积。第一层神经网络的输入特征向量包括每个物品对应的实时物品子特征向量、第二用户画像特征向量。除第一层神经网络以外的其它层神经网络的输入特征向量为上一层神经网络的输出特征向量。

然后，在第一层神经网络中，对乘积和与该层神经网络对应的偏值矩阵加和，并经过激活函数后，得到该层神经网络的输出特征向量。在除第一层神经网络以外的其它层神经网络中，对乘积和与该层神经网络对应的偏值矩阵加和，得到该层神经网络的输出特征向量。激活函数例如为Relu(Rectified Linear Unit，修正线性单元)激活函数。

最后，根据最后一层神经网络的输出特征向量，确定每个物品的分值。例如，最后一层神经网络的输出特征向量即为该物品的分值。

图6示出根据本公开一些实施例的采用第二神经网络模型计算每个物品的分值的示意图。

如图6所示，第二神经网络模型包括三层神经网络，第一层神经网络的常量矩阵包括第一层action(行为)权值矩阵、第一层state(状态)权值矩阵和第一层偏值矩阵。激活函数为Relu激活函数。第二层神经网络的常量矩阵包括第二层权值矩阵、第二层偏值矩阵。第三层神经网络的常量矩阵包括第三层权值矩阵、第三层偏值矩阵，第三层神经网络例如为全连接网络。

循环计算实时物品推荐集合中的每个物品的分值。

根据实时物品特征向量，获取第i个物品对应的实时物品子特征向量，i为物品的编号，i是大于等于0、小于实时物品子特征向量个数的整数。将实时物品子特征向量与第一层action权值矩阵的乘积、第二用户画像特征向量与第一层state权值矩阵的乘积、第一层偏值矩阵进行加和，并经过Relu激活函数，得到第一层神经网络的输出特征向量。将第一层神经网络的输出特征向量与第二层权值矩阵的乘积、第二层偏值矩阵进行加和，得到第二层神经网络的输出特征向量。将第二层神经网络的输出特征向量与第三层权值矩阵的乘积、第三层偏值矩阵加和，得到第三层神经网络的输出特征向量，即为第i个物品的分值。

每次计算得到第i个物品的分值后，将i加1，获取下一个物品对应的实时物品子特征向量，如此循环计算得到实时物品推荐集合中的每个物品的分值。

例如，在第一层神经网络中，第二用户画像特征向量矩阵为1×526的矩阵，第一层state权值矩阵为526×100的矩阵，第二用户画像向量矩阵和第一层state权值矩阵相乘(即矩阵相乘)后，得到1×100的矩阵。实时物品子特征向量为1×50的矩阵，第一层action权值矩阵为50×100的矩阵，则两个矩阵相乘后得到1×100的矩阵。第一层偏值矩阵为1×100的矩阵。三个1×100的矩阵进行矩阵加和，并经过Relu激活函数，得到的输出特征向量是一个新的1×100的矩阵。

在第二层神经网络中，第二层权值矩阵为100×20的矩阵，第一层神经网络的输出特征向量乘以第二层权值矩阵，得到1×20的矩阵，加上1×20的第二层偏值矩阵，得到的输出特征向量是一个新的1×20的矩阵。

在第三层神经网络中，第三层权值矩阵为20×1的矩阵，第二层神经网络的输出特征向量乘以第三层权值矩阵，得到1×1的矩阵，加上1×1的第三层偏值矩阵，得到的输出特征向量是一个1×1的矩阵，即该物品的分值。

图7示出根据本公开一些实施例的物品推荐装置的框图。

如图7所示，物品推荐装置7包括第一获取模块71，被配置为获取历史物品推荐集合，例如执行如图1所示的步骤S1，历史物品推荐集合根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到，历史物品推荐集合包括至少一个物品；第二获取模块72，被配置为获取用户的实时物品数据和第二用户画像数据，例如执行如图1所示的步骤S2；以及实时推荐模块73，被配置为根据实时物品数据、第二用户画像数据和历史物品推荐集合，利用第一神经网络模型，进行实时物品推荐，例如执行如图1所示的步骤S3。

图8示出根据本公开一些实施例的物品推荐装置的框图。

如图8所示，物品推荐装置8包括：存储器81；以及耦接至该存储器81的处理器82，存储器81用于存储执行信息发送方法对应实施例的指令。处理器82被配置为基于存储在存储器81中的指令，执行本公开中任意一些实施例中的物品推荐方法。

图9示出用于实现本公开一些实施例的计算机系统的框图。

如图9所示，计算机系统90可以通用计算设备的形式表现。计算机系统90包括存储器910、处理器920和连接不同系统组件的总线900。

存储器910例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行信息发送方法和信息接收方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器920可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线900可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统90还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间可以通过总线900连接。输入输出接口930可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口940为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的物品推荐方法及其装置、计算机可存储介质，深层次挖掘用户行为的同时，结合了实时的用户行为，提高了物品推荐的准确性。

至此，已经详细描述了根据本公开的物品推荐方法及其装置、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种物品推荐方法，包括：

获取历史物品推荐集合，所述历史物品推荐集合是根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到的物品推荐集合，所述历史物品推荐集合包括至少一个物品；

获取所述用户的实时物品数据和第二用户画像数据；

根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐，包括

根据所述用户的实时物品数据和所述历史物品推荐集合，确定实时物品推荐集合、实时物品推荐集合中的每个物品对应的实时物品子特征向量；

根据所述第二用户画像数据，确定第二用户画像特征向量；

获取所述第一神经网络模型的N个常量矩阵，其中，N为大于等于2的整数；

根据每个物品对应的实时物品子特征向量和第二用户画像特征向量，通过所述N个常量矩阵确定每个物品的分值；

根据每个物品的分值，进行实时物品推荐。

2.根据权利要求1所述的物品推荐方法，其中，根据所述实时物品数据和所述历史物品推荐集合，确定实时物品推荐集合中的每个物品对应的实时物品子特征向量包括：

根据所述实时物品数据和所述历史物品推荐集合，确定实时物品特征向量。

3.根据权利要求2所述的物品推荐方法，其中，根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐包括：

合并所述实时物品特征向量和所述第二用户画像特征向量，得到实时特征向量。

4.根据权利要求3所述的物品推荐方法，其中，根据所述用户的实时物品数据和所述历史物品推荐集合，确定实时物品推荐集合包括：

将所述实时特征向量输入到所述第一神经网络模型，得到实时物品推荐集合。

5.根据权利要求2所述的物品推荐方法，其中，根据所述用户的实时物品数据和所述历史物品推荐集合，确定实时物品推荐集合包括：

根据所述实时物品数据和所述历史物品推荐集合的并集，确定实时物品推荐集合。

6.根据权利要求2所述的物品推荐方法，其中，根据所述用户的实时物品数据和所述历史物品推荐集合，确定实时物品推荐集合中的每个物品对应的实时物品子特征向量包括：

根据所述实时物品特征向量，确定所述实时物品推荐集合中的每个物品对应的实时物品子特征向量。

7.根据权利要求1所述的物品推荐方法，其中，所述N个常量矩阵包括M个权值矩阵和(N-M)个偏值矩阵，M为大于等于1的整数。

8.根据权利要求7所述的物品推荐方法，其中，根据每个物品对应的实时物品子特征向量和实时用户画像特征向量，通过所述多个常量矩阵确定每个物品的分值包括：

根据所述N个常量矩阵，构建第二神经网络模型，所述第二神经网络模型包括多层神经网络，每一层神经网络包括至少一个所述权值矩阵和至少一个所述偏值矩阵；

计算每一层神经网络的输入特征向量和与该输入特征向量对应的权值矩阵的乘积；

在第一层神经网络中，对所述乘积和与该层神经网络对应的偏值矩阵加和，并经过激活函数后，得到该层神经网络的输出特征向量；

在除第一层神经网络以外的其它层神经网络中，对所述乘积和与该层神经网络对应的偏值矩阵加和，得到该层神经网络的输出特征向量；

根据最后一层神经网络的输出特征向量，确定每个物品的分值；

其中，

第一层神经网络的输入特征向量包括每个物品对应的实时物品子特征向量、第二用户画像特征向量；

除第一层神经网络以外的其它层神经网络的输入特征向量为上一层神经网络的输出特征向量。

9.根据权利要求1所述的物品推荐方法，其中，根据每个物品的分值，进行实时物品推荐包括：

根据每个物品的分值，对所述实时物品推荐集合中的物品进行排序；

根据排序得到的结果，推荐分值从大到小的前P个物品，P为正整数。

10.根据权利要求1所述的物品推荐方法，其中，获取所述用户的实时物品数据包括：

实时获取用户浏览或者评价的物品数据；

解析所述物品数据；

过滤不包括用户标识和物品标识的物品数据，以及过滤包括非推荐类标识的物品数据，得到所述实时物品数据。

11.根据权利要求1所述的物品推荐方法，还包括：

使用历史物品数据和对应的用户画像数据，训练所述第一神经网络模型。

12.根据权利要求1所述的物品推荐方法，其中，所述第一神经网络模型包括深度确定性策略梯度DDPG算法模型。

13.根据权利要求1所述的物品推荐方法，其中，所述历史物品数据和所述实时物品数据分别包括至少一个物品标识，所述物品标识唯一标识一个物品。

14.根据权利要求1所述的物品推荐方法，其中，以预定时间间隔更新所述历史物品数据、所述第一用户画像数据和所述第二用户画像数据。

15.根据权利要求1所述的物品推荐方法，其中，通过用户标识获取所述用户的历史物品数据、第一用户画像数据、实时物品数据、第二用户画像数据。

16.一种物品推荐装置，包括：

第一获取模块，被配置为获取历史物品推荐集合，所述历史物品推荐集合根据用户的历史物品数据和第一用户画像数据、利用第一神经网络模型得到，所述历史物品推荐集合包括至少一个物品；

第二获取模块，被配置为获取所述用户的实时物品数据和第二用户画像数据；

实时推荐模块，被配置为根据所述实时物品数据、所述第二用户画像数据和所述历史物品推荐集合，利用所述第一神经网络模型，进行实时物品推荐，包括

根据所述第二用户画像数据，确定第二用户画像特征向量；

根据每个物品的分值，进行实时物品推荐。

17.一种物品推荐装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至15任一项所述的物品推荐方法。

18.一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至15任一项所述的物品推荐方法。