CN112862538A

CN112862538A - 预测用户偏好的方法、装置、电子设备和介质

Info

Publication number: CN112862538A
Application number: CN202110232587.9A
Authority: CN
Inventors: 罗海华; 张婷; 房国标; 胡春华
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-05-28

Abstract

本公开提供了一种预测用户偏好的方法、装置、电子设备和介质，可应用于人工智能技术领域。所述方法包括：获取用户物品交互矩阵，所述用户物品交互矩阵包括至少一个用户对至少一个物品的评价值；获取与所述至少一个物品中的目标物品相关的多类图像的特征数据；使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量；以及使用深度矩阵分解模型根据所述视觉特征向量和所述用户物品交互矩阵来预测所述至少一个用户中的目标用户对所述目标物品的偏好程度。

Description

预测用户偏好的方法、装置、电子设备和介质

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种预测用户偏好的方法、装置、电子设备和介质。

背景技术

随着信息科技的逐步发展，分析用户的兴趣偏好被广泛应用于各个领域，例如可以根据用户的偏好向用户推荐物品或信息，从而实现更准确的推荐。在实现本公开构思的过程中，发明人发现传统方法通常仅根据用户的历史评价数据来分析用户的偏好，导致分析结果不够准确。

发明内容

有鉴于此，本公开提供了一种预测用户偏好的方法、装置、电子设备和介质。通过使用注意力模型根据多类图像的特征数据生成针对目标物品的视觉特征向量，并根据所述视觉特征向量和用户物品交互矩阵来预测目标用户的偏好程度，

本公开的一个方面提供了一种预测用户偏好的方法，包括：

获取用户物品交互矩阵，所述用户物品交互矩阵包括至少一个用户对至少一个物品的评价值；

获取与所述至少一个物品中的目标物品相关的多类图像的特征数据；

使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量；

使用深度矩阵分解模型根据所述视觉特征向量和所述用户物品交互矩阵来预测所述至少一个用户中的目标用户对所述目标物品的偏好程度。

根据本公开的实施例，所述获取与目标物品相关的多类图像的特征数据包括：针对每一类图像，

使用经训练的卷积神经网络从该类图像中的每个图像提取第一特征向量；

通过聚类算法对所提取的多个第一特征向量进行聚类，得到N个簇，其中N为大于1的整数；

通过从每个簇选择一个第一特征向量，得到N个第一特征向量作为该类图像的特征数据。

根据本公开的实施例，所述注意力模型包括第一注意力网络层和第二注意力网络层，所述使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量包括：

使用第一注意力网络根据每一类图像的N个第一特征向量生成针对该类图像的第二特征向量；

使用第二注意力网络根据所述多类图像的第二特征向量生成针对所述目标物品的视觉特征向量。

根据本公开的实施例，所述使用第一注意力网络根据每一类图像的N个第一特征向量生成针对该类图像的第二特征向量包括：通过以下等式来根据每一类图像的N个第一特征向量生成针对该类图像的第二特征向量，

u_ict＝ReLU(W_αf_ict+b_α)

f_ic＝∑_ta_ictf_ict

其中i表示物品，c表示图像类别，t表示每类图像的N个第一特征向量中的第t个第一特征向量，f_ict表示物品i的第c类图像的第t个第一特征向量，ReLU表示激活函数，u_ict表示f_ict的隐式表达式，a_ict表示f_ict的重要性，f_ic表示物品i的第c类图像的第二特征向量，W_α表示第一注意力网络层与第二注意力网络层的第一置换矩阵，b_α表示第一注意力网络层与第二注意力网络层的第一偏置项，u_α表示第一注意力网络层与第二注意力网络层的第一上下文向量。

根据本公开的实施例，所述使用第二注意力网络根据所述多类图像的第二特征向量生成针对所述目标物品的视觉特征向量包括：通过以下等式来根据所述多类图像的第二特征向量生成针对所述目标物品的视觉特征向量，

u_ic＝ReLU(W_βf_ic+b_β)

f_i＝∑_ca_icf_ic

其中u_ic表示f_ic的隐式表达式，a_ic表示f_ic的重要性，f_i表示物品i的视觉特征向量，其中物品i为所述目标物品，W_β表示第一注意力网络层与第二注意力网络层的第二置换矩阵，b_βb_α表示第一注意力网络层与第二注意力网络层的第二偏置项，u_β表示第一注意力网络层与第二注意力网络层的第二上下文向量。

根据本公开的实施例，所述使用深度矩阵分解模型根据所述视觉特征向量和所述用户物品交互矩阵来预测目标用户对所述目标物品的偏好程度包括：

基于所述用户物品交互矩阵中所述目标用户对所有物品的评价值来生成目标用户的特征向量；

基于所述用户物品交互矩阵中所有用户对所述目标物品的评价值来生成目标物品的评价特征向量；

根据所述目标物品的评价特征向量和所述目标物品的视觉特征向量来生成所述目标物品的特征向量；

根据所述目标用户的特征向量与所述目标物品的特征向量之间的余弦相似度来预测所述目标用户对所述目标物品的偏好程度。

根据本公开的实施例，所述方法还包括：

获取所述目标用户对所述目标物品的真实偏好程度；

根据所预测的偏好程度与所述真实偏好程度之间的差异，调整所述注意力模型和所述深度矩阵分解模型中至少一者的参数。

根据本公开的实施例，所述方法还包括在通过聚类算法对所提取的多个第一特征向量进行聚类之前，执行以下操作中的至少之一：

从所提取的多个第一特征向量中去除无效的第一特征向量和错误的第一特征向量；

根据所述多个第一特征向量的均值和方差来调整所述经训练的卷积神经网络的参数；以及

对所述多个第一特征向量中的特征值进行标准化和归一化。

根据本公开的实施例，所述聚类算法包括K-Means聚类算法。

根据本公开的实施例，所述用户物品交互矩阵中每个用户对每个物品的评价值是根据以下中的至少之一来计算的：

该用户是否浏览了该物品的展示信息，所述展示信息包括关于该物品的文字描述和关于该物品的图像中的至少一者；

该用户对该物品的展示信息的浏览次数；以及

该用户对该物品的评价信息。

根据本公开的实施例，所述方法还包括：根据所预测的目标用户对目标物品的偏好程度来进行物品推荐。

本公开的另一方面提供了一者用于预测用户偏好的装置，包括：

第一获取模块，用于获取用户物品交互矩阵，所述用户物品交互矩阵包括至少一个用户对至少一个物品的评价值；

第二获取模块，用于获取与所述至少一个物品中的目标物品相关的多类图像的特征数据；

特征提取模块，用于使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量；

预测模块，用于使用深度矩阵分解模型根据所述视觉特征向量和所述用户物品交互矩阵来预测所述至少一个用户中的目标用户对所述目标物品的偏好程度。

本公开的另一方面提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至11中任一项所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，可以至少部分地解决/减轻/抑制/甚至避免传统用户偏好预测方法中预测结果不准确的问题，并因此可以实现提高用户偏好的预测准确度的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的预测用户偏好的方法的应用场景；

图2示意性示出了根据本公开实施例的预测用户偏好的方法的流程图；

图3示意性示出了根据本公开实施例的获取每一类图像的特征数据的方法的流程图。

图4示意性示出了根据本公开实施例的获取每一类图像的特征数据的方法的示意图；

图5示意性示出了根据本公开另一实施例的预测用户偏好的方法的流程图；

图6示意性示出了根据本公开另一实施例的预测用户偏好的方法的示意图；

图7示意性示出了根据本公开实施例的用于预测用户偏好的装置的框图；

图8示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种预测用户偏好的方法和装置。通过使用注意力模型根据与目标物品相关的多类图像的特征数据生成针对所述目标物品的视觉特征向量，并使用深度矩阵分解模型根据所述视觉特征向量和用户物品交互矩阵来预测目标用户对目标物品的偏好程度，能够更准确地预测用户对物品的偏好。

图1示意性示出了根据本公开实施例的可以应用于预测用户偏好的方法的示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的预测用户偏好的方法一般可以由服务器105执行。相应地，本公开实施例所提供的用于预测用户偏好的装置一般可以设置于服务器105中。本公开实施例所提供的预测用户偏好的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的用于预测用户偏好的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的预测用户偏好的方法的流程图。

在操作S201，获取用户物品交互矩阵，所述用户物品交互矩阵包括至少一个用户对至少一个物品的评价值。

这里所谓物品可以是待售商品，包括但不限于实体商品、虚拟商品和服务类商品。例如，实体商品包括但不限于书籍、服装、饰品等等，虚拟商品包括但不限于音乐、视频、游戏等等，服务类商品包括但不限于酒店服务、家政服务等等。

用户物品交互矩阵可以是包括多个评价值的矩阵，矩阵中的每个元素为一个用户对一个物品的评价值。例如矩阵R可以为如下形式：

其中该矩阵为H×K矩阵，矩阵中的元素r_ui表示用户u对物品i的评价值，其中H、K、u和i均为正整数，1≤u≤H，1≤i≤K。

可以根据各种因素来计算评价值r_ui，这些因素包括但不限于隐式评价信息和显式评价信息。隐式评价信息例如但不限于用户是否浏览了物品的展示信息和/或浏览次数等。显式评价信息例如但不限于用户对物品的评价信息。

在一些实施例中，可以根据用户u是否浏览了该物品i的展示信息来计算评价值r_ui，这里展示信息包括但不限于关于物品i的文字描述、关于物品i的图像等等。例如在酒店服务这一物品i的展示界面上可以向用户u展示关于酒店i的简介、图像和链接地址等元素作为展示信息。如果用户u点击酒店i的展示界面上的任意元素，则评价值r_ui计为1，否则评价值r_ui计为0。

在一些实施例中，可以根据用户u对物品i的展示信息的浏览次数来计算评价值r_ui。例如同样以酒店服务为例，如果用户u点击酒店i的展示界面上的任意元素的次数为3，则可以将评价值r_ui计为3；如果该次数为4，则将评价值r_ui计为4。

在一些实施例中，可以根据用户u对物品i的评价信息来计算评价值r_ui。所述评价信息包括但不限于用户对物品的评分、用户对物品的文字评论的内容等等。例如用户u对物品i的评分为4，则可以将评价值r_ui计为4，如果评分为5，则将评价值r_ui计为5。可选地，可以对用户u对物品i的文字评论的内容进行语义分析，如果分析结果为正面评价，则将评价值r_ui计为1，如果为负面评价，则将评价值r_ui计为-1，如果为中性评价，则将评价值r_ui计为0。

虽然上面以不同的示例来说明了评价值的计算方式，然而本公开的实施例不限于此，可以根据需要以任何其他方式来计算评价值，例如可以根据用户对物品相关图像的点击次数以及用户对物品的评分这两者来计算评价值。

操作S202，获取与所述至少一个物品中的目标物品相关的多类图像的特征数据。

根据本公开的实施例，每个物品可以对应于多类图像。例如对于酒店服务来说，可以在销售界面上向用户展示关于酒店的多类图像，每一类图像可以对应于酒店服务的一个方面，例如但不限于关于客房的图像(第一类图像)、关于公共区域的图像(第二类图像)、关于餐饮服务的图像(第三类图像)、关于周边交通的图像(第四类图像)等等。可以使用经训练的神经网络模型对每一类图像来进行特征提取，得到针对该类图像的特征数据，下文将对此进一步详细说明。

在操作S203，使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量。

在操作S204，使用深度矩阵分解模型(DMF，Deep Matrix Factorization Model)根据所述视觉特征向量和所述用户物品交互矩阵来预测所述至少一个用户中的目标用户对所述目标物品的偏好程度。

虽然上文以特定的顺序描述了方法的各个操作，然而本公开的实施例不限于此，上述操作可以根据需要以其他顺序执行。例如步骤S201可以在步骤S202之后执行，也可以同时执行。在一些实施例中，用户物品交互矩阵的生成以及图像的特征提取可以独立于预测过程来执行。

下面将参考图3和图4来说明上述步骤S202的示例实现方式。图3示意性示出了根据本公开实施例的获取每一类图像的特征数据的方法的流程图。图4示意性示出了根据本公开实施例的获取每一类图像的特征数据的方法的示意图。

在操作S3011，使用经训练的卷积神经网络从该类图像中的每个图像提取第一特征向量。

如图4所示，假设属于类别c的多个图像包括图像M₁至M_n。在该步骤中，将图像M₁至M_n输入至经训练的卷积神经网络。经训练的卷积神经网络从图像M₁中提取第一特征向量F₁，从图像M₂提取第二特征向量F₂，以此类推，从而得到特征向量F₁至F_n作为针对类别c的第一特征向量。

经训练的卷积神经网络包括但不限于VGG神经网络、Inception神经网络、ResNet神经网络等，可以根据需要选择合适的神经网络来进行图像特征提取。提取的图像特征包括但不限于颜色特征、纹理特征、形状特征、空间关系特征等。

深度学习通过反向传播算法(Back Propagation，BP)拟合数据，采用非线性的激活函数处理数据中复杂的非线性关系。在大规模并行计算的算力辅助下，端到端的深度学习模型通过多层神经网络从原始数据中逐层学习表征，这些表征被视为该层的数据特征，基于深度学习提取的数据特征相比于传统人工设计特征要更加简洁、高效，且经过训练后的模型和特征各自都具有一定的泛化性。深度卷积网络(Convolutional NeuralNetworks，CNN)通过卷积连接层替代全连接层，降低计算消耗，加速模型拟合，常用于图像处理等任务。

下面以VGG神经网络模型为例对图像特征的提取进行详细说明。VGG神经网络模型具有多种实现形式，表现在其卷积层数的不同上。不同模型的层数从11层到19层不等。以E类VGG19模型为例，以(224，224)大小的RGB三通道彩色图片作为输入(因此，像素较大的图像需先经过缩放处理)，经过conv3-64(其中，3为卷积核大小，64为通道大小)两个卷积层后，做一次maxpool池化操作，如此再以相同的卷积核大小重复四次，之后连接三个大小分别为4096、4096、1000的全连接层，最后一层的输出采用soft-max进行数据归一化。需要注意的是，经过端到端预训练的VGG19模型可以在其内部的任意一层提取图像视觉特征向量，但是越低的网络层提取的特征向量越底层、越简单，越高的网络层提取出的特征向量具有更高维度的特征表达。考虑到模型最后的全连接层具有更强的模型整合能力，并且为了获取图像较底层、较原始的视觉表达，本公开的实施例可以使用第一个全连接层的输出向量作为从预训的卷积神经网络中提取出的第一特征向量。

在操作S3012，对所提取的多个第一特征向量进行预处理。

在一些实施例中，所述预处理包括但不限于以下操作中的至少之一：从所提取的多个第一特征向量中去除无效的第一特征向量(例如从纯色图像提取出的第一特征向量)和错误的第一特征向量(例如特征值均为0的第一特征向量)；根据所述多个第一特征向量的均值和方差来调整所述经训练的卷积神经网络的参数(例如对于整体特征向量值均值与方差不符合预设要求的情况，调整预训练的卷积神经网络相关参数)；以及对所述多个第一特征向量中的特征值进行标准化和归一化(例如对于特征向量的特征值过大或过小的情况，对特征值进行标准化与归一化操作)。操作S3012可以为可选操作，在一些实施例中可以根据需要来执行或不执行该操作。

在操作S3013，通过聚类算法对多个第一特征向量进行聚类，得到N个簇，其中N为大于1的整数。

在一些实施例中，可以采用K-Means聚类算法对所提取的多个第一特征向量进行聚类，以在减少视觉信息冗余的同时尽可能多的保留每个图像类别的视觉信息。例如可以根据第一特征向量之间的向量距离(例如但不限于欧氏距离)将这些第一特征向量聚类为N个簇。例如，如图4所示，N＝2，通过该步骤将第一特征向量聚类为2个簇CS1和CS2。假设第一特征向量包括F1至F8，在本步骤中通过K-Means聚类算法将F1、F3和F8聚类到簇CS1，将F2、F4、F5、F6和F7聚类到簇CS2。

在操作S3014，通过从每个簇选择一个第一特征向量，得到N个第一特征向量作为该类图像的特征数据。

例如，可以在每个簇中将最接近簇心的一个或多个第一特征向量保留下来。如图4所示，可以从簇CS1中选择出最接近簇心的第一特征向量F3，从簇CS2中选择出最接近簇心的第一特征向量F7。由此，得到两个第一特征向量F3和F7作为针对类别c的特征数据。

对于具有C个类别的图像的一个物品来说，通过针对该物品的C个类别的图像执行上述步骤S3011至S3014，可以针对每一类图像得到相同数量N个第一特征向量作为该类图像的特征数据，从而针对该物品得到尺寸为(C×N×S)的视觉特征数据，C表示该物品的图像类别的总数，N表示采样个数，即每个图像类别下选择出N个第一特征向量作为该类图像的特征数据，S表示第一特征向量的长度，该长度可以依赖于上述经训练的神经网络模型。接下来，可以根据针对该物品的各类图像的特征数据以及用户物品交互矩阵来预测用户对物品的偏好程度。

图5示意性示出了根据本公开另一实施例的预测用户偏好的方法的示意图，图6示意性示出了图5的方法的示意图。如图6所示，本实施例中采用了注意力模型和深度矩阵分解模型，其中注意力模型可以包括第一注意力网络层和第二注意力网络层。

在操作S501，获取物品的各类图像的特征数据和用户物品交互矩阵。例如在图6中，假设物品i具有三个类别(分别为c＝1，c＝2，c＝3，其中c表示图像类别)的图像，可以通过以上参考图3和图4描述的方法来获取每一类图像的特征数据，可以参考以上参考图2描述的方法来获取用户物品交互矩阵。

在操作S502，使用第一注意力网络根据每一类图像的N个第一特征向量生成针对该类图像的第二特征向量。

例如，参考图6，将各个类别c(分别为c＝1、c＝2、c＝3)的第一特征向量输入至第一注意力网络，第一注意力网络可以根据以下等式(1)至(3)来生成针对每一类别c的第二特征向量：

u_ict＝ReLU(W_αf_ict+b_α) (1)

f_ic＝∑_ta_ictf_ict (3)

根据等式(1)，以ReLU函数作为激活函数，通过一个全连接层将f_ict映射到一个隐式的表达形式u_ict。根据等式(2)，使用一个共同学习的第一上下文向量u_α来测量每个图像的视觉特征的重要性，其中u_ict和u_α的点积给出了关于u_ict的分数，表明了u_ict在当前类别下的重要性；并且使用softmax函数计算视觉重要程度的规一化值a_ict。根据等式(3)，通过计算f_ict和a_ict加权和，针对该类别c得到第二特征向量f_ic。第一上下文向量u_α可以预设为默认值，可以在预测过程中根据预测结果与真实值的差异来进行调整。

通过这种方式，针对类别c＝1，得到第二特征向量f_i1；针对类别c＝2，得到第二特征向量f_i2；针对类别c＝3，得到第二特征向量f_i3。

在操作S503，使用第二注意力网络根据所述多类图像的第二特征向量生成针对所述目标物品的视觉特征向量。

例如，可以将针对各个类别的第二特征向量f_i1、f_i2和f_i3输入至第二注意力网络，第二注意力网络根据以下等式(4)至(6)来生成物品i的视觉特征向量f_i。

u_ic＝ReLU(W_βf_ic+b_β) (4)

f_i＝∑_ca_icf_ic (6)

其中u_ic表示f_ic的隐式表达式，a_ic表示f_ic的重要性，f_i表示物品i的视觉特征向量，其中物品i为所述目标物品，W_β表示第一注意力网络层与第二注意力网络层的第二置换矩阵，b_βb_α表示第一注意力网络层与第二注意力网络层的第二偏置项，u_β表示第一注意力网络层与第二注意力网络层的第二上下文向量。第二上下文向量u_β可以预设为默认值，可以在预测过程中根据预测结果与真实值的差异来进行调整。

参考图6，可以将第二注意力网络输出的物品i的视觉特征向量f_i提供至深度矩阵分解模型，深度矩阵分解模型可以通过以下步骤S504至S507来根据物品i的视觉特征向量f_i和用户物品交互矩阵来预测用户u对物品i的偏好程度。

在操作S504，基于所述用户物品交互矩阵中所述目标用户对所有物品的评价值来生成目标用户的特征向量。

参考图6，对于目标用户u，深度矩阵分解模型可以使用用户物品交互矩阵中的第u行元素来生成目标用户u的特征向量r_u，如上所述，用户物品交互矩阵R中的第u行元素表示用户u对所有物品的评价值。

在操作S505，基于所述用户物品交互矩阵中所有用户对所述目标物品的评价值来生成目标物品的评价特征向量。

参考图6，对于目标物品i，深度矩阵分解模型可以使用用户物品交互矩阵中的第i列元素来生成目标物品i的评价特征向量r_i，如上所述，用户物品交互矩阵R中的第i列元素表示所有用户对所有物品i的评价值。

在操作S506，根据所述目标物品的评价特征向量和所述目标物品的视觉特征向量来生成所述目标物品的特征向量。

参考图6，可以将上述操作S503中第二注意力网络输出的目标物品i的视觉特征向量f_i与上述操作505中得到的目标物品i的评价特征向量r_u相加，得到目标物品i的特征向量。

在操作S507，根据所述目标用户的特征向量与所述目标物品的特征向量之间的余弦相似度来预测所述目标用户对所述目标物品的偏好程度。

参考图6，深度矩阵分解模型可以根据以下等式(7)至(9)，通过计算上述操作S506得到的目标物品i的特征向量与上述操作S504得到的目标用户的特征向量r_u的余弦相似度，来预测用户u对物品i的偏好程度。

其中

表示用户u对物品i的偏好程度(例如预测得分)。θ表示模型参数，F(·)表示将参数映射到预测分数的函数。特征向量q_u和p_i分别代表用户u和物品i，这两个特征向量的定义如下：

q_u＝φ_u(r_u) (8)

其中φ_u和φ_i分别表示用户u和物品i的全连接层。φ表示一个全连接网络，用来学习输入向量的空间表达，并置换其维度，使其保持一致。

在一些实施例中，在步骤S507之后还可以对模型执行测试和迭代更新。例如，可以获取所述目标用户对所述目标物品的真实偏好程度，并根据所预测的偏好程度与所述真实偏好程度之间的差异，调整所述注意力模型和所述深度矩阵分解模型中至少一者的参数。例如，可以采用归一化的交叉熵损失作为损失函数，该损失函数被max(R)(R表示用户评分，max(R)表示取评分数据中的最大值)规一化。因此，模型的目标函数定义如下：

其中Ω是正则化器，λ是超参数。R_u，i表示来自数据集的用户u对物品i的真实偏好程度，

表示根据上述等式(7)预测的用户u对物品i的偏好程度。

在一些实施例中，在完成用户对物品的偏好程度的预测之后，例如完成了多个用户对多个物品的偏好程度的预测之后，可以根据预测结果来向用户推荐物品。

物品推荐方法包括但不限于基于内容的推荐(Content-based Recommendation)、协同过滤推荐(Collaborative Filtering Recommendation)、混合推荐等等(HybridRecommendation)。

基于内容的推荐是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的。在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。用户模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。

协同过滤推荐技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影。

混合推荐将多种推荐方法结合起来以达到扬长避短的作用。在实践中，可以使用各种各样的方法对单一的推荐算法进行混合。

本公开的实施例适用于具有多分类图像的推荐系统\数据挖掘应用场景，例如可以应用于网络购物平台。本公开的实施例通过基于注意力算法机制和深度矩阵分解算法模型来分析不同分类图像之间的内在关联关系，实现用户的潜在兴趣点挖掘，可以预测用户对物品的感兴趣程度，实现对用户的有效需求挖掘与个性化物品推荐\排序。

图7示意性示出了根据本公开实施例的用于预测用户偏好的装置的框图。

如图7所示，用于预测用户偏好的装置700包括第一获取模块710、第二获取模块720、特征提取模块730和预测模块740。

第一获取模块710可以获取用户物品交互矩阵，所述用户物品交互矩阵包括至少一个用户对至少一个物品的评价值。

第二获取模块720可以获取与所述至少一个物品中的目标物品相关的多类图像的特征数据。

特征提取模块730可以使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量。

预测模块740可以使用深度矩阵分解模型根据所述视觉特征向量和所述用户物品交互矩阵来预测所述至少一个用户中的目标用户对所述目标物品的偏好程度。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一获取模块710、第二获取模块720、特征提取模块730和预测模块740中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一获取模块710、第二获取模块720、特征提取模块730和预测模块740中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块710、第二获取模块720、特征提取模块730和预测模块740中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图8示意性示出了根据本公开实施例的电子设备的方框图。图8示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，根据本公开实施例的电子设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的装置/电子设备中所包含的；也可以是单独存在，而未装配入该装置/电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。电要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种预测用户偏好的方法，包括：

使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量；以及

2.根据权利要求1所述的方法，其中，所述获取与目标物品相关的多类图像的特征数据包括：针对每一类图像，

3.根据权利要求2所述的方法，其中，

所述注意力模型包括第一注意力网络层和第二注意力网络层，所述使用注意力模型根据所述多类图像的特征数据生成针对所述目标物品的视觉特征向量包括：

4.根据权利要求3所述的方法，其中，所述使用第一注意力网络根据每一类图像的N个第一特征向量生成针对该类图像的第二特征向量包括：通过以下等式来根据每一类图像的N个第一特征向量生成针对该类图像的第二特征向量，

u_ict＝ReLU(W_αf_ict+b_α)

f_ic＝∑_ta_ictf_ict

其中i表示物品，c表示图像类别，t表示每类图像的N个第一特征向量中的第t个第一特征向量，f_ict表示物品i的第c类图像的第t个第一特征向量，ReLU表示激活函数，u_ict表示f_ict的隐式表达式，a_ict表示f_ict的重要性，f_ic表示物品i的第c类图像的第二特征向量，W_α表示第一注意力网络层与第二注意力网络层的第一置换矩阵，b_α表示第一注意力网络层与第二注意力网络层的第一偏置项，u_a表示第一注意力网络层与第二注意力网络层的第一上下文向量。

5.根据权利要求4所述的方法，其中，所述使用第二注意力网络根据所述多类图像的第二特征向量生成针对所述目标物品的视觉特征向量包括：通过以下等式来根据所述多类图像的第二特征向量生成针对所述目标物品的视觉特征向量，

u_ic＝ReLU(W_βf_ic+b_β)

f_i＝∑_ca_icf_ic

6.根据权利要求1所述的方法，其中，所述使用深度矩阵分解模型根据所述视觉特征向量和所述用户物品交互矩阵来预测目标用户对所述目标物品的偏好程度包括：

7.根据权利要求1所述的方法，还包括：

获取所述目标用户对所述目标物品的真实偏好程度；

8.根据权利要求2所述的方法，还包括在通过聚类算法对所提取的多个第一特征向量进行聚类之前，执行以下操作中的至少之一：

对所述多个第一特征向量中的特征值进行标准化和归一化。

9.根据权利要求2所述的方法，其中，所述聚类算法包括K-Means聚类算法。

10.根据权利要求1至9中任一项所述的方法，其中，所述用户物品交互矩阵中每个用户对每个物品的评价值是根据以下中的至少之一来计算的：

该用户对该物品的展示信息的浏览次数；以及

该用户对该物品的评价信息。

11.根据权利要求1至9中任一项所述的方法，还包括：根据所预测的目标用户对目标物品的偏好程度来进行物品推荐。

12.一者用于预测用户偏好的装置，包括：

13.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

14.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求1至11中任一项所述的方法。