CN109670141A

CN109670141A - 预测方法、系统、介质和电子设备

Info

Publication number: CN109670141A
Application number: CN201811463866.0A
Authority: CN
Inventors: 刘洪彬; 魏望; 高畅; 刘彦东
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-23

Abstract

本发明的实施方式提供了一种预测方法，包括获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分，确定所述用户矩阵和所述对象矩阵的乘积矩阵，以及基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。该方法通过构造用户矩阵以及对象矩阵以及求矩阵乘积的方式，无需构造大量样本，解决了现有技术中基于矩阵分解的召回方法计算量过大导致耗时严重的问题。此外，本发明的实施方式提供了一种预测系统、一种计算机可读存储介质以及一种电子设备。

Description

预测方法、系统、介质和电子设备

技术领域

本发明的实施方式涉及互联网领域，更具体地，本发明的实施方式涉及一种预测方法、系统、介质和电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

推荐系统的主要工作是解决信息过载的问题，从大量的信息中筛选出少量有价值的信息。业界推荐系统大致分为召回、排序两个阶段。

当前推荐系统的召回算法主要分为基于内容的召回、基于近邻模型的召回、基于矩阵分解模型的召回，其中基于矩阵分解模型的召回算法效果最好。现有矩阵分解技术在预测阶段需要构造每个用户对所有对象预测样本，然后通过预测函数逐行进行预测。

发明内容

但是，以上预测方法需要构建大量预测样本，数据量较大时预测耗时严重。

为此，非常需要一种改进的预测方法，以克服预测耗时严重的问题。

在本上下文中，本发明的实施方式期望提供一种预测方法，无需构造大量预测样本，节省时间，提高效率。

在本发明实施方式的第一方面中，提供了一种预测方法，包括获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分，确定所述用户矩阵和所述对象矩阵的乘积矩阵，以及基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

在本发明的一个实施例中，所述获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵包括，获得由多个用户向量构造的用户矩阵的多个用户矩阵子块，并且/或者，获得由多个对象向量构造的对象矩阵的多个对象矩阵子块。其中，所述乘积矩阵包括由多个乘积矩阵子块构成的乘积矩阵，所述基于所述乘积矩阵中的元素确定预测结果包括基于多个乘积矩阵子块中的元素确定预测结果。

在本发明的另一实施例中，所述获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵包括，获得样本数据，基于所述样本数据，确定多个用户向量和多个对象向量，以及通过所述多个用户向量构造用户矩阵以及通过所述多个对象向量构造对象矩阵。

在本发明的又一个实施例中，所述基于所述样本数据，确定多个用户向量和多个对象向量包括，通过基于矩阵分解的算法训练因子分解模型，以及使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量。

在本发明的又一个实施例中，所述基于矩阵分解的算法包括FTRL算法。

在本发明的又一个实施例中，所述通过基于矩阵分解的算法训练因子分解模型包括，将所述样本数据分为训练样本数据和验证样本数据，基于所述训练样本数据，通过基于矩阵分解的算法训练因子分解模型，使用验证样本数据验证所述因子分解模型，其中，在所述因子分解模型未通过验证的情况下，调整参数继续训练所述因子分解模型。

在本发明的再一个实施例中，在使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量之后，所述方法还包括，基于所述因子分解模型以及所述样本数据，绘制受试者工作特征曲线，确定所述受试者工作特征曲线下方与坐标轴之间围成的面积，在所述面积小于预设值的情况下，调整参数继续训练所述因子分解模型。

在本发明实施方式的第二方面中，提供了一种预测系统，包括获得模块、第一确定模块以及第二确定模块。获得模块，用于获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分。第一确定模块，用于确定所述用户矩阵和所述对象矩阵的乘积矩阵。第二确定模块，用于基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

在本发明的另一个实施例中，所述获得模块包括获得子模块、确定子模块以及构造子模块。获得子模块，用于获得样本数据。确定子模块，用于基于所述样本数据，确定用户向量和对象向量。构造子模块，用于通过所述用户向量构造用户矩阵以及通过所述对象向量构造对象矩阵。

在本发明的又一个实施例中，所述确定子模块包括训练单元和确定单元。训练单元，用于通过基于矩阵分解的算法训练因子分解模型。确定单元，用于使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量。

在本发明的又一个实施例中，所述训练单元包括拆分子单元、训练子单元以及验证子单元。拆分子单元，用于将所述样本数据分为训练样本数据和验证样本数据。训练子单元，用于基于所述训练样本数据，通过基于矩阵分解的算法训练因子分解模型。验证子单元，用于使用验证样本数据验证所述因子分解模型，其中，在所述因子分解模型未通过验证的情况下，调整参数继续训练所述因子分解模型。

在本发明的再一个实施例中，所述系统还包括验证模块，用于基于所述因子分解模型以及所述样本数据，绘制受试者工作特征曲线，确定所述受试者工作特征曲线下方与坐标轴之间围成的面积，在所述面积小于预设值的情况下，调整参数继续训练所述因子分解模型。

在本发明实施方式的第三方面中，提供了一种介质，其上存储有可执行指令，所述指令被处理单元执行时使所述处理单元执行上述任一项所述的方法。

在本发明实施方式的第四方面中，提供了一种电子设备，包括，处理单元，以及存储单元，其上存储有可执行指令，所述指令被所述处理单元执行时使所述处理单元执行如上所述的方法。

根据本发明实施方式的预测方法、系统以及电子设备，通过构造用户矩阵以及对象矩阵以及求矩阵乘积的方式，无需构造大量样本，解决了现有技术中基于矩阵分解的预测方法计算量过大导致耗时严重的问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的用于实现预测方法的系统架构；

图2示意性地示出了根据本发明示例性实施例的预测方法的流程图；

图3示意性地示出了根据本发明示例性实施例的获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵的流程图；

图4A示意性地示出了根据本发明示例性实施例的基于所述样本数据，确定多个用户向量和多个对象向量的流程图；

图4B示意性地示出了根据本发明示例性实施例基于所述样本数据，确定多个用户向量和多个对象向量的示意图；

图5示意性地示出了根据本发明示例性实施例的通过基于矩阵分解的算法训练因子分解模型的流程图；

图6示意性地示出了根据本发明另一示例性实施例的使用样本数据验证所述因子分解模型的流程图；

图7示意性地示出了根据本发明示例性实施例的预测系统的框图；

图8示意性地示出了根据本发明示例性实施例的获得模块的框图；

图9示意性地示出了根据本发明示例性实施例的确定子模块的框图；

图10示意性地示出了根据本发明示例性实施例的训练单元的框图；

图11示意性地示出了根据本发明示例性实施例的计算机可读存储介质的示意图；以及

图12示意性地示出了根据本发明示例性实施例的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种预测方法、系统、介质和电子设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

基于因子分解的推荐算法通常是将用户对物品的评分分解为用户的隐因子向量与物品的隐因子向量乘积。隐因子向量维度是k，其中每一维代表的是一个隐特征，用户隐因子向量代表的是用户在这k维特征上的表示。同理物品隐因子向量代表的是物品在这k维特征上的表示。例如，用户甲喜欢拍照功能强大的、处理器性能好的手机，用户乙喜欢粉色的、轻便的手机，当某一手机上市时，可以根据其拍照能力、处理器性能、颜色、重量等判断用户甲和乙是否喜欢该产品。在上述实施例中，拍照能力、处理器性能、颜色、重量等隐特征，便称为隐因子，或简称为因子。

通过分析用户行为数据，可以获得用户对物品的曝光点击数据，曝光未点击代表不感兴趣，曝光点击代表感兴趣。基于该些数据，可以构造训练样本，用于训练模型获知用户对不同因子的偏好。

在获得用户对不同因子的偏好之后，对于其他对象，在已知该些对象在各个因子上的得分的情况下，即可预测用户对该对象的偏好程度。通常情况下，可以以用户在各个因子上的偏好评分与对象在各个因子上的得分分别相乘并求和的方式，获得一个偏好值，并将用户对各个对象的偏好值排序，取前N个结果作为预测结果，即作为推荐的初步筛选结果，也称为召回结果。具体地，模型训练部分可以引入因子分解机作为训练模型并采用FTRL优化算法进行增快训练速度。

对于m个用户和n个对象的场景，传统方法首先构造m×n个预测对象的实例，分别计算该些实例的偏好值，最后进行排序，取出前N个结果作为预测结果。然而，本发明人发现，该方法通常应用于理论研究，在工业上几乎不可行。在实际应用中，由于数据量较大，例如用户和对象的数量分别在百万甚至千万级以上，该方法构造的实例数量为万亿级以上，因此在构造实例的过程中耗费巨大的时间和资源。

为了解决这一问题，本发明示例性实施例提供了一种预测方法，通过构造用户矩阵以及对象矩阵以及求矩阵乘积的方式，通过矩阵的结构存储数据，无需构造海量的样本实例，解决了现有技术中基于矩阵分解的预测方法计算量过大导致耗时严重的问题。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

请参考图1，图1示意性地示出了根据本发明实施方式的用于实现预测方法的系统架构。

本发明示例性实施例的方法用于处理大量数据时，例如可以通过分布式系统实现。如图1所示，分布式系统100可以包括多个节点110以及网络120。网络120用以在多个节点110之间提供通信链路的介质。网络120可以包括各种连接类型，例如有线、无线通信链路等等。节点110例如可以是专用的计算或存储设备，或者多个用户的终端设备等。分布式系统100可以通过本公开实施例的方法实现预测方法。

需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

示例性方法

下面结合图1的应用场景，参考图2～图6描述根据本发明示例性实施方式的预测方法。

图2示意性地示出了根据本发明示例性实施例的预测方法的流程图。

如图2所示，该方法包括步骤S210～S230。

在步骤S210，获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分。

在步骤S220，确定所述用户矩阵和所述对象矩阵的乘积矩阵。

在步骤S230，基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

下面以m个用户、n个对象以及k个因子为例进行说明。

对于m个用户中的第一个用户，其在k个因子上的得分分别为p₁₁，p₁₂，…，P_1k，因此，其用户向量可以表示为(p₁₁，P₁₂，…，P_1k)。以每个用户对应矩阵的一行的方式，m个用户向量可以构造一个m×k的用户矩阵，可以表示为如下形式：

对于n个对象中的第一个对象，其在k个因子上的得分分别为q₁₁，q₁₂，…，q_1k，因此，其对象向量可以表示为(q₁₁，q₁₂，…，q_1k)。以每个对象对应矩阵的一列的方式，n个对象向量可以构造一个k×n的对象矩阵，可以表示为如下形式：

本发明示例性实施例的方法通过将上述两个矩阵相乘，可直接得到各个用户与各个对象的预测结果，例如，对于第i个用户与第j个对象而言(其中，1≤i≤m，1≤j≤n)，其预测得分为乘积矩阵的第i行第j列的元素的值，即：

A_mn＝P_mk×Q_kn，其中，

可以直接对A_ij全部的a_ij进行排序，取排名靠前的一定数量的结果作为预测结果，或者，直接取a_ij满足一定阈值条件的结果作为预测结果。

应当了解的是，在上述实施例中，用户矩阵和对象矩阵的构造方式不同，用户矩阵是以每个用户对应矩阵的一行的方式，对象矩阵是以每个对象对应矩阵的一列的方式，当然，也可以以相反的方式构造用户矩阵和对象矩阵。或者，用户矩阵和对象矩阵都可以是以每个用户/对象对应矩阵的一行的方式，在矩阵相乘时，将其中一个矩阵进行转置操作。

本发明示例性实施例的预测方法在预测过程中通过采用用户向量和对象向量组成的矩阵结构存储各个用户和对象数据，无需构造海量的样本实例，通过矩阵相乘实现对每个用户、对象的预测，解决了现有技术中基于矩阵分解的预测方法计算量过大导致耗时严重的问题。

根据本发明示例性实施例，由于矩阵的乘法可以分块运算，因此，完整的用户矩阵与对象矩阵的相乘工作可以分割为多个子块的相乘以及把相乘结果汇总的工作。在此基础上，本发明示例性实施例的方法可以方便地使用分布式计算，例如通过Sparkmappartition的方式进行矩阵相乘运算计算得分，并对每个用户排序取前N个对象作为预测结果。

此外，本发明示例性实施例的预测方法便于进行增量计算。在获得新的用户向量时，新的用户向量可以组成新的用户向量矩阵，类似于上文描述的子块，新的用户向量矩阵可以直接与原有的对象矩阵相乘，获得新增的偏好值矩阵。同样地，在获得新的对象向量时，也可以直接与原有的用户矩阵相乘，获得新增的偏好值矩阵。

图3示意性地示出了根据本发明示例性实施例的获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵的流程图。

如图3所示，该方法包括步骤S310～S330。

在步骤S310，获得样本数据。该样本数据包括多个用户分别对多个对象的偏好数据。

在步骤S320，基于所述样本数据，确定多个用户向量和多个对象向量。

在步骤S330，通过所述多个用户向量构造用户矩阵以及通过所述多个对象向量构造对象矩阵。

下面结合图4A、图4B、图5以及图6，对上述步骤S320进行介绍。

图4A示意性地示出了根据本发明示例性实施例的基于所述样本数据，确定多个用户向量和多个对象向量的流程图。

如图4A所示，该方法包括步骤S410～S420。

在步骤S410，通过基于矩阵分解的算法训练因子分解模型。

因子分解机(Factorization Machine，FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法，因子分解机通常用来训练分类器，在推荐系统中通常用来做点击率预估模型。对于因子分解机来说，最大的特点是对于稀疏的数据具有很好的学习能力。

机器学习中普通线性模型形如y＝w₁x₁+w₂x₂+...+w_nx_n，线性模型缺点是没法捕捉到特征之间的相互关系。为了解决这个问题，引入多项式回归如下：

但是由于每两个特征之间的权重w都需要学习，这里需要学习n(n-1)/2个参数，n是特征个数往往特别大，会造成模型特别复杂。现实中由于数据往往特别稀疏，会造成模型根本没法学习出参数。

因子分解机FM基于矩阵分解思想，将稀疏的矩阵分解为两个低阶矩阵的乘积，即ω_ij＝u_iu_j。那么多项式回归可以演变为下式：

如前面提到在数据稀疏的情况下w参数是学不出来的，但是这里w参数可以通过i和j的隐向量相乘近似得到，这样就解决了稀疏数据学习不到参数的问题。

由于隐向量维度k一般远小于特征数量n，因此该模型需要学习的参数变为n×k。相比于多项式回归的复杂度O(n²)，该模型复杂度只有O(n)。

根据本发明示例性实施例，所述基于矩阵分解的算法可以采用FTRL算法。FTRL(Follow the Regularized Leader)算法融合了RDA算法能产生稀疏模型的特性和SGD算法能产生更有效模型的特性。它在处理诸如LR之类的带非光滑正则化项(例如1范数，做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色。

本发明示例性实施例的方法通过引入因子分解机FM作为训练模型并采用FTRL算法能够增快训练速度，提高训练效果。

在步骤S420，使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量。

下面以图4B中的具体实施例对上述方法进行说明。图4B示意性地示出了根据本发明示例性实施例基于所述样本数据，确定多个用户向量和多个对象向量的示意图。

根据本发明示例性实施例，训练的因子分解模型即用户向量和对象向量。如图4B所示，基于样本数据可以构建用户对象的稀疏矩阵40。在该稀疏矩阵40中，部分用户对部分对象的数据可以基于样本数据确定，而另外一些数据处于缺失状态，在图中以“？”表示，其中，u₁、u₂、u₃、u₄分别代表不同的用户，s₁、s₂、s₃、s₄、s₅分别代表不同的对象。例如，在本实施例中，该稀疏矩阵中的数值越大表示用户对该对象的兴趣越大。

可以初始化用户向量和对象向量，例如，可以使用随机值或固定值初始化用户向量和对象向量。

在得到用户向量和对象向量之后，可以构建用户矩阵41(U)和对象矩阵42(S)，使两者相乘获得预测矩阵43(U^TS)，并计算误差：

其中，R_ij代表真实得分，即稀疏矩阵40中的相应位置的数值，U^T _iS_j代表预测矩阵中相应位置的数值。

以该误差的最小值为损失函数，优化用户向量和对象向量。例如可以采用随机梯度算法或上文描述的FTRL算法对用户向量和对象向量中的参数进行优化，使预测矩阵43的灰色部分与稀疏矩阵40的原始数据尽量一致，得到优化后的用户向量和对象向量。

根据本发明示例性实施例，在训练前可以留出验证样本数据用于检验模型的准确性。

图5示意性地示出了根据本发明示例性实施例的通过基于矩阵分解的算法训练因子分解模型的流程图。

如图5所示，该方法包括步骤S510～S530。

在步骤S510，将所述样本数据分为训练样本数据和验证样本数据。

在步骤S520，基于所述训练样本数据，通过基于矩阵分解的算法训练因子分解模型。

在步骤S530，使用验证样本数据验证所述因子分解模型，其中，在所述因子分解模型未通过验证的情况下，调整参数继续训练所述因子分解模型。

例如，在训练样本数据包括多个第一用户对多个第一对象的点击曝光数据的情况下，验证时可以使用多个第二用户对多个第一对象的点击曝光数据，或者可以使用多个第一用户对多个第二对象的点击曝光数据，以验证多个第一用户的第一用户向量或多个第一对象的第一对象向量是否可信。

图6示意性地示出了根据本发明另一示例性实施例的使用样本数据验证所述因子分解模型的流程图。

如图6所示，该方法包括步骤S610～S630。

在步骤S610，基于所述因子分解模型以及所述样本数据，绘制受试者工作特征曲线。

受试者工作特征曲线即ROC曲线，receiver operating characteristic。ROC曲线的横轴是“假正例率”(False Positive Rate，FPR)，又称为“假阳率”。纵轴为“真正例率”(True Positive Rate，TPR)，又称为“真阳率”。ROC曲线下方的面积越大说明模型分类能力越好。

根据本发明示例性实施例，参考图4B所示意的实施例，可以基于预测矩阵43和稀疏矩阵40中灰色部分的数值绘制ROC曲线。在现有的一些计算工具中，输入一组预测值和一组样本原值，即可生成ROC曲线，对于绘制ROC曲线的方法此处不再赘述。

在步骤S620，确定所述受试者工作特征曲线下方与坐标轴之间围成的面积。

在步骤S630，在所述面积小于预设值的情况下，调整参数继续训练所述因子分解模型。

示例性系统

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的预测系统700进行说明。

图7示意性地示出了根据本发明示例性实施例的预测系统700的框图。

如图7所示，该预测系统700包括获得模块710、第一确定模块720以及第二确定模块730。

获得模块710，例如执行上文参考图2描述的操作S210，用于获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分。

第一确定模块720，例如执行上文参考图2描述的操作S220，用于确定所述用户矩阵和所述对象矩阵的乘积矩阵。

第二确定模块730，例如执行上文参考图2描述的操作S230，用于基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

根据本发明示例性实施例，所述获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵包括，获得由多个用户向量构造的用户矩阵的多个用户矩阵子块，并且/或者，获得由多个对象向量构造的对象矩阵的多个对象矩阵子块。其中，所述乘积矩阵包括由多个乘积矩阵子块构成的乘积矩阵，所述基于所述乘积矩阵中的元素确定预测结果包括基于多个乘积矩阵子块中的元素确定预测结果。

图8示意性地示出了根据本发明示例性实施例的获得模块710的框图。

如图8所示，该获得模块710包括获得子模块810、确定子模块820以及构造子模块830。

获得子模块810，例如执行上文参考图3描述的操作S310，用于获得样本数据。

确定子模块820，例如执行上文参考图3描述的操作S320，用于基于所述样本数据，确定用户向量和对象向量。

构造子模块830，例如执行上文参考图3描述的操作S330，用于通过所述用户向量构造用户矩阵以及通过所述对象向量构造对象矩阵。

图9示意性地示出了根据本发明示例性实施例的确定子模块820的框图。

如图9所示，该确定子模块820包括训练单元910和确定单元920。

训练单元910，例如执行上文参考图4A描述的操作S410，用于通过基于矩阵分解的算法训练因子分解模型。

确定单元920，例如执行上文参考图4A描述的操作S420，用于使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量。

根据本发明示例性实施例，所述基于矩阵分解的算法包括FTRL算法。

图10示意性地示出了根据本发明示例性实施例的训练单元910的框图。

如图10所示，该训练单元910包括拆分子单元1010、训练子单元1020以及验证子单元1030。

拆分子单元1010，例如执行上文参考图5描述的操作S510，用于将所述样本数据分为训练样本数据和验证样本数据。

训练子单元1020，例如执行上文参考图5描述的操作S520，用于基于所述训练样本数据，通过基于矩阵分解的算法训练因子分解模型。

验证子单元1030，例如执行上文参考图5描述的操作S530，用于使用验证样本数据验证所述因子分解模型，其中，在所述因子分解模型未通过验证的情况下，调整参数继续训练所述因子分解模型。

根据本发明示例性实施例，所述系统还包括验证模块，用于基于所述因子分解模型以及所述样本数据，绘制受试者工作特征曲线，确定所述受试者工作特征曲线下方与坐标轴之间围成的面积，在所述面积小于预设值的情况下，调整参数继续训练所述因子分解模型。

根据本发明示例性实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明示例性实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明示例性实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本发明示例性实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获得模块710、第一确定模块720、第二确定模块730、获得子模块810、确定子模块820、构造子模块830、训练单元910、确定单元920、拆分子单元1010、训练子单元1020、验证子单元1030以及验证模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获得模块710、第一确定模块720、第二确定模块730、获得子模块810、确定子模块820、构造子模块830、训练单元910、确定单元920、拆分子单元1010、训练子单元1020、验证子单元1030以及验证模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获得模块710、第一确定模块720、第二确定模块730、获得子模块810、确定子模块820、构造子模块830、训练单元910、确定单元920、拆分子单元1010、训练子单元1020、验证子单元1030以及验证模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

示例性介质

在介绍了本发明示例性实施方式的系统之后，接下来，参考图11对本发明示例性实施方式的一种计算机可读存储介质进行说明。本发明示例性实施方式提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令被处理单元执行时使所述处理单元执行上文所述的方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的预测方法中的步骤，例如，所述电子设备可以执行如图2中所示的步骤S210：获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分；步骤S220：确定所述用户矩阵和所述对象矩阵的乘积矩阵；步骤S230：基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图11所示，描述了根据本发明的实施方式的预测的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

在介绍了本发明示例性实施方式的方法、系统和介质之后，接下来，参考图12对本发明示例性实施方式的预测电子设备进行说明。

本发明实施例还提供了一种预测电子设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的预测的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的预测方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤S210：获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分；步骤S220：确定所述用户矩阵和所述对象矩阵的乘积矩阵；步骤S230：基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

下面参照图12来描述根据本发明的这种实施方式的预测电子设备1200。如图1200所示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用电子设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。

总线1230包括数据总线、地址总线和控制总线。

存储单元1220可以包括易失性存储器，例如随机存取存储器(RAM)1221和/或高速缓存存储器1222，还可以进一步包括只读存储器(ROM)1223。

存储单元1220还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备1200也可以与一个或多个外部设备1240(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了预测系统的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种预测方法，包括：

获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分；

确定所述用户矩阵和所述对象矩阵的乘积矩阵；以及

基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

2.根据权利要求1所述的方法，其中，所述获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵包括：

获得由多个用户向量构造的用户矩阵的多个用户矩阵子块；并且/或者

获得由多个对象向量构造的对象矩阵的多个对象矩阵子块，

其中，所述乘积矩阵包括由多个乘积矩阵子块构成的乘积矩阵，所述基于所述乘积矩阵中的元素确定预测结果包括基于多个乘积矩阵子块中的元素确定预测结果。

3.根据权利要求1所述的方法，其中，所述获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵包括：

获得样本数据；

基于所述样本数据，确定多个用户向量和多个对象向量；以及

通过所述多个用户向量构造用户矩阵以及通过所述多个对象向量构造对象矩阵。

4.根据权利要求3所述的方法，其中，所述基于所述样本数据，确定多个用户向量和多个对象向量包括：

通过基于矩阵分解的算法训练因子分解模型；以及

使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量。

5.根据权利要求4所述的方法，其中，所述基于矩阵分解的算法包括FTRL算法。

6.根据权利要求4所述的方法，其中，所述通过基于矩阵分解的算法训练因子分解模型包括：

将所述样本数据分为训练样本数据和验证样本数据；

基于所述训练样本数据，通过基于矩阵分解的算法训练因子分解模型；

使用验证样本数据验证所述因子分解模型，其中，在所述因子分解模型未通过验证的情况下，调整参数继续训练所述因子分解模型。

7.根据权利要求4所述的方法，其中，在使用经过训练的所述因子分解模型确定多个用户向量和多个对象向量之后，所述方法还包括：

基于所述因子分解模型以及所述样本数据，绘制受试者工作特征曲线；

确定所述受试者工作特征曲线下方与坐标轴之间围成的面积；

在所述面积小于预设值的情况下，调整参数继续训练所述因子分解模型。

8.一种预测系统，包括：

获得模块，用于获得由多个用户向量构造的用户矩阵以及由多个对象向量构造的对象矩阵，其中，所述用户向量包括该用户在多个因子上的得分，所述对象向量包括该对象在所述多个因子上的得分；

第一确定模块，用于确定所述用户矩阵和所述对象矩阵的乘积矩阵；以及

第二确定模块，用于基于所述乘积矩阵中的元素，确定与各个用户对应的对象集合作为预测结果。

9.一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令被处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。

10.一种电子设备，包括：

处理单元；以及

存储单元，其上存储有可执行指令，所述指令被所述处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。