CN103235893B

CN103235893B - 一种用户-商品点击率自适应预测装置和预测方法

Info

Publication number: CN103235893B
Application number: CN201310162681.7A
Authority: CN
Inventors: 罗辛; 葛亮; 夏云霓; 朱庆生; 周明强
Original assignee: Chongqing University
Current assignee: Chengdu Agricultural Cleaning Technology Co Ltd
Priority date: 2013-05-06
Filing date: 2013-05-06
Publication date: 2016-03-23
Anticipated expiration: 2033-05-06
Also published as: CN103235893A

Abstract

本发明公开一种用户-商品点击率自适应预测方法和装置，涉及计算机数据处理领域，本发明采用一种通过规约矩阵因式分解，基于增量用户-商品点击率统计数据，对不断变化的用户-商品点击行为规律进行自适应的统计分析，以确定在当前时间点，符合已知用户-商品点击数据的用户行为规律，从而建立自适应的用户-商品点击率模型，使用用户-商品点击率模型产生未知用户-商品点击率的预测数据。能够根据用户行为的变化对用户-商品点击率模型进行自适应、计算代价较小的调整，从而提供自适应的用户-商品点击率预测结果，提高对用户行为规律变化进行反映的实时性。

Description

一种用户-商品点击率自适应预测装置和预测方法

技术领域

本发明设计计算机数据处理技术领域，特别涉及电子商务中一种用户-商品点击率自适应确定。

背景技术

现代电子商务系统，尤其是运营较为成功的系统，其用户数量和网络商品数量十分巨大。可以通过服务器收集的用户对网络商品的点击率历史数据，形成庞大的用户-商品点击率统计矩阵。基于巨大的用户和网络商品数量，通常情况下，一个用户不可能穷尽浏览所有的商品，一个商品也不可能被所有的用户点击。因此，一般而言，用户-商品点击率统计矩阵中的已知数据往往远远少于未知数据；亦即，用户-商品点击率统计矩阵是极端稀疏的。

在电子商务系统运营过程中，基于用户-商品点击率统计矩阵中的已知数据，了解和分析用户对商品进行点击的行为规律，在此基础上建立起有效的用户-商品点击率模型，可以较好地建立用户对网络商品进行点击的仿真环境来模拟真实环境，从而为电子商务系统在运营过程中的信息组织和营销策略的制订提供重要的依据。

关于用户-商品点击率预测方法，已经有了很多的相关工作。但是，现有的方法都基于构造一个静态的用户-商品点击率模型，该模型需要基于静态的用户-商品点击率统计矩阵进行构建，即：（1）该矩阵所对应的用户集合是固定的；（2）该矩阵所对应的商品集合是固定的；（3）该矩阵中已知的用户-商品点击率数据是固定的。一旦真实情况违背上述条件，就需要重新构造整个用户-商品点击率模型。

上述方法在真实电子商务系统中存在弊端。这是因为对于运营良好的电子商务系统而言，静态的用户-商品点击率统计矩阵的条件很难满足，即（1）该矩阵中的用户-商品点击率数据，随着用户的不断访问，将会发生频率极高的变化，在网络访问高峰时段尤为明显；（2）该矩阵所对应的商品集合，随着系统运营商对新商品的加入，将会发生频率较高的变化；（3）该矩阵所对应的用户集合，随着新用户的注册加入，将会发生频率较高的变化。对应于上述变化，将会导致极为频繁的对整个用户-商品点击率模型的重建，从而导致下列问题：（1）重复构建整个用户-商品点击率模型，将会耗费大量的计算资源；（2）重复构建整个用户-商品点击率模型，将无法及时反映用户行为的变化。

发明内容

本发明针对现有技术中存在的上述问题，提供一种用户-商品点击率自适应预测方法和装置，能够根据用户行为的变化对用户-商品点击率模型进行自适应、计算代价较小的调整，从而提供自适应的用户-商品点击率预测结果，提高对用户行为规律变化进行反映的实时性。

本发明解决上述技术问题的技术方案为，提供一种用户-商品点击率自适应预测装置，包括：

数据接收模块：接收服务器获取的用户-商品点击率数据，采集数据直接存放进入存储模块，同时通知参数控制模块对相应的全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新；

参数控制模块：从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数，实施对全局和增量用户-商品点击率模型控制参数的更新和重置，判断是否满足全局用户-商品点击率模型和增量用户-商品点击率模型的构造和更新条件；

存储模块：存储采集的用户-商品点击率数据和模型控制参数；

模型自适应构造模块：根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型。控制模块根据数据接收模块发送的通知，对相应的全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新后，如果满足全局用户-商品点击率模型和增量用户-商品点击率模型的构造条件，通知模型自适应构造模块对相应的模型进行构造。

预测数据生成模块：调用更新后的控制参数和点击率数据，通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据。

具体可包括：计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K，根据当前增量用户集合、当前增量商品集合，构造增量用户隐含特征矩阵和增量商品隐含特征矩阵，调用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量，分别计算这两组向量的内积，根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据；输出单元：输出用户-商品点击率预测数据。

预测数据生成模块的预测过程直接由服务器发送的用户-商品点击率预测请求触发。

其中，全局用户-商品点击率模型包括用户隐含特征矩阵和商品隐含特征矩阵，根据当前用户集合U，当前商品集合C，建立一个|U|行，|C|列的矩阵作为用户-商品点击率矩阵R，计算单元调用规约矩阵因式分解对R进行分解，得到一个|U|行，f列的用户隐含特征矩阵J，以及一个|C|行，f列的商品隐含特征矩阵K，其中，J中的每一个行向量对应一个用户的隐含特征向量，K中的每一个行向量对应一个商品的隐含特征向量，f为用户隐含特征空间和商品隐含特征空间的维数。增量用户-商品点击率模型包括增量用户隐含特征矩阵和增量商品隐含特征矩阵，根据当前增量用户集合U_I，当前增量商品集合C_I，构造一个|U_I|行，|C_I|列的增量子矩阵R_I，计算单元调用规约矩阵因式分解对R_I进行分解，得到增量用户隐含特征矩阵J_I，和商品隐含特征矩阵K_I，其中，J_I中的每一个行向量对应于一个增量用户的隐含特征向量，K_I中的每一个行向量对应于一个增量商品的隐含特征向量。

根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据具体包括：对于u’和c’，提取用户隐含特征矩阵J和商品隐含特征矩阵K中相应的行向量j_u’和k_c’，以及增量用户隐含特征矩阵J_I和增量商品隐含特征矩阵K_I中相应的行向量j_(I)u’和k_(I)c，计算单元根据公式

进行加权获得对r_u’,c’的预测数据，其中，β为全局-增量均衡因子。构造全局用户-商品点击率模型进一步包括，计算单元调用规约矩阵因式分解获得用户隐含特征矩阵J和商品隐含特征矩阵K，调用公式

\arg \min ({RSE}_{R^{A}} = \underset{r_{u, c} &Element; R^{(A)}}{Σ} ((r_{u, c} - j_{u} \cdot k_{c}) + λ ({| | j_{u} | |}^{2} + {| | k_{c} | |}^{2})))

控制矩阵J和K满足在集合上累积误差最小，使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练，得到矩阵J和K的全局最优解。

本发明还提出一种用户-商品点击率自适应预测方法，包括：数据接收模块接收服务器获取的用户-商品点击率数据；参数控制模块从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数实施对全局和增量用户-商品点击率模型控制参数的更新和重置；存储模块存储采集的点击率数据和模型控制参数；模型自适应构造模块根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型；预测数据生成模块调用更新后的控制参数和点击率数据，通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据，具体为：计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K，根据当前增量用户集合、当前增量商品集合，构造增量用户隐含特征矩阵和增量商品隐含特征矩阵，调用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量，分别计算这两组向量的内积，根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据；输出单元输出用户-商品点击率预测数据。

本发明通过规约矩阵因式分解，基于增量用户-商品点击率统计数据，对不断变化的用户-商品点击行为规律进行自适应的统计分析，以确定在当前时间点，符合已知用户-商品点击数据的用户行为规律，从而建立自适应的用户-商品点击率模型，使用所述建立的用户-商品点击率模型产生未知用户-商品点击率的预测数据的方法和装置。本发明能够根据用户行为的变化进行自适应的、计算代价较小，提高了运算速度，能实时提供自适应的用户-商品点击率预测结果，提高对用户行为规律变化进行反映的实时性。

附图说明

图1为本发明用户-商品点击率自适应预测装置结构示意图；

图2为用户-商品点击率模型自适应更新过程流程示意图；

图3为使用规约矩阵因式分解方法构造全局用户-商品点击率模型；

图4为使用规约矩阵因式分解方法构造增量用户-商品点击率模型；

图5为的用户-商品点击率预测过程的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清晰明白，以下参照附图并举实施例，对本发明作进一步详细说明。

在电子商务系统中，用户点击商品的行为是受用户的使用习惯影响的。在一个包含未知数据的集合中，根据已知的数据，通过数据统计分析的方法，分析该数据集合的内在统计规律，则可以根据该规律对未知的数据进行预测。在电子商务系统中，根据已知的用户-商品点击率统计数据，通过数据统计分析方法，分析用户-商品点击率数据的统计规律，建立用户-商品点击率模型，就可以根据该规律对未知的用户-商品点击率数据进行预测。但是，对于运营良好的电子商务系统而言，随着用户-商品点击率增量数据的不断累积，其维护的用户-商品点击率统计矩阵将会以很高的频率发生变化。如果忽略这种变化，随着数据变化的不断累积，用户-商品点击率预测数据的准确率将会不断下降；如果根据每一次用户-商品点击率统计矩阵的变化，对用户-商品点击率模型进行重建，将会耗费大量的计算资源，同时也无法及时反映用户行为的变化。因此，需要设计自适应的用户-商品点击率预测方法，以较小的计算代价和较高的实时性，反映用户-商品点击率统计矩阵的变化。

本发明基于增量用户-商品点击率统计数据，通过规约矩阵因式分解，能够对用户-商品点击率模型进行自适应的、计算代价较小的调整，从而提供自适应的用户-商品点击率预测，提高对用户行为规律变化进行反映的实时性的用户-商品点击率自适应预测方法、预测装置。

基于用户-商品点击率统计矩阵中的已知数据，使用规约矩阵因式分解，可以得到用户隐含特征矩阵和商品隐含特征矩阵，使用这两个矩阵中的用户隐含特征向量和商品隐含特征向量的内积表示所对应的用户-商品点击率数据，在已知用户-商品点击率上具备很小误差。因此，对于未知的用户-商品点击率数据，使用对应的用户隐含特征向量和商品隐含特征向量的内积作为其预测数据。

如图1为本发明用户-商品点击率自适应预测装置结构示意图。该预测装置包括：

数据接收模块510，用于接收用户-商品点击率数据；

参数控制模块520，用于对全局和增量用户-商品点击率模型控制参数进行控制，包括参数更新和重置。包括：初始化单元521，进行全局和增量用户-商品点击率模型控制参数的初始化，从存储模块中获取保存的全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数。

参数更新单元522，根据所述用户-商品点击率数据，对全局和增量用户-商品点击率模型控制参数进行更新；

参数重置单元523，根据所述用户-商品点击率数据，对全局和增量用户-商品点击率模型控制参数进行重置。

模型自适应构造模块530，使用规约矩阵因式分解处理所述的参数和用户-商品点击率数据构造全局和增量用户-商品点击率模型；包括：全局模型构造单元531，构造全局用户-商品点击率模型；增量模型构造单元532，构造增量用户-商品点击率模型。

预测数据生成模块540，根据全局和增量用户-商品点击率模型，产生用户-商品点击率预测数据。包括：预测参数初始化单元541，用于初始化预测所需要的参数，从所述存储模块550中获取所述保存的全局用户-商品点击率模型和增量用户-商品点击率模型；预测数据生成单元542，用于利用所述的预测参数，构造用户-商品点击率预测数据。

存储模块550，保存全局用户-商品点击率模型控制参数、增量用户-商品点击率模型控制参数、全局用户-商品点击率模型和增量用户-商品点击率模型。

本预测装置可以部署于一个现有的服务器中，也可以部署于一个单独设置的专用于进行用户-商品点击率自适应预测的服务器中。

图2所示为用户-商品点击率模型自适应更新过程流程。

用户-商品点击率模型自适应更新过程包括：

（1）电子商务系统服务器采集用户-商品点击率更新数据；

（2）利用用户-商品点击率更新数据，对全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新；

（3）使用全局用户-商品点击率模型控制参数，判断当前是否满足全局用户-商品点击率模型的更新条件：若满足，则执行步骤（4）-（5），否则，执行步骤（6）；

（4）调用规约矩阵因式，对用户-商品点击率统计矩阵进行分解，构造由用户隐含特征矩阵和商品隐含特征矩阵组成的全局用户-商品点击率模型；

（5）重置全局用户-商品点击率模型控制参数，重置增量用户-商品点击率模型控制参数。

（6）使用所述的增量用户-商品点击率模型控制参数，判定当前情况是否满足增量用户-商品点击率模型的更新条件：若满足，则执行步骤（7）-（9）；

（7）使用增量用户-商品点击率模型控制参数，确定原始用户-商品点击率统计矩阵中，对应用户-商品点击率更新数据的增量子矩阵；

（8）使用规约矩阵因式对增量子矩阵进行分解，构造由增量用户隐含特征矩阵和增量商品隐含特征矩阵组成的增量用户-商品点击率模型；

（9）重置增量用户-商品点击率模型控制参数。

其中，所述的用户-商品点击率预测过程，包括以下步骤：

（1）获取需要进行预测用户-商品点击率，及其对应的用户ID和商品ID；

（2）判断用户-商品点击率是否属于增量子矩阵，若是，则执行步骤（4）；否则，执行步骤（3）

（3）用户隐含特征矩阵和商品隐含特征矩阵对应需要预测的用户ID和商品ID的用户和商品隐含特征向量，使用这两个向量的内积作为对用户-商品点击率的预测结果；

（4）提取增量用户-商品点击率模型中用户隐含特征矩阵和商品隐含特征矩阵，以及增量用户隐含特征矩阵和增量商品隐含特征矩阵，获取对应的需要预测的用户ID和商品ID的用户和商品隐含特征向量，计算这两组向量的内积，代入全局-增量均衡因子进行加权累加，以最后的累加结果作为对用户-商品点击率的预测结果。

本发明能够根据用户行为的变化进行自适应的、计算代价较小的调整，从而提供自适应的用户-商品点击率预测结果，提高对用户行为规律变化进行反映的实时性。

下面，对本发明所提供的用户-商品点击率自适应预测方法及用户-商品点击率自适应预测装置进行详细说明。

图2为自适应更新过程的流程示意图。

步骤101：服务器采集用户-商品点击率数据，发送给用户-商品点击率自适应预测装置。用户-商品点击率数据是指，从上次服务器结束发送数据开始计算，一直到当前时间点的时间段内，每一个用户对每一个商品进行点击的次数。在某时间段内，根据所有的用户-商品点击率数据累加形成用户-商品点击率统计矩阵。该矩阵中元素所在行代表用户号，元素所在列代表商品号，根据该时间段内，点击次数的总和，建立用户-商品点击率统计矩阵，对矩阵中每一个矩阵元素，元素所在行代表用户号，元素所在列代表商品号。

电子商务系统服务器向用户-商品点击率预测装置发送用户-商品点击率数据的方式可以是：定期、或根据所述用户-商品点击率预测装置的通知、或根据某服务器的通知，将采集到的用户-商品点击数据发送给用户-商品点击率预测装置。

步骤102：用户-商品点击率自适应预测装置根据所述用户-商品点击率数据对全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数进行更新。

全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数是体现当前增量数据规模的参数。其中，全局用户-商品点击率模型控制参数包括：

a.全局增量数据累计S_G，采集从上一次更新全局用户-商品点击率模型开始，一直到当前时间点的时间段内，发生过变化的用户-商品点击率数据的数量，为全局增量数据累计S_G；

增量用户-商品点击率模型控制参数包括：

a.增量数据累计S_I，从上一次更新构造增量用户-商品点击率模型开始，一直到当前时间点的时间段内，获取发生过变化的用户-商品点击率数据的数量，为增量数据累计S_I；

b.增量用户ID集合U_I，从上一次更新构造增量用户-商品点击率模型开始，一直到当前时间点的时间段内，发生过变化的用户-商品点击率数据所对应的用户ID集合，为增量用户ID集合U_I；

c.增量商品ID集合C_I，从上一次更新构造增量用户-商品点击率模型开始计算，一直到当前时间点的时间段内，获取发生过变化的用户-商品点击率数据所对应的商品ID集合，为增量商品ID集合C_I；

对S_G的更新方法为，统计接收的用户-商品点击率数据个数，并将其与当前S_G值进行累加后作为S_G的更新值，送入存储器保存。

对S_I的更新方法为，统计接收的用户-商品点击率数据个数，并将其与当前S_I值进行累加后作为S_I的更新值，送入存储器保存。

对U_I的更新方法为，查询单元逐个检查接收的用户-商品点击率数据所对应的用户ID，若其用户ID不在U_I中，则将其加入U_I，送入存储器保存。

对C_I的更新方法为，查询单元逐个检查接收的用户-商品点击率数据所对应的商品ID，若其商品ID不在C_I中，则将其加入C_I，送入存储器保存。

步骤103：根据全局用户-商品点击率模型控制参数判定当前是否满足全局用户-商品点击率模型的更新条件。

根据S_G是否已经超过某个阈值。该阈值可以事先指定，根据历史已知数据量和指定比率确定。例如历史已知数据量为10000；也可以事先指定一个比率后由用户-商品点击率自适应预测装置保存，例如指定比率为5%，历史已知数据量为10000，则阈值为10000×5%=500。

步骤104：使用规约矩阵因式分解，对用户-商品点击率矩阵进行分解，构造由用户隐含特征矩阵和商品隐含特征矩阵组成的全局用户-商品点击率模型。

步骤105：重置全局用户-商品点击率模型控制参数，重置增量用户-商品点击率模型控制参数。对参数的重置可采用如下方法：

a.将S_G置为0；

b.将S_I置为0；

c.将U_I清空成为空集；

d.将C_I清空成为空集。

步骤106：根据增量用户-商品点击率模型控制参数，判定当前是否满足增量用户-商品点击率模型的更新条件。即S_I是否已经增长超过某个阈值。该阈值可以事先指定，根据历史已知数据量和指定比率计算获得。也可以事先指定一个比率后由用户-商品点击率自适应预测装置保存，例如指定比率为0.5%，历史已知数据量为10000，则阈值为10000×0.5%=50。

步骤107：使用增量用户-商品点击率模型控制参数，确定原始用户-商品点击率统计矩阵中，对应于用户-商品点击率更新数据的增量子矩阵。具体为：从原始用户-商品点击率统计矩阵中，提取出与U_I和C_I中的用户ID和商品ID相对应的、已知的用户-商品点击率数据建立增量子矩阵。

步骤108：使用规约矩阵因式分解方法，对增量子矩阵进行分解，构造由增量用户隐含特征矩阵和增量商品隐含特征矩阵组成增量用户-商品点击率模型。

步骤109：重置增量用户-商品点击率模型控制参数。将S_I置为0。并将重置参数保存。

至此，用户-商品点击率模型自适应更新过程结束。

本实施例中，全局用户-商品点击率模型是由用户隐含特征矩阵和商品隐含特征矩阵构成的。具体为，实时采集系统内当前用户和当前商品，将当前系统内的用户集合记为U，当前系统内的商品集合记为C，建立一个|U|行，|C|列的矩阵作为用户-商品点击率矩阵R，使用规约矩阵因式分解对R进行分解，分别得到用户隐含特征矩阵J，和商品隐含特征矩阵K。J是一个|U|行，f列的矩阵，J中的每一个行向量对应一个用户，是该用户的隐含特征向量；K是一个|C|行，f列的矩阵，K中的每一个行向量对应于一个商品，是该商品的隐含特征向量；f为用户隐含特征空间和商品隐含特征空间的维数。

规约矩阵因式分解是基于R中的已知元素，以最小的累积误差构造R的f阶近似矩阵，该近似矩阵记为R^f。R^f等于矩阵J和矩阵K的转置的乘积，

即

R^f＝J×K^T(1)

对于近似矩阵R^f，其内部第u行，第c列的元素等于用户隐含特征矩阵J的第i行行向量，与商品隐含特征矩阵K的第c行行向量的乘积。如矩阵J的第i行行向量记为j_u，矩阵K的第c行行向量记为k_c，则

r_{u, c}^{f} = j_{u} \cdot k_{c - - - (2)}

图3示出了本实施例中使用规约矩阵因式分解方法构造全局用户-商品点击率模型。令R^(A)表示R中的已知元素集合，使用规约矩阵因式分解构造矩阵J和K，就是利用R中的已知元素集合，使矩阵J和K满足在此集合上累积误差最小，即根据公式：

\arg \min ({RSE}_{R^{(A)}} = \underset{r_{u, c} &Element; R^{(A)}}{Σ} ((r_{u, c} - j_{u} \cdot k_{c}) + λ ({| | j_{u} | |}^{2} + {| | k_{c} | |}^{2}))) - - - (3)

使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练，即对于每一个已知用户-商品点击率数据r_u,c，令

\{\begin{matrix} j_{u}^{'} = j_{u} - η \cdot \frac{1}{2} \cdot \frac{{&PartialD; RSE}_{R^{(A)}}}{{&PartialD; j}_{u}} \\ k_{c}^{'} = k_{c} - η \cdot \frac{1}{2} \cdot \frac{{&PartialD; RSE}_{R^{(A)}}}{{&PartialD; k}_{c}} \end{matrix} &DoubleRightArrow; \{\begin{matrix} j_{u}^{'} = j_{u} + η ((r_{u, c} - j_{u} \cdot k_{c}) k_{c} - {λj}_{u}) \\ k_{u}^{'} = k_{c} + η ((r_{u, c} - j_{u} \cdot k_{c}) j_{u} - {λk}_{c}) \end{matrix} - (4)

使得在一轮训练过程中，对于向量j_u和k_c，使用其对应于梯度的相反方向作为学习方向，对其进行局部更新，从而以最快的速度逼近局部最优值。

其中，λ是控制Tikhonov正则化因子的平衡参数，一般取值为区间[0.005,0.05]内；||·||表示对向量取L2范数，即求取对应向量的模，j_u′和k_c′表示向量j_u和k_c经过更新之后的值；η表示学习速率，一般取值为区间[0.001,0.02]内；和分别表示使用公式(3)中的累积误差，在向量j_u和k_c上求取的梯度。

将所述训练过程持续数轮，就可以求出矩阵J和K在RA上的全局最优解。以上述规约矩阵因式分解方法构造的矩阵J和K，满足在已知用户-商品点击率数据上具备很小的误差。因此，对于未知的用户-商品点击率数据，使用对应的J和K的行向量的内积，即J和K对应的R^f中的对位元素，作为其预测数据，符合已知用户-商品点击率数据的内在统计规律。

本实施例中，增量用户-商品点击率模型是由增量用户隐含特征矩阵和增量商品隐含特征矩阵构成的。如前文所述，将当前的增量用户集合记为U_I，增量商品集合记为C_I，增量子矩阵记为R_I，则R_I是一个|U_I|行，|C_I|列的矩阵。使用规约矩阵因式分解方法对R_I进行分解，可以分别得到增量用户隐含特征矩阵，记为J_I，和商品隐含特征矩阵，记为K_I。

图4示出了本发明实施例中使用规约矩阵因式分解方法构造增量用户-商品点击率模型的方式。所述方式与使用规约矩阵因式分解方法构造全局用户-商品点击率模型的方式类似，区别仅在于构造增量用户-商品点击率模型时，只考虑在R_I中的已知元素；因此，此处不再赘述。

以上述规约矩阵因式分解方法构造的矩阵J_I和K_I，满足在增量子矩阵中的已知用户-商品点击率数据上具备很小的误差，符合增量子矩阵中的已知用户-商品点击率数据的内在统计规律；因此，对于增量子矩阵中未知的用户-商品点击率数据，使用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中，对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量，计算这两组向量的内积，然后代入全局-增量均衡因子进行加权累加，以最后的累加结果作为对用户-商品点击率的预测结果，符合已知用户-商品点击率数据的内在统计规律。

图5为本发明实施例中用户-商品点击率自适应预测方法的用户-商品点击率预测过程的流程示意图。该过程包括：

步骤401：获取需要进行预测的用户-商品点击率，其对应的用户ID和商品ID。获取需要进行用户-商品点击率预测的请求后，对于每一条需要进行预测的用户商品点击率数据r_u’,c’，其必定会对应于一个用户ID，记为u’，和一个商品ID，记为c’。

步骤402：判断需要进行预测的用户-商品点击率是否属于增量子矩阵。判断对于u’和c’，可以直接使用所述的增量用户ID集合U_I和增量商品ID集合C_I，判断其是否属于增量子矩阵：

a.若u′∈U_I且则所述用户-商品点击率属于增量子矩阵；

b.若或则所述用户-商品点击率不属于增量子矩阵。

步骤403：使用用户隐含特征矩阵和商品隐含特征矩阵中，对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量，使用其内积作为对用户-商品点击率的预测结果。即对于u’和c’，提取出矩阵J和矩阵K中相应的行向量j_u’和k_c’，根据公式

{\hat{r}}_{u^{'}, c^{'}} = j_{u^{'}} \cdot k_{c^{'}} - - - (4)

计算用户商品点击率r_u’,c’的预测结果。

由于矩阵J和K满足在已知用户-商品点击率数据上具备很小的误差，符合已知用户-商品点击率数据的内在统计规律；因此，对于未知的用户-商品点击率数据r_u’,c’，使用对应的J和K的行向量j_u’和k_c’的内积，即J和K对应的R^f中的对位元素，作为其预测数据，符合已知用户-商品点击率数据的内在统计规律。

步骤404：使用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中，对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量，计算这两组向量的内积，然后代入全局-增量均衡因子进行加权累加，以最后的累加结果作为对用户-商品点击率的预测结果。即对于u’和c’，提取出矩阵J和矩阵K中相应的行向量j_u’和k_c’，以及矩阵J_I和矩阵K_I中相应的行向量j_(I)u’和k_(I)c’；在区间(0,1)内的预定常量作为全局-增量均衡因子β；调用公式

{\hat{r}}_{u^{'}, c^{'}} = β \cdot j_{u^{'}} \cdot k_{c^{'}} + (1 - β) j_{{(I) u}^{'}} \cdot k_{{(I) c}^{'}} - - - (4)

作为对r_u’,c’的预测结果。由于矩阵J和K满足在已知用户-商品点击率数据上具备很小的误差，符合已知用户-商品点击率数据的内在统计规律；而矩阵J_I和K_I，满足在增量子矩阵中的已知用户-商品点击率数据上具备很小的误差，符合增量子矩阵中的已知用户-商品点击率数据的内在统计规律；因此，对于增量子矩阵中未知的用户-商品点击率数据，使用用户隐含特征矩阵和商品隐含特征矩阵、以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中，对应于需要预测的用户ID和商品ID的用户和商品隐含特征向量，计算这两组向量的内积，然后代入全局-增量均衡因子进行加权累加，以最后的累加结果作为对用户-商品点击率的预测结果，符合已知用户-商品点击率数据的内在统计规律。通过该预测结果，可以提高网络带宽的利用率，减少用户的检索时间，对网络商品的营销产生积极的推动作用。

由上述技术方案可见，本发明实施例提供了一种自适应的未知用户-商品点击率预测方法，旨在利用规约矩阵因式分解方法，以较小的计算复杂度，分别对已知用户-商品点击率数据和增量用户-商品点击率数据的内在统计规律进行分析，能够根据用户行为的变化进行自适应的、计算代价较小的调整，从而提供自适应的用户-商品点击率预测结果，提高对用户行为规律变化进行反映的实时性。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户-商品点击率自适应预测装置，其特征在于，包括：数据接收模块：接收服务器获取的用户-商品点击率数据；参数控制模块：从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数实施对全局和增量用户-商品点击率模型控制参数的更新和重置；存储模块：存储采集的点击率数据和模型控制参数；模型自适应构造模块：根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型；预测数据生成模块：调用更新后的控制参数和用户-商品点击率数据，通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据，具体为：计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K，根据当前增量用户集合、当前增量商品集合，构造增量用户隐含特征矩阵和增量商品隐含特征矩阵，调用用户隐含特征矩阵和商品隐含特征矩阵以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量，分别计算这两组向量的内积，根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据；输出单元：输出用户-商品点击率预测数据。

2.如权利要求1所述的装置，其特征在于，全局用户-商品点击率模型包括用户隐含特征矩阵和商品隐含特征矩阵，根据当前用户集合U，当前商品集合C，建立一个|U|行，|C|列的矩阵作为用户-商品点击率矩阵R，计算单元调用规约矩阵因式分解对R进行分解，得到一个|U|行，f列的用户隐含特征矩阵J，以及一个|C|行，f列的商品隐含特征矩阵K，其中，J中的每一个行向量对应一个用户的隐含特征向量，K中的每一个行向量对应一个商品的隐含特征向量，f为用户隐含特征空间和商品隐含特征空间的维数。

3.如权利要求1所述的装置，其特征在于，增量用户-商品点击率模型包括增量用户隐含特征矩阵和增量商品隐含特征矩阵，根据当前增量用户集合U_I，当前增量商品集合C_I，构造一个|U_I|行，|C_I|列的增量子矩阵R_I，计算单元调用规约矩阵因式分解对R_I进行分解，得到增量用户隐含特征矩阵J_I和商品隐含特征矩阵K_I，其中，J_I中的每一个行向量对应于一个增量用户的隐含特征向量，K_I中的每一个行向量对应于一个增量商品的隐含特征向量。

4.如权利要求1所述的装置，其特征在于，根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据具体包括：对于每一条需要进行预测的用户商品点击率数据r_u’,_c’对应的用户ID为u’，商品ID为c’，对于u’和c’，提取用户隐含特征矩阵J和商品隐含特征矩阵K中相应的行向量j_u’和k_c’，以及增量用户隐含特征矩阵J_I和增量商品隐含特征矩阵K_I中相应的行向量j_(I)u’和k_(I)c’，计算单元根据公式：

进行加权获得对用户商品点击率的预测数据，其中，β为全局-增量均衡因子。

5.如权利要求1或2所述的装置，其特征在于，构造全局用户-商品点击率模型进一步包括，计算单元调用规约矩阵因式分解获得用户隐含特征矩阵J和商品隐含特征矩阵K，调用公式

\arg m i n ({RSE}_{R^{(A)}} = \underset{r_{u, c} &Element; R^{(A)}}{Σ} ((r_{u, c} - j_{u} \cdot k_{c}) + λ (| | j_{u} | |^{2} + | | k_{c} | |^{2})))

控制矩阵J和K满足在集合上累积误差最小，使用随机梯度下降法在所述累积误差上对矩阵J和K进行训练，得到矩阵J和K的全局最优解；其中R^(A)表示R中的已知元素集合，j_u和k_c是向量，r_u,c是用户商品点击率数据，λ是控制Tikhonov正则化因子的平衡参数。

6.一种用户-商品点击率自适应预测方法，其特征在于，包括：数据接收模块接收服务器获取的用户-商品点击率数据；参数控制模块从存储模块中获取全局用户-商品点击率模型控制参数和增量用户-商品点击率模型控制参数实施对全局和增量用户-商品点击率模型控制参数的更新和重置；存储模块存储采集的点击率数据和模型控制参数；模型自适应构造模块根据用户-商品点击率数据和控制参数构造全局用户-商品点击率模型和增量用户-商品点击率模型；预测数据生成模块调用更新后的控制参数和点击率数据，通过全局用户-商品点击率模型和增量用户-商品点击率模型生成用户-商品点击率预测数据，具体为：计算单元调用规约矩阵因式分解根据点击率矩阵获得用户隐含特征矩阵J和商品隐含特征矩阵K，根据当前增量用户集合、当前增量商品集合，构造增量用户隐含特征矩阵和增量商品隐含特征矩阵，调用用户隐含特征矩阵和商品隐含特征矩阵以及增量用户隐含特征矩阵和增量商品隐含特征矩阵中对应的用户和商品隐含特征向量，分别计算这两组向量的内积，根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据；输出单元输出用户-商品点击率预测数据。

7.如权利要求6所述的方法，其特征在于，全局用户-商品点击率模型包括用户隐含特征矩阵和商品隐含特征矩阵，根据当前用户集合U，当前商品集合C，建立一个|U|行，|C|列的矩阵作为用户-商品点击率矩阵R，计算单元调用规约矩阵因式分解对R进行分解，得到一个|U|行，f列的用户隐含特征矩阵J，以及一个|C|行，f列的商品隐含特征矩阵K，其中，J中的每一个行向量对应一个用户的隐含特征向量，K中的每一个行向量对应一个商品的隐含特征向量，f为用户隐含特征空间和商品隐含特征空间的维数。

8.如权利要求6所述的方法，其特征在于，增量用户-商品点击率模型包括增量用户隐含特征矩阵和增量商品隐含特征矩阵，根据当前增量用户集合U_I，当前增量商品集合C_I，构造一个|U_I|行，|C_I|列的增量子矩阵R_I，计算单元调用规约矩阵因式分解对R_I进行分解，得到增量用户隐含特征矩阵J_I和商品隐含特征矩阵K_I，其中，J_I中的每一个行向量对应于一个增量用户的隐含特征向量，K_I中的每一个行向量对应于一个增量商品的隐含特征向量。

9.如权利要求6所述的方法，其特征在于，根据全局-增量均衡因子对两组向量的内积进行加权累加获得点击率预测数据具体包括：对于每一条需要进行预测的用户商品点击率数据r_u’,_c’对应的用户ID为u’，商品ID为c’，提取出用户隐含特征矩阵J和商品隐含特征矩阵K中相应的行向量j_u’和k_c’，以及增量用户隐含特征矩阵J_I和增量商品隐含特征矩阵K_I中相应的行向量j_(I)u’和k_(I)c，计算单元根据公式进行加权获得对用户商品点击率的预测数据，其中，β为全局-增量均衡因子。

10.如权利要求6或7所述的方法，其特征在于，构造全局用户-商品点击率模型进一步包括，计算单元调用规约矩阵因式分解获得用户隐含特征矩阵J和商品隐含特征矩阵K，调用公式：

\arg m i n ({RSE}_{R^{(A)}} = \underset{r_{u, c} &Element; R^{(A)}}{Σ} ((r_{u, c} - j_{u} \cdot k_{c}) + λ (| | j_{u} | |^{2} + | | k_{c} | |^{2})))