CN105630742A

CN105630742A - 特征向量计算方法及装置

Info

Publication number: CN105630742A
Application number: CN201511016359.9A
Authority: CN
Inventors: 江海金
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-06-01
Anticipated expiration: 2035-12-28
Also published as: CN105630742B

Abstract

本发明公开了一种特征向量计算方法及装置，属于物品推荐领域。所述方法包括：使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行，使用物品j构建评分矩阵中的列，使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素，根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量；解决了相关技术中使用用户构建评分矩阵的行，由于用户数量庞大而使矩阵分解难以完成的问题；达到了使用物品代替一类用户构成评分矩阵的行，减少评分矩阵中的矩阵元素个数，减少了矩阵分解过程中的计算量的效果。

Description

特征向量计算方法及装置

技术领域

本发明实施例涉及物品推荐领域，特别涉及一种特征向量计算方法及装置。

背景技术

歌曲推荐过程中需要使用歌曲的特征向量。特征向量是用于表示物品特征的向量。歌曲的特征向量需要预先计算得到。

矩阵分解方法是用于计算歌曲的特征向量的一种准确率很高的计算方法。矩阵分解方法需要构建用户与歌曲之间的N*M评分矩阵。

M = [\begin{matrix} w_{11} & ...... & w_{1 m} \\ ...... & ...... & ...... \\ w_{n 1} & ...... & w_{n m} \end{matrix}]

其中，该评分矩阵中的每一行对应一个用户，每一列对应一首歌曲。w_ij表示第i个用户对第j个物品的评分值。

利用矩阵分解方法，能够将N*M评分矩阵分解为N*K矩阵和K*M矩阵。该N*K矩阵和K*M矩阵是使目标函数最小化时的矩阵分解结果。

[\begin{matrix} w_{11} & ...... & w_{1 m} \\ ...... & ...... & ...... \\ w_{n 1} & ...... & w_{m n} \end{matrix}] \approx [\begin{matrix} u_{11} & ...... & u_{1 k} \\ ...... & ...... & ...... \\ u_{n 1} & ...... & u_{n k} \end{matrix}] * [\begin{matrix} v_{11} & ...... & v_{1 m} \\ ...... & ...... & ...... \\ v_{k 1} & ...... & v_{k m} \end{matrix}]

其中，N*K矩阵中的第i行元素构成了第i个用户的特征向量，K*M矩阵中的第j列元素构成了第j个用户的特征向量。

在实现本发明实施例的过程中，发明人发现现有技术至少存在以下问题：

由于音乐播放器的用户数量可能达到亿级，上述的N*M评分矩阵也会达到亿级，导致矩阵分解过程的计算量太大，计算资源有限时难以完成该矩阵分解过程。

发明内容

为了解决用户数量太大使矩阵分解难以完成的问题，本发明实施例提供了一种特征向量计算方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种特征向量计算方法，该方法包括：

使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行；

使用物品j构建评分矩阵中的列；

使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素；

根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

可选的，使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素，包括：

计算物品i与物品j之间的相似度；

使用相似度代表喜欢物品i的一类用户对物品j的评分，作为评分矩阵中的矩阵元素W_ij的取值。

可选的，计算物品i与物品j之间的相似度，包括：

计算物品j相对于物品i的置信度，将置信度作为物品i与物品j之间的相似度。

可选的，计算物品j相对于物品i的置信度，将置信度作为物品i与物品j之间的相似度，包括：

r_{i, j} = P (j | i) = \frac{N (i \cap j)}{N (i)}

其中，r_i，j是物品i与物品j之间的相似度，P(j|i)是物品j相对于物品i的置信度，N(i∩j)是喜欢物品i且喜欢物品j的用户的个数，N(i)是喜欢物品i的用户的个数，N(i)是正整数。

可选的，根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵，包括：

使用预定的矩阵分解方法对评分矩阵进行矩阵分解，得到使目标函数取得最小值时的第一矩阵和第二矩阵；

其中，矩阵分解方法包括ALS算法、Plsa算法、LDA算法和SVD算法中的任意一种。

根据本公开实施例的第二方面，提供一种特征向量计算装置，该装置包括：

第一构建模块，用于使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行；

第二构建模块，用于使用物品j构建评分矩阵中的列；

第三构建模块，用于使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素；

分解模块，用于根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

可选的，第三构建模块包括：

计算单元，用于计算物品i与物品j之间的相似度；

构建单元，用于使用相似度代表喜欢物品i的一类用户对物品j的评分，作为评分矩阵中的矩阵元素W_ij的取值。

可选的，计算单元，用于计算物品j相对于物品i的置信度，将置信度作为物品i与物品j之间的相似度。

可选的，计算单元，用于计算：

r_{i, j} = P (j | i) = \frac{N (i \cap j)}{N (i)}

可选的，分解模块，用于使用预定的矩阵分解方法对评分矩阵进行矩阵分解，得到使目标函数取得最小值时的第一矩阵和第二矩阵；

本发明实施例提供的技术方案带来的有益效果是：

通过使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行，使用物品j构建评分矩阵中的列，使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素，根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量；解决了相关技术中使用用户构建评分矩阵的行，由于用户数量庞大而使矩阵分解难以完成的问题；达到了使用物品代替一类用户构成评分矩阵的行，减少评分矩阵中的矩阵元素个数，减少了矩阵分解过程中的计算量的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种特征向量计算方法的流程图；

图2是根据另一示例性实施例示出的一种特征向量计算方法的流程图；

图3是根据另一示例性实施例示出的一种评分矩阵的示意图；

图4是根据一示例性实施例示出的一种特征向量计算装置的框图；

图5是根据另一示例性实施例示出的一种特征向量计算装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本公开各个实施例提供的特征向量计算方法，可以由安装有至少一个应用程序的终端来实现，该终端可以是手机、平板电脑、电子书阅读器、MP3(MovingPictureExpertsGroupAudioLayerⅢ，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPictureExpertsGroupAudioLayerⅣ，动态影像专家压缩标准音频层面4)播放器、便携式计算机和台式计算机之类的电子设备。

本公开各个实施例提供的特征向量计算方法，可以应用于由计算机软硬件实现的物品推荐系统中，物品是歌曲、视频、图片、网页、书籍和新闻中的至少一种。

图1是根据一示例性实施例示出的一种特征向量计算方法的流程图。本实施例以该特征向量计算方法应用于上述终端中来举例说明。该方法可以包括以下几个步骤：

在步骤101中，使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行。

在步骤102中，使用物品j构建评分矩阵中的列。

在步骤103中，使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素。

在步骤104中，根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

综上所述，本公开实施例提供的特征向量计算方法，使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行，使用物品j构建评分矩阵中的列，使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素，根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量；解决了相关技术中使用用户构建评分矩阵的行，由于用户数量庞大而使矩阵分解难以完成的问题；达到了使用物品代替一类用户构成评分矩阵的行，减少评分矩阵中的矩阵元素个数，减少了矩阵分解过程中的计算量的效果。

图2是根据另一示例性实施例示出的一种特征向量计算方法的流程图。本实施例以该特征向量计算方法应用于上述终端中来举例说明。该方法可以包括以下几个步骤：

在步骤201中，使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行。

可选的，物品i是终端应用程序中的物品，物品i是歌曲、视频、图片、网页、书籍或新闻中的任意一种。

可选的，物品i所在的应用程序中共有m个物品，m是正整数，物品i是m个物品中的第i个物品，1≤i≤m。

评分矩阵中的每一行代表一类用户。

在步骤202中，使用物品j构建所述评分矩阵中的列。

可选的，物品j和物品i是同一个应用程序中的物品，则物品j是m个物品种的第j个物品，1≤j≤m。

可选的，物品i和物品j是同一种类型的物品，或者，物品i和物品j是不同类型的物品，本实施例对此不作限定。

评分矩阵中的每一列代表一种物品。

可选的，评分矩阵中包括m*m个矩阵元素。

可选的，本实施例以物品i和物品j为歌曲为例进行说明。

在步骤203中，计算物品i与物品j之间的相似度。

可选的，使用置信度方法计算物品i与物品j之间的相似度。

则该步骤实现为：计算物品j相对于物品i的置信度，将置信度作为物品i与物品j之间的相似度，则物品i与物品j之间的相似度r_i，j的计算方法如下：

r_{i, j} = P (j | i) = \frac{N (i \cap j)}{N (i)}

其中，P(j|i)是物品j相对于物品i的置信度，N(i∩j)是喜欢物品i且喜欢物品j的用户的个数，N(i)是喜欢物品i的用户的个数，N(i)是正整数。

可选的，应用程序通过接收用户对物品i的评分判断用户是否喜欢物品i，当用户对物品i的评分超过预定阈值时，该用户是喜欢物品i的用户，当用户对物品i的评分不超过预定阈值时，该用户不是喜欢物品i的用户，预定阈值是系统预设值或由用户自定义，本实施例对此不作限定。

可选的，应用程序根据用户获取物品i的次数判断用户是否喜欢物品i，当用户获取物品i的次数超过预定次数时，该用户是喜欢物品i的用户，当用户获取物品i的次数不超过预定次数时，该用户不是喜欢物品i的用户，预定次数是系统预设值或由用户自定义，本实施例对此不作限定。

可选的，计算得到的物品i与物品j之间的相似度r_i，j是一个在[0,1]范围内的数值。

可选的，计算物品i与物品j之间的相似度的方法还可以是余弦计算方法或pearson相关系数(Pearsoncorrelationcoefficient)方法，本实施例对此不再赘述。

在步骤204中，使用相似度代表喜欢物品i的一类用户对物品j的评分，作为评分矩阵中的矩阵元素W_ij的取值。

将计算得到的物品i与物品j之间的相似度r_i，j作为矩阵元素W_ij的取值，即为物品i代表的一类用户对物品j的评分。

图3示例性的示出了评分矩阵的一种形式，评分矩阵中的一行代表一类用户，第i行301是物品i代表的一类用户；评分矩阵中的一类代表一类物品，第j行是物品j，矩阵元素W_ij的取值即为物品i代表的一类用户对物品j的评分。

在步骤205中，使用预定的矩阵分解方法对评分矩阵进行矩阵分解，得到使目标函数取得最小值时的第一矩阵和第二矩阵；第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

可选的，矩阵分解方法包括ALS(AlternatingLeastSquare，交替最小二乘法的协同过滤算法)算法、Plsa(ProbabilisticLatentSemanticAnalysis，概率潜在语义分析)算法、LDA(LatentDirichletAllocation，隐含狄利克雷模型)算法和SVD(SingularValueDecompostion，奇异值分解模型)算法中的任意一种。

根据矩阵分解方法将m*m评分矩阵分解为m*k矩阵和k*m矩阵，k为取值可变的正整数:

[\begin{matrix} w_{11} & ...... & w_{1 m} \\ ...... & ...... & ...... \\ w_{m 1} & ...... & w_{m m} \end{matrix}] \approx [\begin{matrix} u_{11} & ...... & u_{1 k} \\ ...... & ...... & ...... \\ u_{m 1} & ...... & u_{m k} \end{matrix}] * [\begin{matrix} v_{11} & ...... & v_{1 m} \\ ...... & ...... & ...... \\ v_{k 1} & ...... & v_{k m} \end{matrix}]

可选的，目标函数为:

F = \underset{i, j}{Σ} (r_{i, j} - {X_{i}}^{T} Y_{j}) + λ (| | X_{i} | |^{2} + | | Y_{j} | |^{2})

其中，r_i，j是矩阵元素W_ij的取值，即为物品i代表的一类用户对物品j的真实评分，X_i是m*k矩阵中的第i行，Y_j是k*m矩阵中的第j列，即X_i＝[u_i1……u_ik]，Y_j＝[v_1j……v_kj]^T，||X_i||是矩阵X_i的范数，||Y_j||是矩阵Y_j的范数，||X_i||²+||Y_j||²是防止过拟合的正则化项，λ是正则化系数，本实施例对λ的取值不作限定。

可选的，当k取值不同时，对评分矩阵进行分解得到的矩阵也不同，对m*m评分矩阵进行每一次矩阵分解后，都将分解得到的m*k矩阵和k*m矩阵带入到上述目标函数中进行计算。使目标函数取得最小值时的m*k矩阵即为第一矩阵，k*m矩阵即为第二矩阵，第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

可选的，第一矩阵中每一行代表一类用户的特征向量，第二矩阵中每一列代表一种物品的特征向量。

在一个示例性的例子中，物品为歌曲，总共有5首歌曲，则评分矩阵中的行是每一首歌曲代表的一类用户，每一列是一首歌曲，评分矩阵为5*5的矩阵。假设喜欢第一首歌的用户有20个，喜欢第一首歌且喜欢第二首歌的用户有5个，则评分矩阵中的矩阵元素W₁₁是第一首歌与第一首歌的相似度，W₁₁＝1，矩阵元素W₁₂是第一首歌与第二首歌的相似度：

W_{12} = P (2 | 1) = \frac{5}{20} = 0.25

其他的矩阵元素的计算以此类推本实施例对此不作限定，假设得到的评分矩阵为：

M = [\begin{matrix} 1 & 0.25 & 0.5 & 0.33 & 0.67 \\ 0.5 & 1 & 0.8 & 0.1 & 0.7 \\ 0.4 & 0.1 & 1 & 0.9 & 0.2 \\ 0.22 & 0.8 & 0.22 & 1 & 0 \\ 0.6 & 0.9 & 0.1 & 0 & 1 \end{matrix}]

对M进行矩阵分解，k＝1时，对评分矩阵M进行矩阵分解表示如下：

将上面的5*1矩阵和1*5矩阵带入目标函数进行计算。当k为2,3,4……时，如上述方法对评分矩阵M进行分解并计算目标函数的取值，当目标函数取值最小时的5*k矩阵即为第一矩阵，k*5矩阵即为第二矩阵，本实施例对此不再赘述。

图4是根据一示例性实施例示出的一种特征向量计算装置的框图，该装置包括以下几个模块：

第一构建模块410，用于使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行。

第二构建模块420，用于使用物品j构建评分矩阵中的列。

第三构建模块430，用于使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素。

分解模块440，用于根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

综上所述，本公开实施例提供的特征向量计算装置，使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行，使用物品j构建评分矩阵中的列，使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素，根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括：每类用户的特征向量，第二矩阵包括：每种物品的特征向量；解决了相关技术中使用用户构建评分矩阵的行，由于用户数量庞大而使矩阵分解难以完成的问题；达到了使用物品代替一类用户构成评分矩阵的行，减少评分矩阵中的矩阵元素个数，减少了矩阵分解过程中的计算量的效果。

图5是根据另一示例性实施例示出的一种特征向量计算装置的框图，该装置包括以下几个模块：

第一构建模块510，用于使用物品i代表喜欢物品i的一类用户，构建评分矩阵中的行。

第二构建模块520，用于使用物品j构建评分矩阵中的列。

第三构建模块530，用于使用物品i与物品j之间的相似度代表喜欢物品i的一类用户对物品j的评分，构建评分矩阵中的矩阵元素。

第三构建模块530包括：

计算单元531，用于计算物品i与物品j之间的相似度。

计算单元531，用于计算物品j相对于物品i的置信度，将置信度作为物品i与物品j之间的相似度。

计算单元531，用于计算：

r_{i, j} = P (j | i) = \frac{N (i \cap j)}{N (i)}

构建单元532，用于使用相似度代表喜欢物品i的一类用户对物品j的评分，作为评分矩阵中的矩阵元素W_ij的取值。

分解模块540，用于根据目标函数对评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；第一矩阵包括每类用户的特征向量，第二矩阵包括：每种物品的特征向量。

分解模块540，用于使用预定的矩阵分解方法对评分矩阵进行矩阵分解，得到使目标函数取得最小值时的第一矩阵和第二矩阵；

需要说明的是：上述实施例提供的特征向量计算装置在计算特征向量时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的特征向量计算装置与特征向量计算方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特征向量计算方法，其特征在于，所述方法包括：

使用物品i代表喜欢所述物品i的一类用户，构建评分矩阵中的行；

使用物品j构建所述评分矩阵中的列；

使用所述物品i与所述物品j之间的相似度代表所述喜欢所述物品i的一类用户对所述物品j的评分，构建所述评分矩阵中的矩阵元素；

根据目标函数对所述评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；所述第一矩阵：包括每类用户的特征向量，所述第二矩阵包括：每种物品的特征向量。

2.根据权利要求1所述的方法，其特征在于，所述使用所述物品i与所述物品j之间的相似度代表所述喜欢所述物品i的一类用户对所述物品j的评分，构建所述评分矩阵中的矩阵元素，包括：

计算所述物品i与所述物品j之间的相似度；

使用所述相似度代表所述喜欢所述物品i的一类用户对所述物品j的评分，作为所述评分矩阵中的矩阵元素W_ij的取值。

3.根据权利要求2所述的方法，其特征在于，所述计算所述物品i与所述物品j之间的相似度，包括：

计算所述物品j相对于所述物品i的置信度，将所述置信度作为所述物品i与所述物品j之间的相似度。

4.根据权利要求3所述的方法，其特征在于，所述计算所述物品j相对于所述物品i的置信度，将所述置信度作为所述物品i与所述物品j之间的相似度，包括：

r_{i, j} = P (j | i) = \frac{N (i \cap j)}{N (i)}

其中，r_i，j是物品i与物品j之间的相似度，P(j|i)是所述物品j相对于所述物品i的置信度，N(i∩j)是喜欢所述物品i且喜欢所述物品j的用户的个数，N(i)是喜欢所述物品i的用户的个数，N(i)是正整数。

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据目标函数对所述评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵，包括：

使用预定的矩阵分解方法对所述评分矩阵进行矩阵分解，得到使所述目标函数取得最小值时的所述第一矩阵和所述第二矩阵；

其中，所述矩阵分解方法包括交替最小二乘法的协同过滤ALS算法、概率潜在语义分析Plsa算法、隐含狄利克雷分布模型LDA算法和奇异值分解模型SVD算法中的任意一种。

6.一种特征向量计算装置，其特征在于，所述装置包括：

第一构建模块，用于使用物品i代表喜欢所述物品i的一类用户，构建评分矩阵中的行；

第二构建模块，用于使用物品j构建所述评分矩阵中的列；

第三构建模块，用于使用所述物品i与所述物品j之间的相似度代表所述喜欢所述物品i的一类用户对所述物品j的评分，构建所述评分矩阵中的矩阵元素；

分解模块，用于根据目标函数对所述评分矩阵进行矩阵分解，得到第一矩阵和第二矩阵；所述第一矩阵包括：每类用户的特征向量，所述第二矩阵包括：每种物品的特征向量。

7.根据权利要求6所述的装置，其特征在于，所述第三构建模块包括：

计算单元，用于计算所述物品i与所述物品j之间的相似度；

构建单元，用于使用所述相似度代表所述喜欢所述物品i的一类用户对所述物品j的评分，作为所述评分矩阵中的矩阵元素W_ij的取值。

8.根据权利要求7所述的装置，其特征在于，

所述计算单元，用于计算所述物品j相对于所述物品i的置信度，将所述置信度作为所述物品i与所述物品j之间的相似度。

9.根据权利要求8所述的装置，其特征在于，所述计算单元，用于计算：

r_{i, j} = P (j | i) = \frac{N (i \cap j)}{N (i)}

10.根据权利要求6至9任一所述的装置，其特征在于，

所述分解模块，用于使用预定的矩阵分解方法对所述评分矩阵进行矩阵分解，得到使所述目标函数取得最小值时的所述第一矩阵和所述第二矩阵；