CN107885778A

CN107885778A - 一种基于动态临近点谱聚类的个性化推荐方法

Info

Publication number: CN107885778A
Application number: CN201710944655.8A
Authority: CN
Inventors: 陈晋音; 吴洋洋; 徐轩桁; 宣琦; 俞山青
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-04-06
Anticipated expiration: 2037-10-12
Also published as: CN107885778B

Abstract

一种基于动态临近点谱聚类的个性化推荐方法，依据用户的签到信息建立用户‑商店的二分网络；将用户‑商店的二分网络投影到用户‑用户与商店‑商店的两个单边网络，利用node2vec算法将两个加权的单边网络投影至两个不同的向量空间中；调用基于动态临近点的谱聚类算法分别对以上所得的用户向量与商店向量进行聚类，得到多个用户簇和商店簇；将单个用户之间存在的签到信息转换成用户簇与商店簇之间的簇网络；利用K‑means算法将该一维向量进行划分成两个类，签到个数均值较多的类内的商店簇推荐给该用户簇；依据每个用户簇与所推荐的商店簇进行个性化推荐。本发明有效的提高了推荐方法的准确率。

Description

一种基于动态临近点谱聚类的个性化推荐方法

技术领域

本发明属于推荐方法领域，具体涉及一种基于动态临近点谱聚类的个性化推荐方法。

背景技术

推荐技术包括基于内容和基于知识的推荐、协同过滤推荐等。基于内容和基于知识的推荐建立在对象内容的信息上进行推荐，不需要依赖于用户对商店的评分。协同过滤推荐则能够为用户找到与自己喜好相似的人或者与自己喜爱的商店相似的商店进行推荐。在大多的推荐系统中，用户对项目的评价或者消费记录较少，也就使得用户-项目评分矩阵已有评分记录非常少，在为目标用户寻找相似用户时，数据稀疏成为了最大的障碍，直接影响推荐结果的准确性。

为了解决推荐系统中数据稀疏性产生的问题，聚类的思想被引入到推荐系统中。基于聚类的推荐系统通过将大量稀疏数据压缩成一系列密集子集来解决数据稀疏性的问题。Xue等人利用K-means聚类算法对用户进行聚类，为每个用户在所在簇中选取K个最相似度的用户作为临近用户；Guo等人提出了一种依据评分信息与社区信任关系不断对用户进行迭代聚类的聚类推荐算法。但是显而易见的是，聚类结果会对基于聚类的推荐算法产生较大的影响，而且聚类算法普遍存在聚类中心难以确定和参数的鲁棒性较差等问题，所以在聚类推荐算法中选取合适的推荐算法也是一个非常重要的问题。

Joseph等人通过主题模型将用户进行分类，使其能够同时区分出用户的类型(旅客或者司机)和兴趣；Rana等人提出了通过进化算法聚类用户的动态推荐系统；Wang等人利用K-means算法将用户进行聚类，并估计在用户-商店矩阵中的评分，而得到目标用户的偏好；Puntheeranurak等人提出了一种用模糊K-means聚类算法聚类用户的混合推荐算法；Connor等人利用利用一些列划分算法对项目进行聚类，并计算每个子集的预测值。

总的来说，目前的聚类推荐算法存在以下几个问题：在社交网络中，网络特征的提取是一个十分重要的问题，哪种网络特征提取的算法能够更好的反映出数据库中存在的用户与商店之间网络的特征；在聚类算法的选取中，聚类算法普遍存在聚类个数难以确定等问题，如何为聚类推荐算法选取合适的聚类算法能够有效解决以上存在的问题；在对用户与商店进行聚类后，如何为用户簇推荐商店簇。

发明内容

为了能够克服现有聚类推荐算法中网络特征难以提取、聚类算法中聚类中心难以确定以及聚类效果较差和无法实现为用户簇推荐商店簇等问题，本发明提供一种聚类效果较好、实现个性化推荐、为用户簇个性化推荐商店簇的基于动态临近点谱聚类的个性化推荐方法。

本发明解决其技术问题所采用的技术方案是：

一种基于动态临近点谱聚类的个性化推荐方法，所述方法包括以下步骤：

1)将数据库的签到数据所对应的用户-商店的二分网络映射到两个不同的向量空间中进行表示，过程如下：

1.1)首先，依据数据库中的签到数据建立用户-商店的二分网络，其中用户与商店之间的权重为用户访问过该商店的次数；

1.2)将当前的用户-商店网络分别投影到用户-用户网络以及商店-商店的网络，其中用户-用户网络的权重的大小为用户去过的相同商店的个数，商店-商店的网络的权重的大小为商店被访问过的相同的用户的个数；

1.3)调用node2vec算法分别将用户-用户网络以及商店-商店的网络转换到向量空间中，分别计算得到用户向量和商店向量，过程如下：

1.3.1)设置参数p和参数q确定网络节点的随机游走策略；

1.3.2)依据所确定的随机游走策略，确定所有样本点的随机游走的路径；

1.3.3)依据word2vec算法中的Skip-Gram模型训练所有节点的路径，来获取相对应的向量。

2)利用动态临近点谱聚类算法将用户和商店分别进行聚类，过程如下：

2.1)分别将用户向量和商店向量进行初始化，对向量的所有维进行归一化处理；

2.2)建立基于动态临近点的稀疏相似度矩阵，过程如下：

2.2.1)首先对数据点的局部密度和动态临近点集合进行定义：

定义1：对于任意数据对象i，其局部密度计算方法为：

其中，m矩阵是由距离矩阵中最小的np_ercent个距离值组成，p_ercent表示邻居点个数占总数据点距离个数的比例，d(i,j)表示点i和点j之间的距离。为保证计算m矩阵的时候不会影响到算法的整体空间复杂度，需要在每个计算区间距离矩阵的同时，利用该区间距离矩阵逐个与m矩阵中仍保留的距离值比较，每次比较只将其中np_ercent个最小距离值保留在m矩阵中，直到所有区间距离矩阵比较完为止；

定义2：对于任意数据对象i，其动态临近点集合T_i为：

J_i＝{j∈N_i||ρ_i-ρ_j|＞ρ_thre} (4)

其中N_i表示离样本点i最近样本点组成的样本点i的总临近点集合，ρ_thre表示的是密度差阈值，J_i表示数据点i与总临近点集合中临近点的局部密度差大于密度差阈值ρ_thre的临近点的集合，d(i,j)表示数据点i和数据点j之间的距离值，|ρ_i-ρ_j|表示数据点i和数据点j之间的密度差值的绝对值；

2.2.2)将数据点的动态临近点集合引入到相似函数中，先通过每个数据点与其动态临近点集合中所有样本点之间的距离确定每个数据点的局部尺度参数，再通过数据点领域内动态临近点集合对数据点之间的相似度进行调整。每个数据点只保留与其动态临近点之间的相似度，舍弃与动态临近点集合范围外样本点的相似度；

基于动态临近点的相似函数的计算公式：

其中的d(i,j)表示数据点i和数据点j之间的距离值，t_i表示动态临近点集合T_i内样本点个数；

2.2.3)在计算基于动态临近点的稀疏相似度矩阵的时候，首先要将所有数据分成一定区间，计算出每个数据点与所有数据点之间的距离组成的区间距离矩阵以及每个区间内所有数据点的动态临近点集合，得到区间稀疏距离矩阵；接着依据基于动态临近点的相似度函数和区间稀疏距离矩阵计算得到区间稀疏相似度矩阵，整合所有区间稀疏相似度矩阵就可以得到完整的稀疏相似度矩阵；

2.3)谱聚类算法中的聚类中心自动确定算法，过程如下：

2.3.1)密度的定义引用2.2.1)中局部密度的定义；

2.3.2)定义每个数据点的最小距离值：

定义3：对于任何样本点，如果其所有动态临近点的局部密度都小于该点的局部密度，则将该点判断为候选点，否则将其判断为非候选点。

对于一个非候选点i来说，点i的最小距离为i点到其所有局部密度高于i点的动态临近点中的距离最小值：

δ_i＝min(DN_i) (7)

其中DN_i表示点i与局部密度大于该点的动态临近点的距离集合。

对于一个候选点i来说，点i的最小距离为点到局部密度大于该点的样本点的最小距离：

其中DH_i表示点i与所有样本点中局部密度大于i点的样本点的距离集合，max(ρ)表示最大局部密度，max(δ)表示计算得到的所有样本点的最小距离中的最大值。

2.3.3)根据步骤2.3.1)和2.3.2)得到的密度矩阵和距离矩阵绘制出对应的决策图；

2.3.4)依据决策图的分析，引入变量γ，对于任意一个数据点i，其定义为：

γ_i＝ρ_i×δ_i (9)

根据γ的概率分布情况，对于该γ的分布进行曲线的拟合，发现其图形的拟合曲线形状近似于一条正态分布曲线；

2.3.5)利用选取置信区间的方式在所对应的正态分布曲线中寻找出聚类中心点信息。由ρ-δ关系图上的离散数据点进行一元线性拟合，得到拟合曲线y_δ＝kx_ρ+b₀，计算各个数据点的残差值ε_δi＝y_δi-δ_i，绘制残差直方图ε_δi-h，计算得到方差值σ_δ，利用λσ原则确定处在置信区间外的聚类中心点；

2.4)特征分解，求取合适的特征向量组，过程如下：

2.4.1)首先需要计算出度矩阵D和拉普拉斯矩阵L。度矩阵是一个对角阵，它的对角线上的元素D_ii由相似度矩阵的第i行元素相加求和得到的。度矩阵D计算公式如下：

然后根据度矩阵D和相似度矩阵S计算得到拉普拉斯矩阵L，拉普拉斯矩阵计算公式如下：

2.4.2)将计算得到的拉普拉斯矩阵L进行特征分解，选择出其中所有p个最能反映数据全局特征的特征值为1所对应的主特征向量；

2.4.3)接着通过拉普拉斯分值法选择出剩余特征向量中拉普拉斯分值最小的K-p个特征向量。

拉普拉斯分值L_r计算方法为：

其中f_ri是第i个样本点的第r个特征，定义第r个特征均值为D是度矩阵，D_ii＝∑_jS_ij，S_ij表示稀疏相似度矩阵S中互为临近点的样本点i和j之间的相似度；

2.4.4)将被选择的K个特征向量组成矩阵V。

2.5)标准化特征向量组，并聚类，过程如下：

对所选取的特征向量组V进行标准化处理，得到矩阵U：

此时U矩阵中每行数据表示原始数据在拉普拉斯空间中的映射位置，接着对U矩阵所表示的所有数据在特征空间中的映射的元素进行K-means聚类，得到当前临近点个数所对应的聚类结果。

2.6)最优密度差阈值选取，过程如下：

2.6.1)获得当前密度差阈值所对应的聚类结果；

2.6.3)依据当前密度差阈值所对应的聚类结果计算对应的Fitness函数值。

其中m表示簇的个数，n表示数据量，C_i和C_j表示第i个簇和第j个簇的聚类中心，

2.6.4)比较Fitness_g与当前Fitness函数值比较，如果当前Fitness函数值较小，则更新Fitness_g函数值并保留该密度差阈值作为当前最优密度差阈值，否则保留Fitness_g函数值；

2.6.5)更新密度差阈值，判断是否超出范围，若密度差阈值超出范围，则转至步骤2.6.6)；否则转至步骤2.2.1)；

2.6.6)输出最优密度差阈值所对应的聚类结果；

3)对用户簇个性化推荐多个商店簇，过程如下：

3.1)建立用户簇与商店簇之间存在的二分网络，其中用户簇之间和商店簇之间的权重为用户簇内的用户在该商店簇内商店的签到个数；

3.2)为每个用户簇推荐商店簇：首先依据用户簇与商店簇之间的二分网络得到用户簇所对应的所有商店簇与之的权重；接着依据权重对商店簇进行K-means聚类，将商店簇划分成两类；对于每个用户簇将其中权重均值较大的类中的所有商店簇推荐给该用户簇。

4)为每个用户进行个性化推荐，过程如下：

依据对每个用户簇推荐较为合适的多个的商店簇以及签到信息所对应的打分信息，调用推荐算法对每个用户进行个性化推荐。

进一步，所述推荐算法为协同过滤推荐算法或基于非负矩阵分解的推荐算法。或者其他推荐算法。

本发明中，所述步骤1.3)中，本发明选取node2vec算法对所对应的用户网络和商店网络提取特征，并将其转换成向量的形式。这是首次将node2vec算法应用到推荐算法当中，其提取网络特征的效果明显优于其他

在所述步骤2)中，本发明选择使用基于动态临近点的谱聚类算法，该算法能够准确的确定聚类中心，并且依据基于动态临近点的稀疏相似度矩阵以及选取更为合适的特征向量较好的反映出数据结构，从而达到优化聚类的结果的目的，最终能够优化聚类推荐算法的推荐效果。

在所述步骤3.2)中，本发明在为每个用户簇推荐商店簇的时候，首先建立用户簇和商店簇的签到网络，接着在对每个用户簇推荐商店簇的时候对所有商店簇进行再次聚类，其中聚类的向量是由每个用户簇对应的商店簇的签到数据构成，将所有商店簇分为两类，并将其中签到个数均值较大的商店簇推荐给该用户簇，实现了为每个用户簇进行初步个性化推荐。

本发明的技术构思为：提出了基于动态临近点谱聚类的个性化推荐方法，该算法首先将node2vec算法与二分网络相结合有效的提取出投影网络中用户网络和商店网络的特征，并将其转换成向量进行表示；接着，调用基于动态临近点的谱聚类算法分别对所得到的用户向量和商店向量进行聚类，在能够自动获得用户的聚类个数和商店的聚类个数的同时也对用户和商店分别进行有效的聚类，得到多个用户簇和商店簇；然后，对每个用户簇利用K-means算法进行个性化推荐多个关系较为紧密的商店簇；最后依据传统推荐算法和每个用户簇对所对应的商店簇的签到信息以及打分信息进行个性化推荐。

本发明的有益效果主要表现在：通过将node2vec算法与二分网络相结合，更为有效的提取签到数据的网络特征将其转换成向量的形式，并通过基于动态临近点的谱聚类自动获得聚类个数和较好的聚类效果，在为用户簇推荐商店簇时实现初步的个性化推荐，并在最终的个体推荐时调用传统的推荐算法实现个性化推荐。该推荐方法在Yelp数据集的测试结果表明，该推荐方法能够有效的提高推荐的效果，并能够有效的解决数据稀疏性的问题。

附图说明

图1是基于动态临近点谱聚类的个性化推荐方法的系统框图。

图2是基于动态临近点的谱聚类算法的框图。

图3是样本数据分布，ρ-δ分布图和γ的概率分布图之间的映射关系,其中(a)是样本数据分布图，(b)是ρ-δ分布图，(c)是γ的概率分布图。

图4是基于动态临近点谱聚类的个性化推荐方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于动态临近点谱聚类的个性化推荐方法，包括以下步骤：

1)依据数据库的签到数据建立基于用户-商店的二分网络，并将其映射到两个不同的向量空间中进行表示，过程如下：

1.1)首先，依据数据库中的签到数据建立用户-商店的二分网络，该二分网络中用户与商店之间存在的权重的大小为该用户访问过该商店的次数；

1.2)将当前的用户-商店的二分网络进行单边投影，分别投影到用户-用户网络以及商店-商店的网络，其中单边网络的用户-用户网络中用户点之间存在权重的大小为用户去过的相同商店的个数，单边投影网络商店-商店的网络中商店点之间存在权重的大小为商店被访问过的相同的用户的个数；

1.3)调用node2vec算法分别将用户-用户网络以及商店-商店的网络转换到向量空间中，将这两个单边网络分别依据用户向量和商店向量进行表示，过程如下：

1.3.1)设置参数p和参数q确定网络节点的随机游走策略；

2)利用基于动态临近点的谱聚类算法将用户和商店分别进行聚类，如图2所示，过程如下：

2.1)分别将用户向量和商店向量进行初始化，对向量的所有维数据进行了归一化处理，具体过程如下：

输入数据集，对数据集的每一维x₁,…,x_n∈R^m同时用最小-最大方法进行规范化，即第i个数据处理后的第j维数值为：

其中x(j)表示所有数据点的第j维，x_i(j)表示第i个数据的第j维的数值，u_b、l_b分别是规范后数据每一维的最大值和最小值。u_b、l_b分别取1和-1，则规范化后y_i(j)∈[-1，1]。

2.2)构建基于动态临近点的稀疏相似度矩阵，过程如下：

2.2.1)首先对数据点的局部密度和动态临近点集合进行定义：

定义1：对于任意数据对象i，其局部密度计算方法为：

其中，m矩阵是由距离矩阵中最小的np_ercent个距离值组成，p_ercent表示邻居点个数占总数据点距离个数的比例，d(i,j)表示点i和点j之间的距离。为保证计算m矩阵的时候不会影响到算法的整体空间复杂度，需要在每个计算区间距离矩阵的同时，利用该区间距离矩阵逐个与m矩阵中仍保留的距离值比较，每次比较只将其中np_ercent个最小距离值保留在m矩阵中，直到所有区间距离矩阵比较完为止。

定义2：对于任意数据对象i，其动态临近点集合T_i为：

J_i＝{j∈N_i||ρ_i-ρ_j|＞ρ_thre} (4)

其中N_i表示离样本点i最近样本点组成的样本点i的总临近点集合，ρ_thre表示的是密度差阈值，J_i表示数据点i与总临近点集合中临近点的局部密度差大于密度差阈值ρ_thre的临近点的集合，d(i,j)表示数据点i和数据点j之间的距离值，|ρ_i-ρ_j|表示数据点i和数据点j之间的密度差值的绝对值。

2.2.2)将数据点的动态临近点集合引入到相似函数中，先通过每个数据点与其动态临近点集合中所有样本点之间的距离确定每个数据点的局部尺度参数，再通过数据点领域内动态临近点集合对数据点之间的相似度进行调整。每个数据点只保留与其动态临近点之间的相似度，舍弃与动态临近点集合范围外样本点的相似度。

基于动态临近点的相似函数的计算公式：

其中的d(i,j)表示数据点i和数据点j之间的距离值，t_i表示动态临近点集合T_i内样本点个数。

2.2.3)在计算基于动态临近点的稀疏相似度矩阵的时候，首先要将所有数据分成一定区间，计算出每个数据点与所有数据点之间的距离组成的区间距离矩阵以及每个区间内所有数据点的动态临近点集合，得到区间稀疏距离矩阵；接着依据基于动态临近点的相似度函数和区间稀疏距离矩阵计算得到区间稀疏相似度矩阵，整合所有区间稀疏相似度矩阵就可以得到完整的稀疏相似度矩阵。

2.3)聚类中心点自动确定，如图3所示，过程如下：

2.3.1)密度的定义引用2.2.1)中局部密度的定义；

2.3.2)定义每个数据点的最小距离：

对于一个非候选点i来说，点i的最小距离为i点到其所有局部密度高于i点的动态临近点中的最小距离：

δ_i＝min(DN_i) (7)

γ_i＝ρ_i×δ_i (9)

2.4)特征分解，并选取其中合适的特征向量，过程如下：

2.4.1)首先需要计算出度矩阵D和拉普拉斯矩阵L，度矩阵是一个对角阵，它的对角线上的D_ii由相似度矩阵的第i行元素相加求和得到的，度矩阵D计算公式如下：

2.4.2)将计算得到的拉普拉斯矩阵L进行特征分解，选择出其中所有p个特征值为1所对应的主特征向量，这些特征向量最能反映数据的全局特征；

拉普拉斯分值L_r计算方法为：

其中f_ri是第i个样本点的第r个特征，定义第r个特征均值为D是度矩阵，S_ij表示稀疏相似度矩阵S中互为动态临近点的样本点i和j之间的相似度；

2.4.4)将被选择的K个特征向量组成特征向量组V＝[v₁,v₂,…,v_K]。

2.5)标准化特征向量组V，并用K-means算法进行聚类，过程如下：

对所选取的特征向量组V进行标准化处理，得到矩阵U：

此时U矩阵中每行数据表示原始数据在拉普拉斯空间中的映射位置，接着对U矩阵所表示的所有数据在特征空间中的映射的元素进行K-means聚类，得到当前密度差阈值所对应的聚类结果。

2.6)最优密度差阈值选取，过程如下：

2.6.1)获得当前密度差阈值所对应的聚类结果；

其中m表示簇的个数，n表示数据量，C_i和C_j表示第i个簇和第j个簇的聚类中心；

2.6.5)更新密度差阈值，判断是否超出范围，若密度差阈值超出范围，则转至步骤2.6.6)，否则转至步骤2.2.1)；

2.6.6)输出最优密度差阈值所对应的聚类结果。

3)对用户簇个性化推荐多个商店簇，过程如下：

3.2)为每个用户簇推荐商店簇：首先依据用户簇与商店簇之间的二分网络得到用户簇所对应的所有商店簇与之的权重；接着依据权重对商店簇进行K-means聚类，将商店簇划分成两类；对于每个用户簇将其中权重均值较大的类中的所有商店簇推荐给该用户簇。具体步骤如下：

3.2.1)初始化数据，用户簇i内用户访问过的所有B个商店簇的记录个数组成的向量为VU_i＝[u_i1,u_i2,…,u_iB]，其中u_ij(j＝1,2,…,B)表示用户簇i内用户访问所有B个商店中第j个商店的次数；

3.2.2)设置两个不同商店簇作为算法初始聚类中心点，初始qold为无穷大，并设置聚类迭代阈值Thr；

3.2.3)依据当前聚类中心点，将所有商店簇分配到离该商店簇最近的聚类中心的商店簇所对应的类中，并计算所有商店簇到所属聚类中心点距离；

3.2.4)将当前聚类中心点最近的一点设置为新的聚类中心点；

3.2.5)计算所有点到所属聚类的中心点距离总和，记为qnew；

3.2.6)如果Thr大于|qnew-qold|/qold，则输出现有中心点所有数据点的类标信息；否则转至步骤3.2.2)。

3.2.7)计算用户簇i所对应的两个类商店簇，将其中访问次数均值较大的类中的所有商店簇推荐给用户簇i，实现用户簇的个性化推荐，并返回步骤3.2.1)不断迭代，直到所有用户簇的初步个性化推荐完成。

4)为每个用户进行个性化推荐，过程如下：

依据对每个用户簇推荐较为合适的多个的商店簇以及签到信息所对应的打分信息，调用传统的推荐算法对每个用户进行个性化推荐，其中传统的推荐算法例如协同过滤推荐算法和基于非负矩阵分解的推荐算法。

Claims

1.一种基于动态临近点谱聚类的个性化推荐方法，其特征在于：所述方法包括以下步骤：

1.2)将当前的用户-商店网络进行单边投影得到用户-用户网络以及商店-商店的网络，其中用户-用户网络的权重的大小为用户去过的相同商店的个数，商店-商店的网络的权重的大小为商店被访问过的相同用户的个数；

1.3)调用node2vec算法分别将用户-用户网络以及商店-商店的网络转换到向量空间中，得到用户向量和商店向量；

2.1)分别将用户向量和商店向量进行初始化，对向量的所有维进行了归一化处理；

2.2)建立基于动态临近点的稀疏相似度矩阵，过程如下：

2.2.1)首先对数据点的局部密度和动态临近点集合进行定义：

定义1：对于任意数据对象i，其局部密度计算方法为：

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> </munder> <mmultiscripts> <mi>f</mi> <mi>j</mi> </mmultiscripts> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&Element;</mo> <mi>m</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&NotElement;</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，m矩阵是由距离矩阵中最小的np_ercent个距离值组成，p_ercent表示邻居点个数占总数据点距离个数的比例，d(i,j)表示点i和点j之间的距离；在每个计算区间距离矩阵的同时，利用该区间距离矩阵逐个与m矩阵中仍保留的距离值比较，每次比较只将其中np_ercent个最小距离值保留在m矩阵中，直到所有区间距离矩阵比较完为止；

定义2：对于任意数据对象i，其动态临近点集合T_i为：

<mrow> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>=</mo> <mo>{</mo> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>d</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo><</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>k</mi> <mo>&Element;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <mi>d</mi> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>i</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

J_i＝{j∈N_i||ρ_i-ρ_j|＞ρ_thre} (4)

2.2.2)将数据点的动态临近点集合引入到相似函数中，先通过每个数据点与其动态临近点集合中所有样本点之间的距离确定每个数据点的局部尺度参数，再通过数据点领域内动态临近点集合对数据点之间的相似度进行调整；每个数据点只保留与其动态临近点之间的相似度，舍弃与动态临近点集合范围外样本点的相似度；

基于动态临近点的相似函数的计算公式：

<mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>-</mo> <mi>d</mi> <msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <mi>m</mi> <mi>a</mi> <mi>x</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>j</mi> <mo>&NotElement;</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> </msub> <mi>d</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>/</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

2.2.3)在计算基于动态临近点的稀疏相似度矩阵的时候，首先要将所有数据分成一定区间，计算出每个数据点与所有数据点之间的距离组成的区间距离矩阵以及每个区间内所有数据点的动态临近点集合，得到区间稀疏距离矩阵；接着依据基于动态临近点的相似度函数和区间稀疏距离矩阵计算得到区间稀疏相似度矩阵，整合所有区间稀疏相似度矩阵得到完整的稀疏相似度矩阵；

2.3)确定聚类中心，过程如下：

2.3.1)密度的定义引用2.2.1)中局部密度的定义；

2.3.2)定义每个数据点的最小距离值：

定义3：对于任何样本点，如果其所有动态临近点的局部密度都小于该点的局部密度，则将该点判断为候选点，否则将其判断为非候选点；

δ_i＝min(DN_i) (7)

其中DN_i表示点i与局部密度大于该点的动态临近点的距离集合；

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>DH</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>&NotEqual;</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>&rho;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>&delta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>&rho;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中DH_i表示点i与所有样本点中局部密度大于i点的样本点的距离集合，max(ρ)表示最大局部密度，max(δ)表示计算得到的所有样本点的最小距离中的最大值；

γ_i＝ρ_i×δ_i (9)

2.3.5)利用选取置信区间的方式在所对应的正态分布曲线中寻找出聚类中心点信息，由ρ-δ关系图上的离散数据点进行一元线性拟合，得到拟合曲线y_δ＝kx_ρ+b₀，计算各个数据点的残差值ε_δi＝y_δi-δ_i，绘制残差直方图ε_δi-h，计算得到方差值σ_δ，利用λσ原则确定处在置信区间外的聚类中心点；

2.4)特征分解，求取特征向量组，过程如下：

2.4.1)首先需要计算出度矩阵D和拉普拉斯矩阵L，度矩阵是一个对角阵，它的对角线上的元素D_ii由相似度矩阵的第i行元素相加求和得到的，度矩阵D计算公式如下：

<mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

2.4.3)接着通过拉普拉斯分值法选择出剩余特征向量中拉普拉斯分值最小的K-p个特征向量；

拉普拉斯分值L_r计算方法为：

<mrow> <msub> <mi>L</mi> <mi>r</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>f</mi> <mrow> <mi>r</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>u</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

2.4.4)将被选择的K个特征向量组成矩阵V＝[v₁,v₂,…,v_K]；

2.5)标准化特征向量组，并聚类，过程如下：

对所选取的特征向量组V进行标准化处理，得到矩阵U：

<mrow> <msub> <mi>U</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msubsup> <mi>V</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

此时U矩阵中每行数据表示原始数据在拉普拉斯空间中的映射位置，接着对U矩阵所表示的所有数据在特征空间中的映射的元素进行K-means聚类，得到当前密度差阈值所对应的聚类结果；

2.6)最优密度差阈值选取，过程如下：

2.6.1)获得当前密度差阈值所对应的聚类结果；

2.6.3)依据当前密度差阈值所对应的聚类结果计算对应的Fitness函数值；

<mrow> <mi>F</mi> <mi>i</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> </msub> <mi>d</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mi>n</mi> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mi>d</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mrow> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

2.6.6)输出最优密度差阈值所对应的聚类结果；

3)对用户簇初步个性化推荐多个商店簇，过程如下：

3.2)为每个用户簇推荐商店簇：首先依据用户簇与商店簇之间的二分网络得到用户簇所对应的所有商店簇与之的权重；接着依据权重对商店簇进行K-means聚类，将商店簇划分成两类；对于每个用户簇将其中权重均值较大的类中的所有商店簇推荐给该用户簇；

4)为每个用户进行个性化推荐，过程如下：

2.如权利要求1所述的一种基于动态临近点谱聚类的个性化推荐方法，其特征在于：将二分网络的单边投影与node2vec算法相结合更好的提取出网络结构的特征；在对向量聚类时选择使用基于动态临近点的谱聚类算法，能够准确的确定聚类中心，并且依据基于动态临近点的稀疏相似度矩阵以及选取更为合适的特征向量能够更好的反映出数据的结构，达到优化聚类效果的目的，最终优化了推荐算法的推荐效果；并在为用户簇选取商店簇时实现了用户簇的初步个性化推荐。