CN112883282A

CN112883282A - 一种基于麻雀搜索优化聚类的组推荐方法

Info

Publication number: CN112883282A
Application number: CN202110340661.9A
Authority: CN
Inventors: 王永贵; 林佳敏
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-01
Anticipated expiration: 2041-03-30
Also published as: CN112883282B

Abstract

本发明公开了一种基于麻雀搜索优化聚类的组推荐方法，该方法包括以下步骤：S1、收集用户对项目进行评分的数据，使用麻雀搜索优化的密度峰值聚类算法对用户项目评分矩阵进行相似度划分，形成群体；选用皮尔逊相关性度量方法计算群体中成员之间的相似度，得到成员与成员的相似度矩阵；根据成员间的相似度值和信任度值设计公式计算成员相互的影响权重，得到成员与成员的权重值矩阵；通过得到成员相互影响的权重后估算成员对项目的新评分，根据平均策略估算群体中成员对每个项目的评分和排序，并推荐评分最高的Top‑k项目进行组推荐。本发明通过均值融合策略，将预测评分融合并排序完成top‑k推荐，解决推荐系统面向单一用户推荐的局限，提高推荐的准确度。

Description

一种基于麻雀搜索优化聚类的组推荐方法

技术领域

本发明属于组推荐的技术领域，尤其涉及一种基于麻雀搜索优化聚类的组推荐方法。

背景技术

在大数据时代，随着互联网的不断壮大，信息数据的查找变得越来越艰难，用户很难在这种情况下节省时间去找到自己合适的商品或者电影，推荐系统运营而生。目前的大多数的推荐系统都单独向用户推荐，对于群体的活动，如一群人看电影，旅游，吃饭，健身等是需要照顾到群体中每个人的兴趣偏好，这时推荐系统就要根据成员的兴趣来向群组推荐项目。

个人推荐系统的不足是无法向一群人进行推荐，在对组进行推荐时，也会面临如数据稀疏、推荐准确度低等问题。组推荐的第一步就是通过聚类、相似度计算等方法创建相似度群组，在已有的创建群组的方法中，大多使用聚类的方法，但单一聚类形成的群组在推荐时的准确率和成员的满意度都偏低。智能算法可以对聚类算法进行优化，实现近似最优，从而改善聚类敏感问题，提高推荐的准确度。现有的智能算法如粒子群算法、鱼群算法等虽然再改善聚类这方面有着很大的进步，但是算法本身容易陷入局部最优。

发明内容

基于以上现有技术的优化目标单一用户推荐的不足，本发明所解决的技术问题在于提供一种基于麻雀搜索优化聚类的组推荐方法，解决密度峰值聚类截断距离选取问题导致的聚类效果不佳和群组推荐精确度低的问题。

为了解决上述技术问题，本发明通过以下技术方案来实现：

本发明提供的基于麻雀搜索优化聚类的组推荐方法，包括以下步骤：

S1、收集用户对项目进行评分的数据，使用麻雀搜索优化的密度峰值聚类算法对用户项目评分矩阵进行相似度划分，形成群体；

S2、选用皮尔逊相关性度量方法计算群体中成员之间的相似度，得到成员与成员的相似度矩阵；群体内成员间根据社会关系不同导致信任度是不对称的，计算成员之间非对称的信任值，得到成员与成员的信任度矩阵；

S3、根据成员间的相似度值和信任度值设计公式计算成员相互的影响权重，得到成员与成员的权重值矩阵；

S4、通过得到成员相互影响的权重后估算成员对项目的新评分，根据平均策略估算群体中成员对每个项目的评分和排序，并推荐评分最高的Top-k项目进行组推荐。

优选的，步骤S1的具体步骤如下：

步骤1.1：设置SSA算法的种群规模S，当前迭代次数t和最大迭代次数T，发现者数量P_m，意识到危险的麻雀数量S_n，报警值R₂，麻雀的数量D；

步骤1.2：当t<T时，排名适应度值并找到当前最佳麻雀和当前最差麻雀：

步骤1.3：根据

更新发现者位置，其中，j＝1，2，…，d；

表示种群中第t代中第i个麻雀的第j维位置；iter_max为迭代次数最多的常数；α是一个随机数；R₂和ST分别代表报警值和安全阈值；Q为一个标准正态分布随机数：

步骤1.4：根据

更新跟随者位置，其中，X_P ^t+1是生产者占据的最佳位置；X^t _worst表示当前全局最差位置；A表示1*d的矩阵，其中每个元素随机分配1或-1，并且A⁺＝AT(AAT)-1：

步骤1.5：根据

每代随时选择个体进行预警行为；X^t _best是当前的全局最优位置；β是步长控制参数，取值是平均值为0、方差为1的随机数的正态分布；K是一个随机数表示麻雀移动的方向，也是步长控制系数；f_i是目前麻雀的适应值，f_g和f_worst分别是当前的全局最佳适应值和最差适应值，ε是最小常数；

步骤1.6判断SSA是否满足迭代终止条件，若是，则结束迭代并将最优截断距离d_c ^*所对应的聚类结果进行除噪，得到最终聚类结果，完成群组的形成，否则，继续优化寻优。

进一步的，根据皮尔逊相关性计算群体内成员与成员的相似度，构建成员相似度矩阵：

式中，r_u，r_v分别表示用户u和用户v的评分向量；r_u,i表示用户u对项目i的评分，r_v，i表示用户v对项目i的评分；

通过群内成员与成员间的距离和社会关系确定成员信任度矩阵：

其中，rela表示成员的社会关系，I_u∩I_v表示用户u和用户v共同评分过的项目集，I_u表示用户u已评分项目集，dist表示为成员的距离。

进一步的，步骤S3中，通过成员相似度值和信任度值计算其在群体内的影响权重，构建权重矩阵，公式如下：

其中，Tru为信任度，Sim为成员的相似度。

可选的，步骤S4中，通过得到用户的权重值，计算权重影响后成员对项目的评分公式如下式所示：

通过均值策略融合成员评分如下式，评分最高的top-k推荐给该组；

其中，N表示所有评分的用户总个数，所有项目都分组评分后，得分最高的前k个项目推荐给组。

由上，本发明的基于麻雀搜索优化聚类的组推荐方法通过麻雀搜索优化算法SSA改进了密度峰值聚类DPC，解决了dc人工选取问题，构建高相似度群体，提高了聚类的效果从而提高后续推荐准确度；同时，在计算用户偏好上使用相似度与信任度结合的方式，通过均值融合策略，将预测评分融合并排序完成top-k推荐，解决了推荐系统面向单一用户推荐的局限，并提高了推荐的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的麻雀搜索优化密度峰值聚类算法的流程图；

图2为本发明的基于麻雀搜索优化聚类的组推荐方法的流程图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1所示，本发明的基于麻雀搜索优化聚类的组推荐方法，该方法包括如下步骤：

通过麻雀搜索算法(SSA)有效地寻优能力对目标函数进行优化，寻找最佳的截断距离d_c，改善聚类结果对d_c敏感问题，提高聚类效果。根据改进的密度峰值聚类(SSA-DPC)创建高相似度群组从而提高组推荐的准确度。聚类中心通过样本点局部密度ρ_i和相对距离δ_i计算确定，局部密度计算公式如下：

式中，d_ij表示样本点i到样本点j之间的距离，本发明采用皮尔逊相关性的度量方式；d_c表示截断距离。

相对距离δ_i表示的样本点i与局部密度更高的样本点之间的距离，计算公式如下：

计算数据集X＝{x₁,x₂,…,x_n}种样本点之间的欧氏距离确定d_c范围，初始化d_c带入上面两个公式中计算出所有点的局部密度和相对距离。根据ρ_i和δ_i绘制决策图，在决策图中选取簇的聚类中心，通常选取ρ_i和δ_i均为较大的点作为簇的聚类中心。

ACC指标能对聚类结果能够产生准确的评判，ACC指标的计算公式如下：

式中，P_j表示已知人工标注的簇，C_j表示经过聚类后的簇，将评价指标ACC作为SSA的目标函数，记ACC指标最大时所对应的d_c为d_c*，利用SSA算法更新d_c，步骤如下：

步骤1.3：根据

更新发现者位置，其中，j＝1，2，…，d；

步骤1.4：根据

步骤1.5：根据

步骤1.6：判断SSA是否满足迭代终止条件，若是，则结束迭代并将最优截断距离d_c ^*所对应的聚类结果进行除噪，得到最终聚类结果，完成群组的形成，否则，继续优化寻优。

在步骤S2中，根据皮尔逊相关性计算群体内成员与成员的相似度，构建成员相似度矩阵：

在步骤S3中，通过成员相似度值和信任度值计算其在群体内的影响权重，构建权重矩阵，公式如下：

其中，Tru为信任度，Sim为成员的相似度。

在步骤S4中，通过得到用户的权重值，计算权重影响后成员对项目的评分公式如下式所示：

本发明基于麻雀搜索优化聚类的组推荐方法，其流程如图2所示。

改进的密度峰值聚类SSA-DPC根据用户评分相似度划分生成群体，其中，该算法的局部密度ρi计算是将原本需要人工选取的截断距离dc经过SSA优化成非人工选取，无需计算样本点到所有其他样本点的距离，解决了人工选取截断距离的缺陷，提高了聚类的效果。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。