CN112667876A

CN112667876A - 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法

Info

Publication number: CN112667876A
Application number: CN202011548691.0A
Authority: CN
Inventors: 李君妍; 刘亚东
Original assignee: Hubei University of Education
Current assignee: Hubei University of Education
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16
Anticipated expiration: 2040-12-24
Also published as: CN112667876B

Abstract

本发明公开了一种基于PSOTVCF‑Kmeans算法的意见领袖群识别方法，包括：步骤1，利用网络爬虫工具，从互联网中采集实际的社交网络数据；步骤2，基于“用户影响力”和“话题影响力”计算意见领袖值；所述用户影响力包括粉丝量、原创微博量和是否认证，话题影响力包括博文评论量、转发量和点赞量；步骤3，依意见领袖值高低排序得到预判的意见领袖群簇P和普通用户群簇Q，作为粒子群的初始扰动场，基于PSOTVCF‑Kmeans算法对意见领袖群簇P和普通用户群簇Q进行聚类。本文利用时变双重压缩因子粒子群优化算法，建立PSOTVCF‑KMeans聚类模型，通过PSOTVCF寻找全局最优解的优势，确定最佳聚类初始簇心，提高了K‑means算法的聚类效果和效率。

Description

一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法

技术领域

本发明涉及一种识别方法，特别是涉及一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法。

背景技术

微博不仅是舆论流传的一个独立源头，也参与舆论的形成、发展与引导的进程中。微博平台中存在各种意见领袖，他们能影响其他人的观点与行为，令话题不断升温。因此，如何精确识别意见领袖群，对于政府高效疏导群众突发事件舆论走向，具有重大意义。

目前社会网络分析法、PageRank法及指标分析法等技术得到广泛应用。依据“粉丝量”、“转发量”、“点赞量”以及“是否认证”等指标加权，对用户影响力进行排序，是现今大多数意见领袖识别模型的基础，虽然实现了对用户影响力的衡量，但在确定意见领袖范围时一般采用自定义排名阈值方式，偶然性强。李熠辉等^[7]将改进的PageRank算法与K-means算法结合构建 MUK-means聚类模型，按影响力排名将用户分成两簇，自动识别出意见领袖的范围，提高了意见领袖识别在阈值选取的客观性。但将初始簇心设为用户影响力排名最高和最低用户，虽然初始簇心距离保持最大，但忽略了初始簇内平均距离对聚类的影响，导致聚类效果不佳，聚类效率低下。

发明内容

针对现有技术的不足，本发明提出了一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法，具体包括如下步骤：

步骤1，利用网络爬虫工具，从互联网中采集实际的社交网络数据；

步骤2，基于“用户影响力”和“话题影响力”计算意见领袖值；所述用户影响力包括粉丝量、原创微博量和是否认证，话题影响力包括博文评论量、转发量和点赞量；

步骤3，依意见领袖值高低排序得到预判的意见领袖群簇P和普通用户群簇Q，作为粒子群的初始扰动场，基于PSOTVCF-Kmeans算法对意见领袖群簇P和普通用户群簇Q进行聚类，具体实现方式如下，

(1)粒子种群初始扰动：首先随机在簇P和簇Q中选取一个初始聚类簇心，然后依据最大距离原则选取剩余的聚类簇心，重复操作n次，产生n个粒子，计算每个初始簇心与所在簇其他节点的距离；

(2)计算n个粒子的适应度值fit，并寻找每个粒子的个体极值pbest和群体极值gbest；

(3)更新粒子的速度与位置；

(4)以更新后的粒子为聚类中心重新聚类，并计算每个粒子的适应度值；

(5)判断当前种群适应度方差Var是否低于某个阈值Thre或者达到最大迭代次数，如果是，则转向(6)；否则转向(3)；

(6)以PSOTVCF算法得到的簇P和簇Q的最佳位置[p_best,q_best]作为初始中心，令 K-means当前迭代次数为t＝0；

(7)对每个数据，分别计算其与当前迭代的簇P和簇Q的簇心C_j1，C_j2的距离，将其加入到最近的聚类中心，计算同一簇群中所有数据的平均值，以此为新的聚类中心；

(8)记录每一次的簇心C_j1，C_j2，若簇心不再变化，或者t≥t_max，或者簇心的fit值小于等于Var，说明算法已收敛，停止当前迭代，记录当前的fit值；反之回到(7)，t+1，重新进行迭代计算。

进一步的，步骤2中意见领袖值的计算公式如下，

I＝w₁*F₁+w₂F₂+w₃F₃ (3.1)

T＝w₄*F₄+w₅F₅+w₆F₆ (3.2)

L＝I+T (3.3)

其中，公式(3.1)为用户影响力计算公式，其中，w₁-w₃代表不同指标的权重，F₁-F₃为用户的粉丝量、原创微博量和是否认证；若已认证，则F₃＝1；公式(3.2)为话题影响力计算公式， w₄-w₆代表不同指标的权重，F₄-F₆代表评论量、转发量和点赞量；公式(3.3)为用户最终的意见领袖值。

进一步的，w₁-W6根据重要性的等级构造判断矩阵，重要等级分为：同等重要、略为重要、比较重要、非常重要、绝对重要，对应标度为1,3,5,7,9，处于相邻重要性判断的中间值用2,4,6,8表示，运用改进的AHP对判断矩阵进行计算得到的各指标权重。

进一步的，(5)中适应度方差Var的计算公式如下；

其中，f_i是指第i代的fit值；f_avg是fit值的平均值。

进一步的，(3)中更新粒子的速度与位置的计算公式如下，

得到系统矩阵：

时变压缩因子计算公式为：

其中，压缩因子χ是一个正实数，ITER为当前进化代数，MAXITER为最大迭代数，C_1N，C_1M，C_2N，C_2M分别为第一、二个加速因子的初始最大和最小值。

与现有技术相比，本发明的优点和有益效果：本文利用时变双重压缩因子粒子群优化算法(Particle Swarm Optimizer with Time Varying Constrict Factor,PSOTVCF)，建立 PSOTVCF-KMeans聚类模型，通过PSOTVCF寻找全局最优解的优势，确定最佳聚类初始簇心，提高K-means算法的聚类效果和效率，并通过实验验证了PSOTVCF-KMeans算法意见领袖群识别的有效性。

附图说明

图1为本发明实施例流程图。

图2为K-means算法200次实验结果。

图3为PSO-Kmeans算法200次实验结果。

图4为PSOTVCF-Kmeans算法200次实验结果。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

1、时变双重压缩因子粒子群算法

粒子群算法(PSO)是由R.C.Eberhart以及J.Kennedy等设计的一种进化算法[1]。由于在解决实际问题中展示了其易实现、精度高、收敛快的特点，很快引起了研发人员的重视。由于PSO容易堕入局部最优，通过改善惯性权重(w)、种群规模(n)和最大速度(v_best)等参数克服这一缺陷，本发明提出了结合时变加速因子的粒子群算法PSOTVCF。该算法运用双重压缩因子：第一个压缩因子C₁用来调节全局和局部搜索，第二压缩因子C₂利用时变加速因子进一步平衡全局和局部最优值对粒子种群升级的影响。

PSOTVCF时变压缩因子计算公式为：

其中，ITER为当前进化代数，MAXITER为最大迭代数，C_1N，C_1M，C_2N，C_2M分别为第一、二个加速因子的初始最大和最小值。

PSOTVCF的速度更新公式可变形为：

得到系统矩阵：

压缩因子χ是一个正实数，PSOCF升级粒子和速度的公式如下：

k为迭代次数，Rand表示随机数，P_i,j表示速度的局部最优值，G表示速度的全局最优值， x_i,j(k)表示粒子i中的第j维在第t次迭代的位置，χ₁和χ₂分别表示第一、二个压缩因子。 χ根据下述公式计算到得：

加速因子取初始值为2.05，所以公式2.10中的压缩因子为常数；公式2.11连续使用第二个加速因子χ₂，与第一个压缩因子得到的速度Vel(k+1)相乘得到V(k+2)；χ₂根据式2.4计算得到的时变加速因子，根据式2.10和2.11计算得出，因为时变的加速因子会根据朝代化数发生变化，所以第二个压缩因子也是时变的。

设循环次数为M，简化的粒子速度为：

2、微博KOL群识别指标分析模型构建

为了比较聚类效果与效率，本文结合指标分析法，提出了基于“用户影响力”和“话题影响力”的KOL指标分析模型。

(1)用户影响力

用户影响力烘托用户的社会影响力和对其他用户在情感和观点上产生影响的可能性。微博平台KOL的用户影响力可用粉丝量(F₁)、原创微博量(F₂)和是否认证(F₃)权衡。F₁越大，用户被关注度高，微博被关注的可能性也越大。F₂既可反应博主活跃度和账号的经营程度，也体现博主在不同话题的沉淀以及自我情感的倾向性和感染力。F₂越多，发言越多，影响力的积累越大。F₃包括“微博个人认证”和“微博官方认证”，影响力辐射至微博各范畴，吸引和影响更多粉丝群体。

(2)话题影响力

话题影响力刻画了用户自身在特定话题上的张力，不同话题有不同意见领袖，针对突发事件，意见领袖大多都有独特或影响力的看法，可带动用户的观点和情感走势。微博意见领袖的话题影响力可通过博文评论量(F₄)、转发量(F₅)和点赞量(F₆)来评估。F₄是某一特定话题博文评论的总和，F₄越大，说明用户的观点引起了更多人讨论；F₅说明用户观点被其他人认同且乐意于做二次分享，表明该舆论以级联方式传播，可产生骨牌效应；F₆能最直观地表达民众对于博主观点的赞同。

本文引用德尔菲法构造判别矩阵，构建基于“用户影响力”和“话题影响力”的意见领袖群识别指标分析体系，确定F₁～F₆这6个指标的权重。根据重要性的等级，因素i的重要性可分为：同等重要、略为重要、比较重要、非常重要、绝对重要，对应标度为1,3,5,7,9，处于相邻重要性判断的中间值用2,4,6,8表示。运用改进的AHP对判断矩阵进行计算得到的各指标权重如表3.1所示。

表3.1微博意见领袖指标权重

I＝w₁*F₁+w₂F₂+w₃F₃ (3.1)

T＝w₄*F₄+w₅F₅+w₆F₆ (3.2)

L＝I+T (3.3)

公式(3.1)为用户影响力计算公式。其中，w₁-w₃代表不同指标的权重，F₁-F₃为用户的粉丝量、原创微博量和是否认证。若已认证，则F₃＝1；公式(3.2)为话题影响力计算公式。w₄-w₆代表不同指标的权重，F₄-F₆代表评论量、转发量和点赞量。公式(3.3)为用户最终的意见领袖值。

3、PSOTVCF-Kmeans算法模型

针对K-means算法因初始簇心选取不确定，易陷入局部最优，且耗费时间长等缺点，本文将时变双重压缩因子粒子群算法运用到聚类前最佳初始簇心的选取中，建立了PSOTVCF-Kmeans算法模型：通过PSOTVCF算法提前找到最优聚类初始簇心，从而防止 K-means算法陷入局部最优的可能性，以提高微博平台KOL群识别的识别效率。算法伪代码如下：

(1)初始化种群，随机选取一个粒子为聚类簇心，依据最大距离原则选取剩余的聚类簇心；重复操作n次，产生n个粒子(每个粒子为一个k×col维向量，k是聚类簇群数，col为数据集中属性的个数)。

(2)依据粒子选取的中心，通过每个粒子的fit值，寻找粒子的个体极值pbest_i和全局最值gbest，以及对应粒子的位置xbest_i和xgbest；fit函数采用聚类指标DBI(Davies-Bouldin) 指数计算公式：

这里k为簇群数，

表示簇类i内数据到簇中心的平均距离，||w_i-w_j||₂表示簇类i与簇类j中心的欧氏距离。

距离公式如下：

C表示聚类中心集合，x_j表示数据集中第j个数据，|C|表示当前聚类数。C_i表示簇i的平均距离，||||₂表示欧氏距离，k为簇群数。

(3)根据公式(2.3)、(2.4)动态调整因子，按照公式(2.5)、(2.6)更新粒子单体所对应的速度与位置。

(4)选取更新后的粒子为聚类中心，对数据集重新聚类，计算每个粒子的fit值。

(5)判断当前种群适应度方差(Var)是否低于阈值(Thre)或是否达到最大迭代次数，如果是，则跳至(6)；否则跳至(3)。

其中，f_i是指第i代的fit值；f_avg是fit值的平均值。

(6)选用PSOTVCF的最佳位置作为初始中心，建立类别矩阵U_n×k，令K-means当前迭代次数t＝0。

(7)按”最近距离原则”重新聚类划分，并按下式更新U_n×k。

(8)如果U_n×k未发生变化，说明聚类中心已经收敛，则结束迭代，否则转向(9)。

(9)根据划分结果计算每个聚类的平均值作为新的聚类中心点，如果存在某个簇类为空，则删除该簇类，同时簇群数量k的值-1。

(10)令当前迭代次数t+1，若t≥t_max，则算法终止，输出聚类划分的结果，并按公式(3.8)计算聚类指标DBI指数；否则跳回至步骤(8)。

其中，

4、基于PSOTVCF-Kmeans算法的意见领袖群识别模型

本文搭建了一种新的微博用户影响力的指标体系，用来完成微博用户的影响力评估。识别意见领袖时，用户被划分为意见领袖和非意见领袖，K-means中的K值为2。根据公式(3.1) 通过指标加权计算出用户节点的影响力I和话题影响力T，I和T值越大，影响力越大，排名越高。将用户群按照排名(即微博KOL群识别指标L)提前平均分为两簇，排名高的一簇被提前预判为意见领袖群簇P，排名低的为普通用户群簇Q。用PSOTVCF在簇P、Q中随机扰动，通过粒子群的速度与位移更新，不断迭代，寻找目标函数的最优解，即为K-means算法的最佳初始簇心。

基于PSOTVCF-KMeans的KOL群识别模型伪代码如下：

(1)粒子种群初始扰动：分别在簇P和簇Q中选取聚类簇心p,q，然后依据最大距离原则选取剩余的聚类簇心，重复操作n次，产生n个粒子，其中每个粒子为2×1维向量，即[p_j,q_j]，计算每个簇心与所在簇其他节点x_i的距离dis(x_i,p_j)，dis(x_i,q_j)。

(2)根据公式(3.9)计算n个粒子的适应度值，寻找每个粒子的个体极值pbest和群体极值gbest，适应度函数采用聚类指标DBI指数；

(3)根据公式(2.3)、(2.4)动态调整因子，按照公式(2.5)、(2.6)更新粒子的速度与位置。

(4)以更新后的粒子为聚类中心重新聚类，计算每个粒子的适应度值。

(5)判断当前种群适应度方差Var是否低于某个阈值Thre或者达到最大迭代次数，如果是，则转向(6)；否则转向(3)。

(6)以PSOTVCF算法得到的簇P和簇Q的最佳位置[p_best,q_best]作为初始中心，令当前迭代次数为t＝0；

(7)对数据集的每个数据，计算其与当前迭代的簇P和簇Q的簇心C_j1，C_j2的距离，将其加入到最近的聚类中心，计算同一簇群中所有数据的平均值，以此为新的聚类中心。

(8)记录每一次的簇心C_j1，C_j2，若簇心不再变化，或者判断是否t≥t_max，或者判断簇心的fit值是否小于等于Var，说明算法已收敛，停止当前迭代，记录当前的DBI值，反之回到(7)，t+1，重新进行迭代计算。

本文基于新浪微博开放API，以“某话题”作为话题关键词，通过Python Scrapy爬取2020 年5月17日—5月19日的话题相关博文数据，共收集微博12249条。用正则表达式处理后的量化数据包括博文的转发数、评论数和点赞数，以及用户基础信息：粉丝数、认证信息和原创微博数。首先用excel对量化后的“用户影响力”与“话题影响力”的数据根据公式3.1-3.3计算意见领袖值，依意见领袖值高低排序得到预判的意见领袖群簇P和普通用户群簇Q，作为粒子群的初始扰动场，用Python Jupiter Lab对数据进行扰动，再根据模型展开数值实验。

实验中，PSOTVCF的参数为：第一个压缩因子为常量，C₁＝2.6，C₂＝1.2；第二个压缩因子呈时变状态，C_1N＝2.88，C_1M＝2.68，C_2N＝1.45，C_2M＝1.25。测试环境：硬件Intel Corei5，软件Jupiter Lab开发工具(Python 3.7)。

3.2实验结果与分析

本文对KOL群识别的对比方法，通过DBI指标和聚类时间对比PSOTVCF-KMeans、PSO-Kmeans和标准K-means的聚类效果，以验证PSOTVCF-KMeans算法的有效性。由于PSO 是随机算法，本实验对每种算法共进行200次数值试验，统计最优值、最差值和平均值作为最终的对比数据。实验结果如图2～4及表4.1、4.2所示。图中横坐标表示试验次数，纵坐标表示每次试验所测得聚类结果的DBI值。

表4.1三种算法的DBI数据

表4.2三种算法的聚类时间

由图2～4和表4.1所示，对于DBI，Kmeans算法最大，PSOTVCF-KMeans最小，说明PSOTVCF-KMeans的聚类效果最佳，其原因在于：PSOTVCF的双重压缩因子使粒子初期和后期的搜索范围更大，找到的全局最优解质量更高，获得更优质的初始聚类簇心。表4.2说明，在聚类时间上，PSOTVCF所消耗的时间比PSOK-means和K-means更短，这是因为良好的初始簇心使聚类过程中达到阈值的速度更快。

综上，PSOTVCF-Kmeans算法由于其自身双重压缩因子对粒子速度的调节，提高了初始聚类簇心的优越性，增强了KOL群识别的聚类效果，缩短了KOL群识别的聚类时间，从而KOL 群识别聚类模型的效率。

本文中所描述的具体实施例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法，其特征在于，包括如下步骤：

(3)更新粒子的速度与位置；

(6)以PSOTVCF算法得到的簇P和簇Q的最佳位置[p_best,q_best]作为初始中心，令K-means当前迭代次数为t＝0；

2.如权利要求1所述的一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法，其特征在于：步骤2中意见领袖值的计算公式如下，

I＝w₁*F₁+w₂F₂+w₃F₃ (3.1)

T＝w₄*F₄+w₅F₅+w₆F₆ (3.2)

L＝I+T (3.3)

其中，公式(3.1)为用户影响力计算公式，其中，w₁-w₃代表不同指标的权重，F₁-F₃为用户的粉丝量、原创微博量和是否认证；若已认证，则F₃＝1；公式(3.2)为话题影响力计算公式，w₄-w₆代表不同指标的权重，F₄-F₆代表评论量、转发量和点赞量；公式(3.3)为用户最终的意见领袖值。

3.如权利要求2所述的一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法，其特征在于：w₁-W₆根据重要性的等级构造判断矩阵，重要等级分为：同等重要、略为重要、比较重要、非常重要、绝对重要，对应标度为1,3,5,7,9，处于相邻重要性判断的中间值用2,4,6,8表示，运用改进的AHP对判断矩阵进行计算得到的各指标权重。

4.如权利要求1所述的一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法，其特征在于：(5)中适应度方差Var的计算公式如下；

其中，f_i是指第i代的fit值；f_avg是fit值的平均值。

5.如权利要求1所述的一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法，其特征在于：(3)中更新粒子的速度与位置的计算公式如下，

得到系统矩阵：

时变压缩因子计算公式为：