CN115687429A

CN115687429A - 一种社交媒体用户行为模式挖掘方法

Info

Publication number: CN115687429A
Application number: CN202110836896.7A
Authority: CN
Inventors: 韩雪华; 王卷乐
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-02-03

Abstract

本发明公开的属于地理信息系统技术领域，具体为一种社交媒体用户行为模式挖掘方法，该社交媒体用户行为模式挖掘方法的具体步骤流程图如下：S1：集成时空语义的用户行为轨迹相似度量方法：将用户行为轨迹相似度分解到时间、空间和语义等维度上，分布计算用户轨迹的时间相似度、空间相似度、语义相似度，加权集成得到最终的TGS相似度，以平衡用户行为轨迹的多维度特征，本发明实现了集成时间、空间和语义要素的用户行为轨迹相似度量方法，基于谱聚类方法进行轨迹聚类，根据用户之间语义话题的相似程度、邻近的空间位置和所处时间阶段的远近等特征进行聚类，找出具有相似行为变化的用户群体。

Description

一种社交媒体用户行为模式挖掘方法

技术领域

本发明涉及地理信息系统技术领域，具体为一种社交媒体用户行为模式挖掘方法。

背景技术

社交媒体用户行为轨迹属于语义轨迹的一种，语义轨迹在时空轨迹的基础上标注语义信息以实现时间-空间-语义信息的结合表达，语义轨迹挖掘是利用数据挖掘方法从海量语义轨迹中挖掘有价值的知识和潜在模式，揭示时空场景下个体/群体移动对象的活动行为的规律，语义轨迹挖掘不仅需要考虑时间和空间属性，还需要考虑轨迹中的语义信息。

轨迹相似度度量是语义轨迹挖掘的核心问题，传统的时空轨迹挖掘研究已经相对成熟，其相似度度量主要以动态时间规整(DTW)、编辑距离(EDR)、最长公共子序列(LCSS)等方法为主，这些方法无法顾及语义信息。在语义轨迹挖掘方面，多数学者从时间、空间、语义间的逻辑关系出发设计语义轨迹相似度度量方法。例如基于停留时间的语义行为模式相似性度量、结合时- 空-语义等属性相似度的多维语义轨迹的全局相似度、将语义轨迹转换为地理空间中的折线线段序列、结合城市、时间、天气等语义信息的多维语义轨迹的相似性度量方法。而社交媒体数据作为新兴的数据源，其各种维度之间存在异构、复杂的关系，传统的分析方法不能很好的集成这种多维度特征，现阶段将社交媒体数据的时间-空间-语义等维度进行融合挖掘分析的研究还较少。

目前大多数研究更侧重于挖掘数据中蕴含的某种行为规律，即选取某一个行为指标(如发文频率、话题观点、情感情绪、传播行为等)，从时间、空间、语义等一种或两种维度分别进行分析，例如话题数量统计分析、话题的时间序列分析、话题的空间特征等。并且网络空间中的公众行为是随着事件的发展而不断演化的，如何利用社交媒体平台了解公众行为的动力学行为，即社交媒体用户行为可划分为哪几种类别且其如何随时间演化，现有动态性方面的研究主要是针对公众发文数量随时间的变化、民众话题的监测和演变分析等，缺乏能够将网络空间的认知与地理空间的认识有机结合的模型、工具和方法。缺少这种方法，就只能得到静态的、片断化的舆情分布，而难以对舆情话题本身的客观转移过程、时空规律进行动态、可视化的关联分析，从而难以寻找驱动舆情转换的机制和关键节点。因此，迫切需要对公众行为动态演化进行语义、时间、地理空间等全方位的挖掘与分析。

发明内容

本发明的目的在于提供一种社交媒体用户行为模式挖掘方法，以解决上述背景技术中提出的现有动态性方面的研究主要是针对公众发文数量随时间的变化、民众话题的监测和演变分析等，缺乏能够将网络空间的认知与地理空间的认识有机结合的模型、工具和方法的问题。

为实现上述目的，本发明提供如下技术方案：一种社交媒体用户行为模式挖掘方法，该社交媒体用户行为模式挖掘方法的具体步骤流程图如下：

S1：集成时空语义的用户行为轨迹相似度量方法：将用户行为轨迹相似度分解到时间、空间和语义等维度上，分布计算用户轨迹的时间相似度、空间相似度、语义相似度，加权集成得到最终的TGS相似度，以平衡用户行为轨迹的多维度特征；

S2：社交媒体用户行为轨迹聚类：在用户行为轨迹相似度的基础上，将谱聚类算法应用到用户行为轨迹数据集中得到轨迹聚类结果，发现具有相似行为模式的社交媒体用户轨迹集合；

S3：社交媒体用户行为频繁模式挖掘：在用户行为轨迹聚类的基础上，基于PrefixSpan算法提取每一个用户轨迹集合的频繁语义行为模式和对应用户群体，并分析其时空分布特征。

与现有技术相比，本发明的有益效果是：

本发明实现了集成时间、空间和语义要素的用户行为轨迹相似度量方法，基于谱聚类方法进行轨迹聚类，根据用户之间语义话题的相似程度、邻近的空间位置和所处时间阶段的远近等特征进行聚类，找出具有相似行为变化的用户群体，基于PrefixSpan算法从轨迹聚类结果中挖掘用户的频繁话题序列模式，并分析各个语义模式的时空分布特征，实验验证结果显示，TGS相似度具有较高的轮廓系数，较低的DBI指数，其取得的聚类效果优于时空相似度和单一语义相似度的聚类效果，证明了本文提出的用户行为模式挖掘框架的适用性，可以为挖掘社交媒体用户的行为变化模式提供新的方法框架。

附图说明

图1为本发明的挖掘方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

请参阅图1，本发明提供一种技术方案：一种社交媒体用户行为模式挖掘方法，该社交媒体用户行为模式挖掘方法的具体步骤流程图如下：

实施例：

S1：集成时空语义等多要素的轨迹相似度度量，定义时间-空间-语义轨迹，提取每条行为中的轨迹点，分别计算点与点之间的时间相似度、语义相似度和空间相似度，基于轨迹立方体中时空语义间的关系进行加权求和，得到最终的轨迹相似度；

本实施例中，S1包括如下步骤：

S11：假设一个用户u在位置g_i和话题s_i的停留时间p_i＝(t_i，t_i+1)，其中 g_i∈G_u，s_i∈S_u，t_i∈T_u且i+1≤n，t_i代表用户产生话题s_i的时刻，t_i+1为用户u 离开话题s_i的时刻，在空间信息和语义信息的基础上增加停留时间，形成时空语义轨迹；

一个用户u的时空语义轨迹由一组有序的轨迹点构成 TGS_u＝{tgs₁，tgs₂，…，tgs_i，…，tgs_n}，每个轨迹点可表示为tg_i＝(s_i，g_i，tin_i，tout_i)，其中s_i代表用户的话题代码，g_i代表用户行为轨迹中的停留位置的空间索引值，tin_i是用户移动到g_i位置产生话题s_i的时间，tout_i是用户位置和话题变化的时间，tout_i-tin_i代表用户在某一位置或某一话题的停留时间，n代表轨迹点的个数；

S12：给定两个用户A和B的时间-空间-语义轨迹分别为TAS_A＝{a₁，a₂，…，a_m}和TGS_B＝{b₁，b₂，…，b_n}，相似度计算方式如下：

时间相似度：设任意轨迹点a∈TGS_A，轨迹点b∈TGS_B，则定义a，b之间的时间距离函数如下：

设dist(T₁，t₂)表示|t₁-t₂|，两个轨迹点的时间距离计算公式如式1：

给定时间距离阈值θ_t，当tdis(a，b)＜θ_t时，认为a和b在时间上是相似的，则两者之间的时间相似度tsim(a，b)＝1，否则，tsim(a，b)＝0。相应转换公式如下公式2：

分别计算TGS_A和TGS_B轨迹中的每个点之间的时间相似度，生成一个m×n 的时间相似度矩阵，如公式3：

S13：空间相似度，设任意轨迹点a∈TGS_A，轨迹点b∈TGS_B，则定义a，b 之间的空间距离计算公式如式4：

给定空间距离阈值θ_g，当gdis(a，b)＜θ_g时，认为a和b在空间上是相似的，则两者之间的空间相似度gsim(a，b)＝1，否则，gsim(a，b)＝0，相应转换公式如公式5：

分别计算TGS_A和TGS_B轨迹中的每个点之间的空间相似度，生成一个m×n 的空间相似度矩阵，如公式6所示；

S14：语义相似度，设任意轨迹点a∈TGS_A，轨迹点b∈TGS_B，则定义a，b 之间的语义相似度计算公式如式7：

分别计算TGS_A和TGS_B轨迹中的每个点之间的语义相似度，生成一个m×n 的语义相似度矩阵，如公式8：

S15：相似度融合，将时间、语义、空间相似度加权求和，得到TGS_A和TGS_B两条轨迹的相似度矩阵TGS_m×n，如公式4.9所示，α、β、γ、δ等权重在0到1 之间，权重和为1，如公式9所示；

基于动态规划(Dynamic Programming，DP)的思想，计算相似度矩阵TGS_m×n的最大路径和的均值作为最终的轨迹TGS_A和TGS_A的相似度值，定义最大路径和s，s(i，j)表示从左上角到坐标为(i，j)元素的最大路径和，计算方法如公式10 所示；

根据公式4.11，得到相似度矩阵TGS_m×n中从左上角到右下角的最大路径和s(m-1，n-1)的均值作为轨迹TGS_A和TGS_A的相似度值，如公式11所示；

处理用户行为轨迹数据集中的所有轨迹，分别得到用户行为轨迹的时间相似度矩阵、空间相似度矩阵、语义相似度矩阵，将其加权求和得到最终的用户行为轨迹的相似度矩阵TGS；

S2：基于TGS相似度的用户行为轨迹聚类，在集成时空语义的用户行为轨迹相似度矩阵的基础上，使用谱聚类算法对社交媒体用户轨迹数据进行处理，根据用户之间相似的语义变化、邻近的空间位置等特征进行聚类，找出具有相似行为变化的用户群体，主要使用python机器学习包Scikit-learn 中的Spectral clustering聚类模块[]实现用户行为轨迹的谱聚类算法，算法过程如下：

输入：社交媒体用户行为轨迹数据集R

输出：每条轨迹的聚类类别

①基于停留时间p_i＝(t_i，t_i+1)的思想，对原始行为轨迹数据集R进行预处理，得到时空语义轨迹数据集TGS，每条轨迹由一组有序的四元组构成 {(s₁，g₁，tin₁，tout₁)，…，(s_i，g_i，tin_i，tout_i)…，(s_n，g_n，tin_n，tout_n)}，n为轨迹长度；

②构建时空语义相似度矩阵(TGS)；

③For轨迹TGS_i与TGS_j相邻：

a.根据公式1-8，计算时间相似度tsim(TGS_i，TGS_j)、空间相似度 gsim(TGS_i，TGS_j)和语义相似度ssim(TGS_i，TGS_j)；

b.根据公式9和11，计算轨迹TGS_i与TGS_j的相似度Sim(TGS_A，TGS_A)；

c.令TGS_ij＝Sim(TGS_A，TGS_A)；

④For循环遍历整个数据集，得到最终的相似度矩阵TGS；

⑤将相似度矩阵TGS输入sklearn.cluster中的SpectralClustering()，对聚类数量(n_clusters)进行调参，基于Davies-Bouldin指数(DBI)和平均轮廓系数等指标选择合适的参数值；

⑥输出聚类结果；

S3：用户行为频繁模式挖掘，在社交媒体用户行为轨迹聚类结果的基础上，基于PrefixSpan算法挖掘每个聚类中频繁出现的社交媒体用户行为话题序列模式，并结合聚类结果，分析各个语义模式的时空分布特征，本研究主要使用python中的PrefixSpan库[]实现用户频繁语义模式的挖掘，算法流程如下：

输入：话题序列数据集ST和支持度阈值α

输出：所有满足支持度要求的频繁序列集

①设置初始值i＝1；

②遍历话题序列数据库，找出所有长度为1的前缀和对应的投影数据库；

③计算所有长度为1的前缀的支出度，若支持度低于最小支持度α，则将该前缀相应的项从话题序列数据集ST中删除，若支持度大于阈值α，则保留，最终获取所有长度为1的频繁序列集；

④对于每个长度为i满足支持度要求的前缀进行递归挖掘，直到不满足最小支持度或投影数据库为空：

a找出前缀所对应的投影数据库。如果投影数据库为空，则递归返回；

b统计对应投影数据库中各项的支持度计数，如果所有项的支持度值都低于阈值，则递归返回；

c将满足支持度计数的各个单项和当前的前缀进行合并，得到若干新的前缀；

d令i＝i+1，前缀为合并单项后的各个前缀，分别递归执行第4步；

⑤输出满足支持度的频繁话题序列；

S4：结果评估，选择适用于没有参考标签情况下的Davies-Bouldin Index (DBI)和Silhouette轮廓系数作为评估指标，轮廓系数是判断类间距离与类内距离的相对大小，其值越大越好，DBI指数计算所有簇的类内距离和类间距离的比值，该比值越小越好，以DBI指数和轮廓系数作为聚类效果的评估指标，通过对比语义相似度、时空相似度和TGS相似度的聚类效果来验证TGS 相似度度量方法的有效性，由于谱聚类算法需要提前指定聚类个数，通过绘制轮廓系数与聚类个数的折线图评估聚类结果的优劣并确定最优聚类个数。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种社交媒体用户行为模式挖掘方法，其特征在于，该社交媒体用户行为模式挖掘方法的具体步骤流程图如下：