CN110889434B

CN110889434B - 一种基于活动的社交网络活动特征提取方法

Info

Publication number: CN110889434B
Application number: CN201911037941.1A
Authority: CN
Inventors: 张三峰; 殷悦迪; 江咏涵
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-04-21
Anticipated expiration: 2039-10-29
Also published as: CN110889434A

Abstract

本发明公开了一种基于活动的社交网络活动特征提取方法，该方法内容包括：1、构建用户的社交关系图，采用图嵌入算法将其向量化，提取用户社交网络特征；2、对活动发生的经纬度及进行聚类，划分成不同的区域，提取地理位置特征；3、对活动时间按照用户习惯划分时间段，利提取活动时间特征；4、对用户和活动的语义因素采用潜在语义分析算法生成活动和用户偏好的语义向量，提取社交语义特征；5、对上述四个特征向量进行处理和拼接，获取用户和社交活动的特征表示向量。本发明在对属性做尽量少的运算处理相关特征的基础上，提取了用户和社交特征，作为后续训练神经网络的输入，从而降低活动社交网络推荐问题对研究者经验知识的依赖。

Description

一种基于活动的社交网络活动特征提取方法

技术领域

本发明涉及属于基于活动的社交网络的技术领域，尤其涉及一种基于活动的社交网络中的社交活动特征提取方法。

背景技术

基于活动的社交网络是一种将用户线上虚拟社交关系与线下实际面对面沟通相结合的新型社交网络。用户在线上组成兴趣小组，组内成员可以在线上沟通交流，发布活动通知，同时用户可以在预定的时间、地点实际地参加小组发起的线下社交活动，同组内成员面对面的交流沟通，基于活动的社交网络实现了现实世界和网络虚拟世界的有效结合。

目前基于活动的社交网络研究的内容主要包括以下几个方面：社区检测、推荐问题、用户行为预测、种子用户挖掘和活动安排策略。

随着基于活动的社交网络中数据量的急剧膨胀，用户从海量数据中检索出感兴趣的内容变得费力。因为基于活动的社交网络是一个复杂的异构网络，网络中包含多种节点以及多样的链接关系，包括用户、小组、活动、兴趣标签等，每个节点又拥有丰富的属性信息，例如活动节点的举办时间、举办地点、需要的经费、人数限制等，而且其中的推荐问题也十分多样，包括向用户推荐小组，向用户推荐活动、向小组推荐标签等。同时，基于活动的社交网络的推荐问题和传统社交网络不同：由于每个活动都是崭新的内容，缺乏历史评价信息和参与记录，其推荐算法面临更严重的“冷启动”问题。因而传统的推荐技术并不适用于社交活动的推荐，需要研究基于活动的社交网络的推荐问题，提升用户的效率。

现有的基于活动的社交网络下的推荐主要有基于多特征融合的社交活动推荐算法、基于图模型的社交活动推荐算法和其他社交活动推荐算法。其解决方案主要分两种，第一种是通过复杂的公式对影响活动推荐效果的各个因素，包括社交因素、时间因素等做加权计算，得到用户对待推荐活动的评分，向用户推荐评分较高的社交活动；第二种是采用图模型的算法获取用户参加待推荐活动的概率，以概率作为推荐的依据。

现有的社交活动推荐算法的特征选取很大程度上依赖于研究人员的经验，第一种方案的推荐效果取决于影响因素的计算，而影响因素的选取和计算方式因研究者的经验不同而存在差异，且各有各的道理；第二种方案图中实体间的权值设定没有统一的规范性方法，每位研究人员看待问题的角度不同，权值的设定也相差甚大，因而即使采用相同的图模型思想，推荐结果也因图中实体间权重不同而异。由此可见，特征的建模将很大程度上决定推荐的效果，手工选取特征是一件非常费力、需要专业知识的方法，选取的特征能否有效提升算法效果很大程度上依靠经验和运气，无法保证最优的推荐效果。

发明内容

本发明提出一种基于深度学习的社交活动推荐的特征提取方法，在对属性做尽量少的运算处理相关特征的基础上，提取出后续输入神经网络的用户特征和社交活动，减少人为经验的影响，有利于提高后续深度学习选取出对推荐贡献最大的特征。

本发明具体采用以下技术方案解决上述技术问题：

一种基于深度学习的社交活动推荐的特征提取方法，包括以下步骤：

步骤1、根据活动的举行的经纬度，计算活动间的球面距离，采用DBSCAN算法将这些活动聚类为|R|个簇，分别为R＝{r₁，r₂，...，r_|R|}。每个活动的地理位置将属于一个区域。采用one-hot编码的方式处理，将地理信息映射为|R|维的向量，作为活动地理位置特征。

步骤2、构建用户的社交关系图G＝(V，E)，其中，V表示网络中用户节点的集合，E表示用户之间连边的集合。计算用户u和用户v的之间的权重Weight(u，v)。基于上述社交关系图，采用图嵌入算法DeepWalk，用低维、稠密向量去表示图中节点，获得每个用户节点u的社交向量social_u，作为用户的社交特征；该向量表示能反映图的结构以及节点之间的关系，两个节点共享的邻居节点越多，即两个节点的上下文越相似，两个节点对应的特征向量距离越近。

所述步骤2中图嵌入算法包括两个部分，第一个部分是随机游走过程生成游走序列；第二个部分是基于游走序列更新节点的向量表示。

步骤3、将时间特征向量按周划分，一周7天，每天分为3个时间段，将用户参加活动的时间分为21个阶段。基于时间段的划分策略，采用one-hot编码的方式生成活动的时间向量，作为活动时间特征。

步骤4、对于用户u和待推荐的活动e，将用户u的语义文本以及活动e的语义文本放到同一语义空间中，采用潜在语义分析(Latent Semantic Analysis，LSA)模型进行语义文本分析，得到活动e的主题语义向量semantic_e和用户u的主题语义向量semantic_u，作为语义特征。语义向量提取的流程具体为：首先，需要将用户u和待推荐的活动e语义文本进行去除停用词处理，然后对两个文本中所有词汇建立索引id，生成词汇-文档矩阵，矩阵中的每一行代表一个词汇，每一列代表一篇文档，矩阵中的元素表征对应词汇在该文本中出现的次数，对词-文档矩阵进行矩阵分解，计算得到两个文本的语义向量。

步骤5、提取社交活动的地理位置、社交、时间和语义特征向量，进行处理和拼接，获取社交活动的特征向量；然后，根据用户的历史参加社交活动记录，提取用户的地理位置、社交、时间以及语义特征向量，进行处理和拼接，获取用户的特征向量。

本发明的进一步改进在于：所述步骤1中计算活动e_i和e_j地理位置之间的球面距离采用公式：

dist(e_i，e_j)_sd＝Radius*arccos(param₁+param₂)

其中，Radius为地球半径，参数param₁和param₂计算采用公式：

其中，lat_e和lon_e表示活动e的地理位置坐标的经纬度。

本发明进一步改进在于：所述步骤2中计算用户u和用户v的之间的权重Weight(u，v)采用公式：

该向量表示能反映图的结构以及节点之间的关系，两个节点共享的邻居节点越多，即两个节点的上下文越相似，两个节点对应的特征向量距离越近。

图嵌入算法包括两个部分，第一个部分是随机游走过程生成游走序列；第二个部分是基于游走序列更新节点的向量表示。

首先在网络中随机选择节点v_i作为起始节点，在节点v_i的邻居节点中随机选择一个节点v_j作为序列的下一个节点，再以v_j开始重复这一随机过程，直到序列达到指定长度。通过随机游走得到的节点游走序列可以反映网络中节点之间的关系，且当网络中有新的节点加入时，只需要以新节点为起点生成游走序列；且随机游走过程中每个游走序列的生成互不依赖，因而有较好得而并行性，多个游走序列可同时生成。

然后采取Skip-Gram算法更新节点的向量表示。将网络中的节点看作是单词，那么游走序列即为这些单词构成的句子。Skip-Gram算法的思想是，输入序列中的某个节点v_j，目标是最大化序列中在该节点左右w窗口大小(i-w，i+w)中出现的节点的出现概率，采用优化目标函数：

minimizeJ(Φ)＝logPr({v_i-w，...，v_i-1，v_i+1，...，v_i+w}|Φ(v_j))

其中，Φ表示节点的向量表示矩阵，更采用随机梯度下降的方法如式，优化目标函数，更新节点的向量表示，最终可获得每个用户节点u的向量表示作为该用户的社交向量social_u。

本发明进一步改进在于：所述步骤3中用户参加活动的时间划分的阶段为：

本发明进一步改进在于：所述步骤5中处理和拼接用户特征向量方法，具体为：

采用步骤2和步骤4的方法提取用户的社交特征向量U_social和语义特征向量U_semantic；

对于用户时间特征向量，当该用户历史参加活动集合不为空，对用户过去参与过的活动的时间向量计算均值得到用户的时间偏好因素u_time：

其中，E_u为用户历史参加的活动的集合，且e_i∈E_u，

是历史活动集合中活动的时间。

当用户不存在历史参加活动记录时，将下式向量作为用户的时间因素向量，向量的维度与社交活动的时间向量维度相同；

U_time′＝[1 1 ... 1]

对于地理位置因素，当用户历史参加活动集合不为空，将对用户过去参与过的活动地理位置向量取均值得到用户的地理位置向量U_location：

其中，E_u为用户历史参加的活动的集合，且e_i∈E_u，

表示集合E_u中活动的地理位置向量；

当用户不存在历史参加活动记录时，将用户家庭住址经纬度所在的地理位置区域对应的one-hot编码向量作为用户的地理位置向量：

U_location′＝[0 ...1... 0]_home

将四个向量横向拼接，作为用户特征向量U：

U＝[u_social，u_semantic，u_time，u_location]。

本发明的进一步改进在于：所述步骤5中获取社交活动特征向量方法，具体为：

采用步骤4的方法提取活动的语义特征向量e_semantic，采取步骤1和步骤3的方法提取活动的地理特征向量e_location和时间特征向量e_time。

对于活动e，将活动组织者的社交向量作为该活动的社交因素，当活动存在多个组织者时，则对多个组织者的社交向量取均值作为活动的社交因素：

其中，H_e为活动的组织者集合，且h_i∈H_e，

将四个向量横向拼接，作为社交活动特征向量：

E＝[e_social，e_semantic，e_time，e_location]。

本发明提出的一种基于深度学习的社交活动推荐的特征提取方法，通过将活动举办的地点划分为不同区域，提取地理位置特征；构建用户社交关系图，提取社交特征；将参加活动的时间分段，提取时间特征；对用户和活动的语义文本进行语义分析，提取语义特征；最后对上述特征进行处理和拼接，提取社交活动和用户的特征向量。

本发明的有益效果是：为基于神经网络的社交活动网络中的推荐的特征提取问题提供了解决方案。该方法在提取相关特征上做了尽量少的运算，避免过多依赖研究者的经验和知识，减少人工劳动力和时间花费。同时，能够更加客观的获取特征，投入后续的深度学习。

具体实施方式

下面对本发明的实施方式进行描述。

本实施例的一种基于深度学习的社交活动推荐的特征提取方法，该方法具体包括以下步骤：

步骤1、根据活动的举行的经纬度，计算活动间的球面距离，采用DBSCAN算法将这些活动聚类为|R|个簇，分别为R＝{r₁，r₂，...，r_|R|}。

每个活动的地理位置将属于一个区域。采用one-hot编码的方式处理，将地理信息映射为|R|维的向量，作为活动地理位置特征。

具体地，令lat_e和lon_e表示活动e的地理位置坐标的经纬度，使用球面距离度量活动e_i和e_j地理位置之间的距离，并采用DBSCAN算法将这些坐标点聚类为|R|个簇，分别为R＝{r₁，r₂，...，r_|R|}，每个簇对应一个区域。

聚类效果取决于算法的输入参数，即在邻域内成为核心对象的最小邻域点数MinPts以及邻域半径Eps本发明通过轮廓系数评估聚类效果，轮廓系数越大，聚类效果越好。对于每个样本，记dist_same表示该样本与其同类别的其他样本之间的平均距离，dist_dif表示该样本与其聚类最近不同类别中样本的平均距离，则轮廓系数sc为：

本发明针对一个城市的社交活动地理位置数据，采用网格搜索算法选取两个参数，在聚类后输出聚类结果对应的轮廓系数以及聚类后的簇的数目，从而根据轮廓系数大小设定给定点在邻域内成为核心对象的最小邻域点数MinPts以及邻域半径Eps。

在聚类过程结束后，每个活动的地理位置将属于一个区域。活动地理位置特征采用one-hot编码的方式处理，将地理信息映射为|R|维的向量，则活动e的地理位置信息表示为：

location_e＝[…010…]_1*|R|

步骤2、构建用户的社交关系图G＝(V，E)，其中，V表示网络中用户节点的集合，E表示用户之间连边的集合。计算用户u和用户v的之间的权重Weight(u，v)。基于上述社交关系图，采用图嵌入算法DeepWalk，用低维、稠密向量去表示图中节点，获得每个用户节点u的社交向量social_u，作为用户的社交特征。

min imizeJ(Φ)＝log Pr({v_i-w，…，v_i-1，v_i+1，…，v_i+w}|Φ(v_j))

步骤3、将时间特征向量按周划分，一周7天，每天分为3个时间段，将用户参加活动的时间分为21个阶段。基于时间段的划分策略，采用one-hot编码的方式生成活动的时间向量，作为活动时间特征。例如用户在周六的15：00-21：59和周日的7：00-14：59参加活动，则特征向量为：

time_e＝[0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1，0，1，0，0]

步骤4、对于用户u和待推荐的活动e，将用户u的语义文本以及活动e的语义文本放到同一语义空间中，采用潜在语义分析(Latent Semantic Analysis，LSA)模型进行语义文本分析，得到活动e的主题语义向量semantic_e和用户u的主题语义向量semantic_u，作为语义特征。

语义向量提取的流程具体为：首先，需要将用户u和待推荐的活动e语义文本进行去除停用词处理，然后对两个文本中所有词汇建立索引id，生成词汇-文档矩阵，矩阵中的每一行代表一个词汇，每一列代表一篇文档，矩阵中的元素表征对应词汇在该文本中出现的次数，对词-文档矩阵进行矩阵分解，计算得到两个文本的语义向量。

首先提取用户特征向量。

采用步骤2和步骤4的方法提取用户的社交特征向量u_social和语义特征向量u_semantic。

其中，E_u为用户历史参加的活动的集合，且e_i∈E_u，

是历史活动集合中活动的时间。

当用户不存在历史参加活动记录时，将下式向量作为用户的时间因素向量，向量的维度与社交活动的时间向量维度相同。

u_time′＝[1 1 ... 1]

其中，E_u为用户历史参加的活动的集合，且e_i∈E_u，

表示集合E_u中活动的地理位置向量。

u_location′＝[0 …1… 0]_home

将四个向量横向拼接，作为用户特征向量U：

U＝[u_social，u_semantic，u_time，u_location]

然后提取社交活动向量。

其中，H_e为活动的组织者集合，且h_i∈H_e，

将四个向量横向拼接，作为社交活动特征向量：

E＝[e_social，e_semantic，e_time，e_location]。

提取后，便可以将用户特征和社交活动特征输入神经网络学习得到推荐时需要的特征。

综上，本发明提出的基于深度学习的社交活动推荐的特征提取方法为基于深度学习的社交活动网络中的推荐的特征提取问题提供了解决方案。该方法在提取相关特征上做了尽量少的运算，通过聚类提取地理位置特征，分段提取时间特征，构建社交关系图提取社交特征，采用潜在语义分析提取语义特征，保证尽量少的相关特征的提取运算，避免过多依赖研究者的经验和知识，保证了客观的特征提取。

上文对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于活动的社交网络活动特征提取方法，其特征在于，包括以下步骤：

步骤1、根据活动的举行的经纬度，计算活动间的球面距离，采用DBSCAN算法将这些活动聚类为|R|个簇，分别为R＝{r₁,r₂,…,r_|R|}；每个活动的地理位置将属于一个区域；采用one-hot编码的方式处理，将上述地理信息映射为|R|维的向量,作为活动地理位置特征；

步骤2、构建用户的社交关系图G＝(V,E)，其中，V表示网络中用户节点的集合，E表示用户之间连边的集合；计算用户u和用户v的之间的权重Weight(u,v)；基于上述社交关系图,采用图嵌入算法DeepWalk，用低维、稠密向量去表示图中节点，获得每个用户节点u的社交向量social_u，作为用户的社交网络特征；

步骤3、将时间特征向量按周划分，一周7天，每天分为3个时间段，将用户参加活动的时间分为21个阶段；基于时间段的划分策略，采用one-hot编码的方式生成活动的时间向量，作为社交活动时间特征；

步骤4、对于用户u和待推荐的活动e，将用户u的语义文本以及活动e的语义文本放到同一语义空间中，采用潜在语义分析(Latent Semantic Analysis，LSA)模型进行语义文本分析，得到活动e的主题语义向量semantic_e和用户u的主题语义向量semantic_u，作为社交语义特征；

步骤5、提取社交活动的地理位置、社交、时间和语义特征向量，进行处理和拼接，获取社交活动的特征向量；然后根据用户的历史参加社交活动记录，提取用户的地理位置、社交、时间以及语义特征向量，进行处理和拼接，获取用户的特征向量。

2.根据权利要求1所述基于活动的社交网络活动特征提取方法，其特征在于：所述步骤1中计算活动e_i和e_j地理位置之间的球面距离采用公式：

dist(e_i,e_j)_sd＝Radius*arccos(param₁+param₂)

其中，Radius为地球半径，参数param₁和param₂计算采用公式：

其中，lat_e和lon_e表示活动e的地理位置坐标的经纬度。

3.根据权利要求1所述基于活动的社交网络活动特征提取方法，其特征在于：所述步骤2中计算用户u和用户v的之间的权重Weight(u,v)采用公式：

图嵌入算法首先在网络中随机选择节点v_i作为起始节点，在节点v_i的邻居节点中随机选择一个节点v_j作为序列的下一个节点，再以v_j开始重复这一随机过程，直到序列达到指定长度；然后采取Skip-Gram算法更新节点的向量表示；将网络中的节点看作是单词，那么游走序列即为这些单词构成的句子；Skip-Gram算法的思想是输入序列中的某个节点v_j，目标是最大化序列中在该节点左右w窗口大小(i-w,i+w)中出现的节点的出现概率，采用优化目标函数：

minimizeJ(Φ)＝logPr({v_i-w,…,v_i-1,v_i+1,…,v_i+w}|Φ(v_j))

4.根据权利要求1所述基于活动的社交网络活动特征提取方法，其特征在于：

所述步骤3中用户参加活动的时间划分的阶段为：

5.根据权利要求1所述基于活动的社交网络活动特征提取方法，其特征在于：所述步骤4中语义向量提取的流程具体为：首先，需要将用户u和待推荐的活动e语义文本进行去除停用词处理，然后对两个文本中所有词汇建立索引id，生成词汇-文档矩阵，矩阵中的每一行代表一个词汇，每一列代表一篇文档，矩阵中的元素表征对应词汇在该文本中出现的次数，对词汇-文档矩阵进行矩阵分解，计算得到两个文本的语义向量。

6.根据权利要求1所述基于活动的社交网络活动特征提取方法，其特征在于：

所述步骤5中处理和拼接用户特征向量方法，具体为：