CN110889434B - 一种基于活动的社交网络活动特征提取方法 - Google Patents

一种基于活动的社交网络活动特征提取方法 Download PDF

Info

Publication number
CN110889434B
CN110889434B CN201911037941.1A CN201911037941A CN110889434B CN 110889434 B CN110889434 B CN 110889434B CN 201911037941 A CN201911037941 A CN 201911037941A CN 110889434 B CN110889434 B CN 110889434B
Authority
CN
China
Prior art keywords
activity
user
social
vector
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911037941.1A
Other languages
English (en)
Other versions
CN110889434A (zh
Inventor
张三峰
殷悦迪
江咏涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911037941.1A priority Critical patent/CN110889434B/zh
Publication of CN110889434A publication Critical patent/CN110889434A/zh
Application granted granted Critical
Publication of CN110889434B publication Critical patent/CN110889434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于活动的社交网络活动特征提取方法,该方法内容包括:1、构建用户的社交关系图,采用图嵌入算法将其向量化,提取用户社交网络特征;2、对活动发生的经纬度及进行聚类,划分成不同的区域,提取地理位置特征;3、对活动时间按照用户习惯划分时间段,利提取活动时间特征;4、对用户和活动的语义因素采用潜在语义分析算法生成活动和用户偏好的语义向量,提取社交语义特征;5、对上述四个特征向量进行处理和拼接,获取用户和社交活动的特征表示向量。本发明在对属性做尽量少的运算处理相关特征的基础上,提取了用户和社交特征,作为后续训练神经网络的输入,从而降低活动社交网络推荐问题对研究者经验知识的依赖。

Description

一种基于活动的社交网络活动特征提取方法
技术领域
本发明涉及属于基于活动的社交网络的技术领域,尤其涉及一种基于活动的社交网络中的社交活动特征提取方法。
背景技术
基于活动的社交网络是一种将用户线上虚拟社交关系与线下实际面对面沟通相结合的新型社交网络。用户在线上组成兴趣小组,组内成员可以在线上沟通交流,发布活动通知,同时用户可以在预定的时间、地点实际地参加小组发起的线下社交活动,同组内成员面对面的交流沟通,基于活动的社交网络实现了现实世界和网络虚拟世界的有效结合。
目前基于活动的社交网络研究的内容主要包括以下几个方面:社区检测、推荐问题、用户行为预测、种子用户挖掘和活动安排策略。
随着基于活动的社交网络中数据量的急剧膨胀,用户从海量数据中检索出感兴趣的内容变得费力。因为基于活动的社交网络是一个复杂的异构网络,网络中包含多种节点以及多样的链接关系,包括用户、小组、活动、兴趣标签等,每个节点又拥有丰富的属性信息,例如活动节点的举办时间、举办地点、需要的经费、人数限制等,而且其中的推荐问题也十分多样,包括向用户推荐小组,向用户推荐活动、向小组推荐标签等。同时,基于活动的社交网络的推荐问题和传统社交网络不同:由于每个活动都是崭新的内容,缺乏历史评价信息和参与记录,其推荐算法面临更严重的“冷启动”问题。因而传统的推荐技术并不适用于社交活动的推荐,需要研究基于活动的社交网络的推荐问题,提升用户的效率。
现有的基于活动的社交网络下的推荐主要有基于多特征融合的社交活动推荐算法、基于图模型的社交活动推荐算法和其他社交活动推荐算法。其解决方案主要分两种,第一种是通过复杂的公式对影响活动推荐效果的各个因素,包括社交因素、时间因素等做加权计算,得到用户对待推荐活动的评分,向用户推荐评分较高的社交活动;第二种是采用图模型的算法获取用户参加待推荐活动的概率,以概率作为推荐的依据。
现有的社交活动推荐算法的特征选取很大程度上依赖于研究人员的经验,第一种方案的推荐效果取决于影响因素的计算,而影响因素的选取和计算方式因研究者的经验不同而存在差异,且各有各的道理;第二种方案图中实体间的权值设定没有统一的规范性方法,每位研究人员看待问题的角度不同,权值的设定也相差甚大,因而即使采用相同的图模型思想,推荐结果也因图中实体间权重不同而异。由此可见,特征的建模将很大程度上决定推荐的效果,手工选取特征是一件非常费力、需要专业知识的方法,选取的特征能否有效提升算法效果很大程度上依靠经验和运气,无法保证最优的推荐效果。
发明内容
本发明提出一种基于深度学习的社交活动推荐的特征提取方法,在对属性做尽量少的运算处理相关特征的基础上,提取出后续输入神经网络的用户特征和社交活动,减少人为经验的影响,有利于提高后续深度学习选取出对推荐贡献最大的特征。
本发明具体采用以下技术方案解决上述技术问题:
一种基于深度学习的社交活动推荐的特征提取方法,包括以下步骤:
步骤1、根据活动的举行的经纬度,计算活动间的球面距离,采用DBSCAN算法将这些活动聚类为|R|个簇,分别为R={r1,r2,...,r|R|}。每个活动的地理位置将属于一个区域。采用one-hot编码的方式处理,将地理信息映射为|R|维的向量,作为活动地理位置特征。
步骤2、构建用户的社交关系图G=(V,E),其中,V表示网络中用户节点的集合,E表示用户之间连边的集合。计算用户u和用户v的之间的权重Weight(u,v)。基于上述社交关系图,采用图嵌入算法DeepWalk,用低维、稠密向量去表示图中节点,获得每个用户节点u的社交向量socialu,作为用户的社交特征;该向量表示能反映图的结构以及节点之间的关系,两个节点共享的邻居节点越多,即两个节点的上下文越相似,两个节点对应的特征向量距离越近。
所述步骤2中图嵌入算法包括两个部分,第一个部分是随机游走过程生成游走序列;第二个部分是基于游走序列更新节点的向量表示。
步骤3、将时间特征向量按周划分,一周7天,每天分为3个时间段,将用户参加活动的时间分为21个阶段。基于时间段的划分策略,采用one-hot编码的方式生成活动的时间向量,作为活动时间特征。
步骤4、对于用户u和待推荐的活动e,将用户u的语义文本以及活动e的语义文本放到同一语义空间中,采用潜在语义分析(Latent Semantic Analysis,LSA)模型进行语义文本分析,得到活动e的主题语义向量semantice和用户u的主题语义向量semanticu,作为语义特征。语义向量提取的流程具体为:首先,需要将用户u和待推荐的活动e语义文本进行去除停用词处理,然后对两个文本中所有词汇建立索引id,生成词汇-文档矩阵,矩阵中的每一行代表一个词汇,每一列代表一篇文档,矩阵中的元素表征对应词汇在该文本中出现的次数,对词-文档矩阵进行矩阵分解,计算得到两个文本的语义向量。
步骤5、提取社交活动的地理位置、社交、时间和语义特征向量,进行处理和拼接,获取社交活动的特征向量;然后,根据用户的历史参加社交活动记录,提取用户的地理位置、社交、时间以及语义特征向量,进行处理和拼接,获取用户的特征向量。
本发明的进一步改进在于:所述步骤1中计算活动ei和ej地理位置之间的球面距离采用公式:
dist(ei,ej)sd=Radius*arccos(param1+param2)
其中,Radius为地球半径,参数param1和param2计算采用公式:
Figure BDA0002252065880000041
其中,late和lone表示活动e的地理位置坐标的经纬度。
本发明进一步改进在于:所述步骤2中计算用户u和用户v的之间的权重Weight(u,v)采用公式:
Figure BDA0002252065880000042
该向量表示能反映图的结构以及节点之间的关系,两个节点共享的邻居节点越多,即两个节点的上下文越相似,两个节点对应的特征向量距离越近。
图嵌入算法包括两个部分,第一个部分是随机游走过程生成游走序列;第二个部分是基于游走序列更新节点的向量表示。
首先在网络中随机选择节点vi作为起始节点,在节点vi的邻居节点中随机选择一个节点vj作为序列的下一个节点,再以vj开始重复这一随机过程,直到序列达到指定长度。通过随机游走得到的节点游走序列可以反映网络中节点之间的关系,且当网络中有新的节点加入时,只需要以新节点为起点生成游走序列;且随机游走过程中每个游走序列的生成互不依赖,因而有较好得而并行性,多个游走序列可同时生成。
然后采取Skip-Gram算法更新节点的向量表示。将网络中的节点看作是单词,那么游走序列即为这些单词构成的句子。Skip-Gram算法的思想是,输入序列中的某个节点vj,目标是最大化序列中在该节点左右w窗口大小(i-w,i+w)中出现的节点的出现概率,采用优化目标函数:
minimizeJ(Φ)=logPr({vi-w,...,vi-1,vi+1,...,vi+w}|Φ(vj))
其中,Φ表示节点的向量表示矩阵,更采用随机梯度下降的方法如式,优化目标函数,更新节点的向量表示,最终可获得每个用户节点u的向量表示作为该用户的社交向量socialu
本发明进一步改进在于:所述步骤3中用户参加活动的时间划分的阶段为:
Figure BDA0002252065880000051
本发明进一步改进在于:所述步骤5中处理和拼接用户特征向量方法,具体为:
采用步骤2和步骤4的方法提取用户的社交特征向量Usocial和语义特征向量Usemantic
对于用户时间特征向量,当该用户历史参加活动集合不为空,对用户过去参与过的活动的时间向量计算均值得到用户的时间偏好因素utime
Figure BDA0002252065880000061
其中,Eu为用户历史参加的活动的集合,且ei∈Eu
Figure BDA0002252065880000064
是历史活动集合中活动的时间。
当用户不存在历史参加活动记录时,将下式向量作为用户的时间因素向量,向量的维度与社交活动的时间向量维度相同;
Utime′=[1 1 ... 1]
对于地理位置因素,当用户历史参加活动集合不为空,将对用户过去参与过的活动地理位置向量取均值得到用户的地理位置向量Ulocation
Figure BDA0002252065880000062
其中,Eu为用户历史参加的活动的集合,且ei∈Eu
Figure BDA0002252065880000063
表示集合Eu中活动的地理位置向量;
当用户不存在历史参加活动记录时,将用户家庭住址经纬度所在的地理位置区域对应的one-hot编码向量作为用户的地理位置向量:
Ulocation′=[0 ...1... 0]home
将四个向量横向拼接,作为用户特征向量U:
U=[usocial,usemantic,utime,ulocation]。
本发明的进一步改进在于:所述步骤5中获取社交活动特征向量方法,具体为:
采用步骤4的方法提取活动的语义特征向量esemantic,采取步骤1和步骤3的方法提取活动的地理特征向量elocation和时间特征向量etime
对于活动e,将活动组织者的社交向量作为该活动的社交因素,当活动存在多个组织者时,则对多个组织者的社交向量取均值作为活动的社交因素:
Figure BDA0002252065880000071
其中,He为活动的组织者集合,且hi∈He
将四个向量横向拼接,作为社交活动特征向量:
E=[esocial,esemantic,etime,elocation]。
本发明提出的一种基于深度学习的社交活动推荐的特征提取方法,通过将活动举办的地点划分为不同区域,提取地理位置特征;构建用户社交关系图,提取社交特征;将参加活动的时间分段,提取时间特征;对用户和活动的语义文本进行语义分析,提取语义特征;最后对上述特征进行处理和拼接,提取社交活动和用户的特征向量。
本发明的有益效果是:为基于神经网络的社交活动网络中的推荐的特征提取问题提供了解决方案。该方法在提取相关特征上做了尽量少的运算,避免过多依赖研究者的经验和知识,减少人工劳动力和时间花费。同时,能够更加客观的获取特征,投入后续的深度学习。
具体实施方式
下面对本发明的实施方式进行描述。
本实施例的一种基于深度学习的社交活动推荐的特征提取方法,该方法具体包括以下步骤:
步骤1、根据活动的举行的经纬度,计算活动间的球面距离,采用DBSCAN算法将这些活动聚类为|R|个簇,分别为R={r1,r2,...,r|R|}。
每个活动的地理位置将属于一个区域。采用one-hot编码的方式处理,将地理信息映射为|R|维的向量,作为活动地理位置特征。
具体地,令late和lone表示活动e的地理位置坐标的经纬度,使用球面距离度量活动ei和ej地理位置之间的距离,并采用DBSCAN算法将这些坐标点聚类为|R|个簇,分别为R={r1,r2,...,r|R|},每个簇对应一个区域。
聚类效果取决于算法的输入参数,即在邻域内成为核心对象的最小邻域点数MinPts以及邻域半径Eps本发明通过轮廓系数评估聚类效果,轮廓系数越大,聚类效果越好。对于每个样本,记distsame表示该样本与其同类别的其他样本之间的平均距离,distdif表示该样本与其聚类最近不同类别中样本的平均距离,则轮廓系数sc为:
Figure BDA0002252065880000081
本发明针对一个城市的社交活动地理位置数据,采用网格搜索算法选取两个参数,在聚类后输出聚类结果对应的轮廓系数以及聚类后的簇的数目,从而根据轮廓系数大小设定给定点在邻域内成为核心对象的最小邻域点数MinPts以及邻域半径Eps。
在聚类过程结束后,每个活动的地理位置将属于一个区域。活动地理位置特征采用one-hot编码的方式处理,将地理信息映射为|R|维的向量,则活动e的地理位置信息表示为:
locatione=[…010…]1*|R|
步骤2、构建用户的社交关系图G=(V,E),其中,V表示网络中用户节点的集合,E表示用户之间连边的集合。计算用户u和用户v的之间的权重Weight(u,v)。基于上述社交关系图,采用图嵌入算法DeepWalk,用低维、稠密向量去表示图中节点,获得每个用户节点u的社交向量socialu,作为用户的社交特征。
该向量表示能反映图的结构以及节点之间的关系,两个节点共享的邻居节点越多,即两个节点的上下文越相似,两个节点对应的特征向量距离越近。
图嵌入算法包括两个部分,第一个部分是随机游走过程生成游走序列;第二个部分是基于游走序列更新节点的向量表示。
首先在网络中随机选择节点vi作为起始节点,在节点vi的邻居节点中随机选择一个节点vj作为序列的下一个节点,再以vj开始重复这一随机过程,直到序列达到指定长度。通过随机游走得到的节点游走序列可以反映网络中节点之间的关系,且当网络中有新的节点加入时,只需要以新节点为起点生成游走序列;且随机游走过程中每个游走序列的生成互不依赖,因而有较好得而并行性,多个游走序列可同时生成。
然后采取Skip-Gram算法更新节点的向量表示。将网络中的节点看作是单词,那么游走序列即为这些单词构成的句子。Skip-Gram算法的思想是,输入序列中的某个节点vj,目标是最大化序列中在该节点左右w窗口大小(i-w,i+w)中出现的节点的出现概率,采用优化目标函数:
min imizeJ(Φ)=log Pr({vi-w,…,vi-1,vi+1,…,vi+w}|Φ(vj))
其中,Φ表示节点的向量表示矩阵,更采用随机梯度下降的方法如式,优化目标函数,更新节点的向量表示,最终可获得每个用户节点u的向量表示作为该用户的社交向量socialu
步骤3、将时间特征向量按周划分,一周7天,每天分为3个时间段,将用户参加活动的时间分为21个阶段。基于时间段的划分策略,采用one-hot编码的方式生成活动的时间向量,作为活动时间特征。例如用户在周六的15:00-21:59和周日的7:00-14:59参加活动,则特征向量为:
timee=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0]
步骤4、对于用户u和待推荐的活动e,将用户u的语义文本以及活动e的语义文本放到同一语义空间中,采用潜在语义分析(Latent Semantic Analysis,LSA)模型进行语义文本分析,得到活动e的主题语义向量semantice和用户u的主题语义向量semanticu,作为语义特征。
语义向量提取的流程具体为:首先,需要将用户u和待推荐的活动e语义文本进行去除停用词处理,然后对两个文本中所有词汇建立索引id,生成词汇-文档矩阵,矩阵中的每一行代表一个词汇,每一列代表一篇文档,矩阵中的元素表征对应词汇在该文本中出现的次数,对词-文档矩阵进行矩阵分解,计算得到两个文本的语义向量。
步骤5、提取社交活动的地理位置、社交、时间和语义特征向量,进行处理和拼接,获取社交活动的特征向量;然后,根据用户的历史参加社交活动记录,提取用户的地理位置、社交、时间以及语义特征向量,进行处理和拼接,获取用户的特征向量。
首先提取用户特征向量。
采用步骤2和步骤4的方法提取用户的社交特征向量usocial和语义特征向量usemantic
对于用户时间特征向量,当该用户历史参加活动集合不为空,对用户过去参与过的活动的时间向量计算均值得到用户的时间偏好因素utime
Figure BDA0002252065880000111
其中,Eu为用户历史参加的活动的集合,且ei∈Eu
Figure BDA0002252065880000113
是历史活动集合中活动的时间。
当用户不存在历史参加活动记录时,将下式向量作为用户的时间因素向量,向量的维度与社交活动的时间向量维度相同。
utime′=[1 1 ... 1]
对于地理位置因素,当用户历史参加活动集合不为空,将对用户过去参与过的活动地理位置向量取均值得到用户的地理位置向量Ulocation
Figure BDA0002252065880000112
其中,Eu为用户历史参加的活动的集合,且ei∈Eu
Figure BDA0002252065880000114
表示集合Eu中活动的地理位置向量。
当用户不存在历史参加活动记录时,将用户家庭住址经纬度所在的地理位置区域对应的one-hot编码向量作为用户的地理位置向量:
ulocation′=[0 …1… 0]home
将四个向量横向拼接,作为用户特征向量U:
U=[usocial,usemantic,utime,ulocation]
然后提取社交活动向量。
采用步骤4的方法提取活动的语义特征向量esemantic,采取步骤1和步骤3的方法提取活动的地理特征向量elocation和时间特征向量etime
对于活动e,将活动组织者的社交向量作为该活动的社交因素,当活动存在多个组织者时,则对多个组织者的社交向量取均值作为活动的社交因素:
Figure BDA0002252065880000121
其中,He为活动的组织者集合,且hi∈He
将四个向量横向拼接,作为社交活动特征向量:
E=[esocial,esemantic,etime,elocation]。
提取后,便可以将用户特征和社交活动特征输入神经网络学习得到推荐时需要的特征。
综上,本发明提出的基于深度学习的社交活动推荐的特征提取方法为基于深度学习的社交活动网络中的推荐的特征提取问题提供了解决方案。该方法在提取相关特征上做了尽量少的运算,通过聚类提取地理位置特征,分段提取时间特征,构建社交关系图提取社交特征,采用潜在语义分析提取语义特征,保证尽量少的相关特征的提取运算,避免过多依赖研究者的经验和知识,保证了客观的特征提取。
上文对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (7)

1.基于活动的社交网络活动特征提取方法,其特征在于,包括以下步骤:
步骤1、根据活动的举行的经纬度,计算活动间的球面距离,采用DBSCAN算法将这些活动聚类为|R|个簇,分别为R={r1,r2,…,r|R|};每个活动的地理位置将属于一个区域;采用one-hot编码的方式处理,将上述地理信息映射为|R|维的向量,作为活动地理位置特征;
步骤2、构建用户的社交关系图G=(V,E),其中,V表示网络中用户节点的集合,E表示用户之间连边的集合;计算用户u和用户v的之间的权重Weight(u,v);基于上述社交关系图,采用图嵌入算法DeepWalk,用低维、稠密向量去表示图中节点,获得每个用户节点u的社交向量socialu,作为用户的社交网络特征;
步骤3、将时间特征向量按周划分,一周7天,每天分为3个时间段,将用户参加活动的时间分为21个阶段;基于时间段的划分策略,采用one-hot编码的方式生成活动的时间向量,作为社交活动时间特征;
步骤4、对于用户u和待推荐的活动e,将用户u的语义文本以及活动e的语义文本放到同一语义空间中,采用潜在语义分析(Latent Semantic Analysis,LSA)模型进行语义文本分析,得到活动e的主题语义向量semantice和用户u的主题语义向量semanticu,作为社交语义特征;
步骤5、提取社交活动的地理位置、社交、时间和语义特征向量,进行处理和拼接,获取社交活动的特征向量;然后根据用户的历史参加社交活动记录,提取用户的地理位置、社交、时间以及语义特征向量,进行处理和拼接,获取用户的特征向量。
2.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:所述步骤1中计算活动ei和ej地理位置之间的球面距离采用公式:
dist(ei,ej)sd=Radius*arccos(param1+param2)
其中,Radius为地球半径,参数param1和param2计算采用公式:
Figure FDA0004112049390000021
其中,late和lone表示活动e的地理位置坐标的经纬度。
3.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:所述步骤2中计算用户u和用户v的之间的权重Weight(u,v)采用公式:
Figure FDA0004112049390000022
图嵌入算法首先在网络中随机选择节点vi作为起始节点,在节点vi的邻居节点中随机选择一个节点vj作为序列的下一个节点,再以vj开始重复这一随机过程,直到序列达到指定长度;然后采取Skip-Gram算法更新节点的向量表示;将网络中的节点看作是单词,那么游走序列即为这些单词构成的句子;Skip-Gram算法的思想是输入序列中的某个节点vj,目标是最大化序列中在该节点左右w窗口大小(i-w,i+w)中出现的节点的出现概率,采用优化目标函数:
minimizeJ(Φ)=logPr({vi-w,…,vi-1,vi+1,…,vi+w}|Φ(vj))
其中,Φ表示节点的向量表示矩阵,更采用随机梯度下降的方法如式,优化目标函数,更新节点的向量表示,最终可获得每个用户节点u的向量表示作为该用户的社交向量socialu
4.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:
所述步骤3中用户参加活动的时间划分的阶段为:
Figure FDA0004112049390000031
5.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:所述步骤4中语义向量提取的流程具体为:首先,需要将用户u和待推荐的活动e语义文本进行去除停用词处理,然后对两个文本中所有词汇建立索引id,生成词汇-文档矩阵,矩阵中的每一行代表一个词汇,每一列代表一篇文档,矩阵中的元素表征对应词汇在该文本中出现的次数,对词汇-文档矩阵进行矩阵分解,计算得到两个文本的语义向量。
6.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:
所述步骤5中处理和拼接用户特征向量方法,具体为:
采用步骤2和步骤4的方法提取用户的社交特征向量usocial和语义特征向量usemantic
对于用户时间特征向量,当该用户历史参加活动集合不为空,对用户过去参与过的活动的时间向量计算均值得到用户的时间偏好因素utime
Figure FDA0004112049390000041
其中,Eu为用户历史参加的活动的集合,且ei∈Eu
Figure FDA0004112049390000042
是历史活动集合中活动的时间;
当用户不存在历史参加活动记录时,将下式向量作为用户的时间因素向量,向量的维度与社交活动的时间向量维度相同;
utime′=[1 1…1]
对于地理位置因素,当用户历史参加活动集合不为空,将对用户过去参与过的活动地理位置向量取均值得到用户的地理位置向量Ulocation:
Figure FDA0004112049390000043
其中,Eu为用户历史参加的活动的集合,且ei∈Eu
Figure FDA0004112049390000044
表示集合Eu中活动的地理位置向量;
当用户不存在历史参加活动记录时,将用户家庭住址经纬度所在的地理位置区域对应的one-hot编码向量作为用户的地理位置向量:
ulocation′=[0…1…0]home
将四个向量横向拼接,作为用户特征向量U:
U=[usocial,usemantic,utime,ulocation]。
7.根据权利要求1所述基于活动的社交网络活动特征提取方法,其特征在于:
所述步骤5中获取社交活动特征向量方法,具体为:
采用步骤4的方法提取活动的语义特征向量esemantic,采取步骤1和步骤3的方法提取活动的地理特征向量elocation和时间特征向量etime
对于活动e,将活动组织者的社交向量作为该活动的社交因素,当活动存在多个组织者时,则对多个组织者的社交向量取均值作为活动的社交因素:
Figure FDA0004112049390000051
其中,He为活动的组织者集合,且hi∈He
将四个向量横向拼接,作为社交活动特征向量:
E=[esocial,esemantic,etime,elocation]。
CN201911037941.1A 2019-10-29 2019-10-29 一种基于活动的社交网络活动特征提取方法 Active CN110889434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911037941.1A CN110889434B (zh) 2019-10-29 2019-10-29 一种基于活动的社交网络活动特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911037941.1A CN110889434B (zh) 2019-10-29 2019-10-29 一种基于活动的社交网络活动特征提取方法

Publications (2)

Publication Number Publication Date
CN110889434A CN110889434A (zh) 2020-03-17
CN110889434B true CN110889434B (zh) 2023-04-21

Family

ID=69746539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911037941.1A Active CN110889434B (zh) 2019-10-29 2019-10-29 一种基于活动的社交网络活动特征提取方法

Country Status (1)

Country Link
CN (1) CN110889434B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461118B (zh) * 2020-03-31 2023-11-24 中国移动通信集团黑龙江有限公司 兴趣特征确定方法、装置、设备及存储介质
CN113657915B (zh) * 2020-05-12 2024-04-05 杭州海康威视数字技术股份有限公司 一种潜在用户推荐方法、装置、电子设备及可读存储介质
CN111651671B (zh) * 2020-05-27 2023-11-21 腾讯科技(深圳)有限公司 用户对象推荐方法、装置、计算机设备和存储介质
CN112507247B (zh) * 2020-12-15 2022-09-23 重庆邮电大学 一种融合用户状态信息的跨社交网络用户对齐方法
CN112989187B (zh) * 2021-02-25 2022-02-01 平安科技(深圳)有限公司 创作素材的推荐方法、装置、计算机设备及存储介质
CN113449204B (zh) * 2021-07-13 2022-09-09 中国人民解放军国防科技大学 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113963234B (zh) * 2021-10-25 2024-02-23 北京百度网讯科技有限公司 数据标注处理方法、装置、电子设备和介质
CN114202035B (zh) * 2021-12-16 2023-04-07 成都理工大学 一种多特征融合的大规模网络社区检测算法
CN117522614B (zh) * 2023-12-29 2024-05-03 北京芯盾时代科技有限公司 一种数据的处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021311A (zh) * 2016-05-05 2016-10-12 北京邮电大学 网络社交活动推荐方法和装置
CN106339483A (zh) * 2016-08-30 2017-01-18 电子科技大学 一种移动社交网络中的社交活动推荐算法
CN106980659A (zh) * 2017-03-20 2017-07-25 华中科技大学鄂州工业技术研究院 一种基于异构图模型的社交活动推荐方法
CN108052961A (zh) * 2017-11-28 2018-05-18 淮海工学院 一种活动社交网络用户参加活动推荐的多因素决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754328B2 (en) * 2013-08-08 2017-09-05 Academia Sinica Social activity planning system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021311A (zh) * 2016-05-05 2016-10-12 北京邮电大学 网络社交活动推荐方法和装置
CN106339483A (zh) * 2016-08-30 2017-01-18 电子科技大学 一种移动社交网络中的社交活动推荐算法
CN106980659A (zh) * 2017-03-20 2017-07-25 华中科技大学鄂州工业技术研究院 一种基于异构图模型的社交活动推荐方法
CN108052961A (zh) * 2017-11-28 2018-05-18 淮海工学院 一种活动社交网络用户参加活动推荐的多因素决策方法

Also Published As

Publication number Publication date
CN110889434A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN110889434B (zh) 一种基于活动的社交网络活动特征提取方法
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN110119475B (zh) 一种poi推荐方法及推荐系统
EP2498440B1 (en) Configuration method and system of complex network and configuration and management module of server resources
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN113065974B (zh) 一种基于动态网络表示学习的链路预测方法
CN111885399A (zh) 内容分发方法、装置、电子设备以及存储介质
CN114332984B (zh) 训练数据处理方法、装置和存储介质
CN111428127A (zh) 融合主题匹配与双向偏好的个性化事件推荐方法及系统
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN116244513B (zh) 随机群组poi推荐方法、系统、设备及存储介质
CN116127190B (zh) 一种数字地球资源推荐系统及方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
Chen et al. A temporal recommendation mechanism based on signed network of user interest changes
CN116362329A (zh) 一种融合参数优化的集群联邦学习方法及设备
Lin et al. Evolutionary game-based data aggregation model for wireless sensor networks
CN115686868A (zh) 一种基于联邦哈希学习的面向跨节点多模态检索方法
CN110598127B (zh) 一种群组推荐方法及装置
CN112800111B (zh) 一种基于训练数据挖掘的位置预测方法
CN110008411A (zh) 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法
CN109657048A (zh) 一种应用于开源问答社区中回答者推荐方法
Meng et al. POI recommendation for occasional groups Based on hybrid graph neural networks
CN108563720A (zh) 基于ai的大数据推荐学习系统及推荐方法
CN116992151A (zh) 一种基于双塔图卷积神经网络的在线课程推荐方法
CN115828988A (zh) 一种基于自监督的异构图表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant