CN108776844A - 基于上下文感知张量分解的社交网络用户行为预测方法 - Google Patents
基于上下文感知张量分解的社交网络用户行为预测方法 Download PDFInfo
- Publication number
- CN108776844A CN108776844A CN201810332563.9A CN201810332563A CN108776844A CN 108776844 A CN108776844 A CN 108776844A CN 201810332563 A CN201810332563 A CN 201810332563A CN 108776844 A CN108776844 A CN 108776844A
- Authority
- CN
- China
- Prior art keywords
- user
- tensor
- message
- social
- forwarding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims 1
- 238000011160 research Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 3
- 206010068052 Mosaicism Diseases 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于上下文感知张量分解的社交网络用户行为预测方法及系统,该方法的步骤包括:获取用户的社交网络数据,经预处理得到完整的社交数据;基于社交数据,构建目标张量、辅助张量、用户相似性矩阵、消息主题相似矩阵及用户影响力矩阵;根据上述目标张量、辅助张量、用户相似性矩阵、消息主题相似矩阵及用户影响力矩阵,构建张量分解模型,协同分解目标张量和辅助张量,计算分解损失函数值,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量;根据上述的潜在特征矩阵和核心张量,补全辅助张量,对用户转发行为进行预测。
Description
技术领域
本发明属于数据挖掘和行为预测技术领域,更具体地,涉及一种基于上下文感知张量分解的社交网络用户行为预测方法及系统。
背景技术
随着互联网技术以及移动技术的发展,社交网络的出现彻底改变了传统的网络存在模式,即网络用户从原始简单的信息消费者,逐步转变为社交网络中信息的生产者与传播者,如图 1所示。正是由于社交网络的存在使得信息能够在很短的时间内产生大规模级联效应;同时,社交网络也记录了海量的用户活动数据,这些数据对人类行为规律具有重要的研究和应用价值。目前学术界和工业界对社交网络的研究主要集中在话题识别和跟踪、用户行为分析与预测、影响力最大化传播、社区发现和个性化推荐等方面。
众所周知,消息的级联传播从宏观上来看是具有传播力的消息文本在不同用户间的扩散过程。然而,从微观上来讲,消息的传播是由单个用户的转发行为所组成的。因此,开展用户转发行为的分析与研究是社交网络上信息传播研究的出发点和重要步骤。更进一步,解决转发行为的预测问题能够带来很多好处:首先,用户转发的话题反映了用户的兴趣,转发行为预测的研究也可用于个性化内容推荐:其次,转发行为预测的研究可建模社交网络中信息的传播模式及量化传播范围,其研究成果可应用于市场营销或是热点事件追踪等领域。
用户转发行为分析和挖掘的首要任务是探索和分析影响用户转发行为的主要驱动因素。因此,基于问卷调查、用户访谈、数据统计等大量定性分析方法主要集中在挖掘对用户转发行为产生影响的一些重要因素,如消息文本内容、粉丝数、关注数、用户是否认证、用户兴趣等。这些前期定性探索为后期的转发行为量化研究奠定了一定的基础。针对用户转发行为预测这个研究问题,已有大量研究工作从拓扑结构、文本内容、社交关系、社交影响力、交互行为信息、可视化信息等不同角度进行预测模型构建。对于预测模型所使用的方法也表现各异,如二值分类模型、因子图模型、条件随机场模型、矩阵分解模型和非参贝叶斯模型等。这些研究工作通过抽取大量与转发行为有关的特征,然后利用已有模型或改进模型进行转发行为预测,但利用启发式策略抽取特征的方法存在的最大挑战是选择合适的转发特征集合。同时,这类方法也未考虑到转发数据的稀疏性问题,导致预测的准确率较低。由此可知,社交网络上关于用户转发行为分析和预测的研究仍需要深入探索和研究。已有的方法和模型存在着对行为影响因素考虑不全或模型设计不适应等问题。因此,针对转发行为预测中仍存在的问题,本发明开展进一步的探索,从一个新的角度提出更好的解决方案。
发明内容
针对现有技术存在的缺陷,本发明的目的是提出一种基于上下文感知张量分解的转发行为预测方法及系统,解决在现有的用户转发行为预测中,仅根据用户兴趣或者用户间影响力来对用户的转发行为进行预测而导致的预测准确率较低的技术问题。
为实现上述目的,本发明采用的技术方案是:
一种基于上下文感知张量分解的社交网络用户行为预测方法,步骤包括:
获取用户的社交网络数据,经预处理得到完整的社交数据;
从社交数据中获得接收消息用户、被转发消息、发布消息用户的转发关系,构建目标张量Ro;
基于社交数据,统计在指定时间段内转发消息用户和发布消息用户之间被转发消息的次数,构建辅助张量Ra;
从社交数据中获得用户话题兴趣和用户社交特征的相似度,构建用户相似性矩阵X;
从社交数据中获得不同消息文本的主题概率分布,构建消息主题相似矩阵W;
从社交数据中获得用户间交互行为,构建用户影响力矩阵F;
根据上述Ro、Ra、X、W、F,构建上下文感知的张量分解模型,协同分解目标张量Ro和辅助张量Ra,计算分解损失函数值,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量;
根据上述的潜在特征矩阵和核心张量,补全辅助张量Ra,对用户转发行为进行预测。
所述社交网络数据包括用户注册信息、社交关系信息、被转发消息信息以及关注和被关注的用户信息。
所述预处理是指采用二次提取数据、人工查询数据的方法进行数据的补偿、筛选。
将用户话题兴趣和用户社交特征分别进行向量化表示,利用余弦函数分别计算两两用户间的用户话题兴趣和用户社交特征的相似度。
用户话题兴趣的向量化表示是通过用户所发布消息的集合,利用LDA主题模型识别得到。
用户社交特征的向量化表示是通过用户基本属性特征向量第一用户活动特征向量和第二用户活动特征向量共同组成得到,其中包括注册时间、消息数、好友数、粉丝数、好友数/粉丝数;包括平均每条消息的提交数、平均每条消息的URL数、平均每条消息的hashtag数;包括平均每条消息的转发数、平均每天的转发数。
所述用户间交互行为包括转发、评论、提及。
采用基于狄利克雷多项式混合的短文本主题挖掘模型GPU-DMM得到不同消息文本的主题概率分布。
根据用户相似性矩阵X、消息主题相似矩阵W、用户影响力矩阵F,分别构建用户正则项、消息正则项、影响力正则项,结合基于合并目标张量Ro和辅助张量Ra的转发张量R的损失函数模型以及防止分解过程中出现过拟合现象的正则化项,构建上下文感知的张量分解模型。
通过随机梯度下降算法计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量。
一种基于上下文感知张量分解的社交网络用户行为预测系统,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述方法中各步骤的指令。
本发明方法与现有技术相比,能够取得下列有益效果:
(1)本发明首次将转发行为的预测建模为用户兴趣和用户间社交影响力的双向结合过程,相比于现有转发行为预测方法将个体特征分开单独建模的单向过程,本发明的建模思想更符合社交网络中用户转发行为的真实场景,本发明不仅可以捕捉用户之间的交互作用,而且还可以刻画不同用户的兴趣偏好产生影响的差异性,从而有效提高了转发预测精度。
(2)本发明通过将接收消息用户、被转发消息、发布消息用户三者建模为三元转发关系的张量分解,解决了张量分解模型存在的高时间复杂度问题,同时提出的张量分解模型由于集成了用户长期的转发行为偏好,可以有效减少数据稀疏的负面影响,所以本发明使得张量分解模型可以应用于大数据环境下的转发预测问题,而且上下文感知的张量分解模型可以在有限时间复杂度内获得更高的预测质量。
(3)社交网络上存在大量稀疏的隐反馈数据,直接通过预测分值求解模型的方法存在较大预测偏差,从而导致预测精度下降,而本发明为用户间相似度和影响力强度设置了个性化权重,用以捕捉个体偏好和用户间影响对不同消息内容的转发差异性,个性化权重的设置使得模型更加贴近转发行为形成的真实情景,有助于获得更好的转发预测精度和模型稳健性。
附图说明
图1是用户转发关系示意图。
图2是一种基于上下文感知张量分解的社交网络用户行为预测方法流程图。
图3是张量分解构成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明从社交行为所处的上下文出发,考虑将量化的用户相似性、文本主题相似性和用户间社交影响力结合起来进行研究。对于用户维度,通过联合用户社交特征和行为特征构建用户相似性矩阵;对于消息维度,采用短文本主题挖掘模型对消息进行向量化,构建消息主题相似矩阵;对于影响力维度,具有社交关系的特定用户间存在交互行为,体现在用户间社交影响力强度,用户影响力矩阵可捕获周围其他用户对该用户兴趣的影响。在张量分解框架下,联合上述三个维度的信息分别构建用户正则项、消息正则项和影响力正则项,以此约束目标函数进行转发行为预测,有助于提升预测模型的性能。
本实施例公开一种基于上下文感知张量分解的社交网络用户行为预测方法,如图2所示,包括如下步骤:
(1)选取特定种子用户,采集并处理所获得的这些用户的社交网络数据,通过特定社交网络提供的开放接口进行函数调用,进行信息的采集,步骤如下:首先,随机选取100个种子用户;然后,收集这些用户的个人主页上注册信息、社交关系信息、被转发消息信息、关注和被关注的用户信息等;最后,基于已收集的关注和被关注的用户ID,采用广度搜索式遍历策略进行对应用户信息的采集。
以上数据的存储类型为JSON格式,可以通过程序设计语言库进行提取和分析,将JSON 中的对象转化为所需类型。其中,采集数据存在不完整信息,需要运用数据补偿、数据筛选方法对数据进行预处理。预处理的具体方式为二次提取数据或者人工查询数据,最终保证每个参与用户、每次消息转发的信息正确性和完整性。
(2)提取转发关系数据集中的用户集、消息集和三元组集,构建接收消息用户-被转发消息-发布消息用户所构成的目标张量Ro;定义一个表示接收消息用户U、被转发消息V和发布消息用户S的转发关系:在转发关系Ro中,U={U1,…,Ui,…UM}表示接收消息用户集合,Ui表示任意第i个接收消息用户,1≤i≤|U|;V={V1,…,Vj,…VN}表示被转发消息集合,Vj表示任意第j个被转发的消息,1≤j≤|V|;S={S1,…,…Sk,…SK}表示发布消息用户集合, Sk表示任意第k个发布消息用户,1≤k≤|S|。
传统转发行为预测建模只考虑接收消息用户U和被转发消息V的交互,而本发明不仅考虑了接收消息用户U和被转发消息V的交互,同时也考虑了接收消息用户U和发布消息用户S的交互,而且针对不同用户的个人偏好和交互强度的二者差异性,本发明提出的上下文感知张量分解的转发行为建模思想与传统的转发行为建模思想有着明显的区别。
(3)基于用户之间在社交网络中的历史转发行为信息,统计用户在特定时间段内转发次数,构建转发消息用户-特定时间窗口内被转发消息-发布消息用户的辅助张量Ra;Ra中元素的计算公式如下:
公式(1)中表示从用户s到用户u所发送的消息集合,表示用户u所转发的消息集合,表示用户u转发的消息集合中来自用户s所发布的消息数。事实上,Ra比Ro更稠密,表征了用户的历史转发行为模式。
(4)社交网络上的用户具有兴趣偏好信息和用户社交信息,根据这些信息的不同类别可进行向量化表示,并利用余弦函数计算两两用户间相似度,构建用户相似性矩阵假设前提是兴趣和行为相同或相似的用户能够产生相同或相似社交行为偏好。用户间相似性的度量由话题兴趣和用户社交特征共同决定。用户间话题兴趣的相似度计算公式如下:
公式(2)中D(i)表示用户ui所发送的消息集合,Ta表示通过LDA主题模型建模后的文档a的向量化表示。
用户社交特征可用如下特征向量表示:用户基本属性特征向量包括注册时间、消息数、好友数、粉丝数、好友数/粉丝数;第一用户活动特征向量包括平均每条消息的提交数、平均每条消息的URL数、平均每条消息的hashtag数;第二用户活动特征向量包括平均每条消息的转发数、平均每天的转发数构成。用户社交特征向量 Ssocial即由用户基本属性特征向量第一用户活动特征向量第二用户活动特征向量共同组成。与Stopic(i,j)相同的,用户uii和uj的用户社交特征相似度 Ssocial(i,j)也应用公式(2)计算获得。最后,用户相似性矩阵X中第(i,j)项的计算公式如下
Xij=ρStopic(i,j)+(1-ρ)Ssocial(i,j) (3)
公式(3)中参数ρ>0用于控制用户话题兴趣和用户社交特征的贡献度。
基于用户相似性矩阵X,构建用户正则项
(5)根据不同社交文本间的主题分布相似性信息构建消息主题相似矩阵假设前提是文本相同或相似的消息被用户所采纳的可能性相同或相近。鉴于社交短文本长度有限,本发明将被转发消息聚合成一个更长的伪文档,以此消除短文本稀疏性问题,并采用最新的基于狄利克雷多项式混合的短文本主题挖掘模型GPU-DMM。GPU-DMM模型能够向量化每个短文本到主题级别概率分布。因此,消息主题相似矩阵W第(i,j)项计算公式如下:
Wij=Tik×Tjk (4)
公式(4)中Tik表示第i个消息在第k个主题上的概率。
基于消息主题相似矩阵W,构建消息正则项
(6)根据用户间的历史交互行为信息构建用户影响力矩阵假设前提是发布消息用户对接收消息用户的影响力强度同样影响着用户的行为。因此,用户影响力矩阵F第(i,j) 项计算公式如下:
公式(5)中表示从用户s到用户u所发送的消息集合,表示用户u所交互的消息集合。其中,用户间交互行为包括转发、评论和提及等动作。
基于用户影响力矩阵F,构建影响力正则项
(7)根据建立的Ro、Ra、X、W及F,构建上下文感知的张量分解模型,协同分解目标张量Ro和辅助张量Ra,计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量,如图3所示;
公式(6)中表示整个张量在转发行为预测分解过程中的损失函数模型,所述目标张量Ro和辅助张量Ra具有相同结构的维度,合并这两个张量为转发张量 R=Ro||Ra。如果在转发关系数据集中存在着三元组(u,m,s),那么Ro则为1,否则为0。C×UU×VV×SS表示在转发关系上矩阵张量分解,是防止分解过程中出现过拟合现象的正则化项,参数α>0用于控制用户正则项在Ui上贡献度,参数β>0用于控制消息正则项在Vi上贡献度,参数γ>0用于控制影响力正则项在Ui上贡献度,参数λ>0 是防止目标函数过拟合的修正参数。
在训练过程中,为了能使优化模型尽决收敛,本实施例在对接收消息用户潜在特征矩阵 U、被转发消息潜在特征矩阵V和发布消息用户潜在特征矩阵S进行迭代更新的过程中采用随机梯度下降(Stochastic Gradient Descent)算法,依次迭代更新公式如下:
公式(7)、(8)、(9)和(10)中Z=C×UU×VV×sS,表示Kronecker乘积。
如果迭代达到最大次数或收敛于设定阈值,此时即完成R的协同分解,得到优化的U、V、S以及核心张量C。
(8)根据协同张量分解的结果,获得对转发消息用户-被转发消息-发布消息用户的辅助张量Ra中缺失值的补全,从而实现用户转发行为进行预测。
当公式(6)中的目标函数协同分解结束后,获得最优的U、V、S及C后,可以根据计算公式 R=C×UU×VV×SS对辅助张量Ra中缺失的值进行填充,填充后的值代表用户的转发概率信息。
对于模型迭代过程中的残差评估,可采用均方差(Mean Absolute Error,MAE)和均方根误差(Root Mean Squared Error,RMSE)进行近似值度量。MAE和RMSE计算公式如下
公式(11)和(12)中N表示测试集中转发数据点总数,Rijk和分别是真实转发值和预测转发概率。从公式(11)和(12)可知,MAE和RMSE二者值越小表示模型性能越好。
对于模型在转发行为预测性能方面,可将该问题转化为二分类问题,采用准确度(Precision)、召回率(Recall)和F值(F-Measure)来评估模型的性能。计算公式如下
当准确度或是召回率越高,表明模型的性能越好,当然,在有些情况下,这两者会相互矛盾,因此才需要使用F值来综合考虑两者性能。
本发明分别以新浪微博和推特的数据作为实验数据集,验证所提出方法的有效性。具体地,实验通过调用新浪微博API或推特API获取所需数据,并采用前述采集策略不断扩张数据采集规模。对于采集到的社交网络信息,需进行数据筛选、数据补全等数据预处理工作,最终获得本发明所需的用户转发行为验证数据集。
本发明提出的基于上下文感知张量分解的转发行为预测方法(CTFRP)和4个基准方法进行比较。这4个基准方法为:朴素贝叶斯方法(Naive Bayes)、基于局部社交影响力的转发预测方法(LRC-BQ)、基于多维非负矩阵分解的转发预测方法(MNMFRP)、基于卷积神经网络的转发预测方法(SUA-ACNN)。在新浪微博数据集和推特数据集上用5种方法进行转发预测,并将预测结果进行比较,实验结果如表1所示。
表1本发现提出的转发预测方法与4个基准方法在两个数据集上的分类性能比较
实验结果表明本发明提出的基于上下文感知张量分解的转发行为预测方法(CTFRP)在上述两个转发数据集上都具有较好的性能,且分类精度始终优于4个基准方法。证实了基于上下文感知张量分解的转发预测算法能够消除数据稀疏性问题,提高社交网络上用户转发行为预测的精度。
以上所述仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (10)
1.一种基于上下文感知张量分解的社交网络用户行为预测方法,步骤包括:
获取用户的社交网络数据,经预处理得到完整的社交数据;
从社交数据中获得接收消息用户、被转发消息、发布消息用户的转发关系,构建目标张量;
基于社交数据,统计在指定时间段内转发消息用户和发布消息用户之间被转发消息的次数,构建辅助张量;
从社交数据中获得用户话题兴趣和用户社交特征的相似度,构建用户相似性矩阵;
从社交数据中获得不同消息文本的主题概率分布,构建消息主题相似矩阵;
从社交数据中获得用户间交互行为,构建用户影响力矩阵;
根据上述目标张量、辅助张量、用户相似性矩阵、消息主题相似矩阵及用户影响力矩阵,构建张量分解模型,协同分解目标张量和辅助张量,计算分解损失函数值,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量;
根据上述的潜在特征矩阵和核心张量,补全辅助张量,对用户转发行为进行预测。
2.根据权利要求1所述的方法,其特征在于,所述社交网络数据包括用户注册信息、社交关系信息、被转发消息信息以及关注和被关注的用户信息。
3.根据权利要求1所述的方法,其特征在于,所述预处理是指采用二次提取数据、人工查询数据的方法进行数据的补偿、筛选。
4.根据权利要求1所述的方法,其特征在于,将用户话题兴趣和用户社交特征分别进行向量化表示,利用余弦函数分别计算两两用户间的用户话题兴趣和用户社交特征的相似度。
5.根据权利要求4所述的方法,其特征在于,用户话题兴趣的向量化表示是通过用户所发布消息的集合,利用LDA主题模型识别得到;用户社交特征的向量化表示是通过用户基本属性特征向量、第一用户活动特征向量和第二用户活动特征向量共同组成得到,其中,用户基本属性特征向量包括注册时间、消息数、好友数、粉丝数、好友数/粉丝数,第一用户活动特征向量包括平均每条消息的提交数、平均每条消息的URL数、平均每条消息的hashtag数,第二用户活动特征向量包括平均每条消息的转发数、平均每天的转发数。
6.根据权利要求1所述的方法,其特征在于,所述用户间交互行为包括转发、评论、提及。
7.根据权利要求1所述的方法,其特征在于,采用基于狄利克雷多项式混合的短文本主题挖掘模型GPU-DMM得到不同消息文本的主题概率分布。
8.根据权利要求1所述的方法,其特征在于,根据用户相似性矩阵、消息主题相似矩阵、用户影响力矩阵,分别构建用户正则项、消息正则项、影响力正则项,结合基于合并目标张量和辅助张量的转发张量的损失函数模型以及防止分解过程中出现过拟合现象的正则化项,构建张量分解模型。
9.根据权利要求1或8所述的方法,其特征在于,通过随机梯度下降算法计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量。
10.一种基于上下文感知张量分解的社交网络用户行为预测系统,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述权利要求1-9任一所述方法中各步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810332563.9A CN108776844B (zh) | 2018-04-13 | 2018-04-13 | 基于上下文感知张量分解的社交网络用户行为预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810332563.9A CN108776844B (zh) | 2018-04-13 | 2018-04-13 | 基于上下文感知张量分解的社交网络用户行为预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108776844A true CN108776844A (zh) | 2018-11-09 |
CN108776844B CN108776844B (zh) | 2021-09-14 |
Family
ID=64033738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810332563.9A Active CN108776844B (zh) | 2018-04-13 | 2018-04-13 | 基于上下文感知张量分解的社交网络用户行为预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108776844B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829588A (zh) * | 2019-02-13 | 2019-05-31 | 苏州大学 | 基于上下文的张量轨迹路径规划方法 |
CN110059291A (zh) * | 2019-03-15 | 2019-07-26 | 上海大学 | 一种基于gpu的三阶低秩张量补全方法 |
CN110287377A (zh) * | 2019-05-13 | 2019-09-27 | 湖南大学 | 在线社交网络的增量式组水平的话题流行度预测方法 |
CN110287485A (zh) * | 2019-06-11 | 2019-09-27 | 天津大学 | 一种基于主题建模的社会群体间影响力量化方法 |
CN110489655A (zh) * | 2019-09-16 | 2019-11-22 | 浙江同花顺智能科技有限公司 | 热门内容确定、推荐方法、装置、设备及可读存储介质 |
CN110855773A (zh) * | 2019-11-09 | 2020-02-28 | 北京工业大学 | 一种Web中面向服务环境中的基于张量的信任评估方法 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111428741A (zh) * | 2018-12-20 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 网络社区的发现方法、装置、电子设备及可读存储介质 |
CN111858972A (zh) * | 2020-07-28 | 2020-10-30 | 山东大学 | 一种基于家庭知识图谱的电影推荐方法 |
CN112288195A (zh) * | 2020-11-24 | 2021-01-29 | 北京智源人工智能研究院 | 基于好友行为预测中心用户行为的方法、装置和电子设备 |
CN112396237A (zh) * | 2020-11-24 | 2021-02-23 | 南京航空航天大学 | 一种社交网络中的链接预测方法 |
CN112541548A (zh) * | 2020-12-14 | 2021-03-23 | 百果园技术(新加坡)有限公司 | 关系网络的生成方法、装置、计算机设备及存储介质 |
CN114201669A (zh) * | 2021-11-19 | 2022-03-18 | 西安电子科技大学 | 一种基于词嵌入与协同过滤技术的api推荐方法 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185578A1 (en) * | 2009-01-22 | 2010-07-22 | Nec Laboratories America, Inc. | Social network analysis with prior knowledge and non-negative tensor factorization |
CN104268648A (zh) * | 2014-09-28 | 2015-01-07 | 福州大学 | 融合用户多种交互信息和用户主题信息的用户排名系统 |
CN106649657A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 面向社交网络基于张量分解的上下文感知推荐系统及方法 |
CN106651016A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 一种热点话题下动态预测用户行为的系统及方法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
-
2018
- 2018-04-13 CN CN201810332563.9A patent/CN108776844B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185578A1 (en) * | 2009-01-22 | 2010-07-22 | Nec Laboratories America, Inc. | Social network analysis with prior knowledge and non-negative tensor factorization |
CN104268648A (zh) * | 2014-09-28 | 2015-01-07 | 福州大学 | 融合用户多种交互信息和用户主题信息的用户排名系统 |
CN106649657A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 面向社交网络基于张量分解的上下文感知推荐系统及方法 |
CN106651016A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 一种热点话题下动态预测用户行为的系统及方法 |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428741A (zh) * | 2018-12-20 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 网络社区的发现方法、装置、电子设备及可读存储介质 |
CN109829588A (zh) * | 2019-02-13 | 2019-05-31 | 苏州大学 | 基于上下文的张量轨迹路径规划方法 |
CN110059291A (zh) * | 2019-03-15 | 2019-07-26 | 上海大学 | 一种基于gpu的三阶低秩张量补全方法 |
CN110287377B (zh) * | 2019-05-13 | 2021-11-23 | 湖南大学 | 在线社交网络的增量式组水平的话题流行度预测方法 |
CN110287377A (zh) * | 2019-05-13 | 2019-09-27 | 湖南大学 | 在线社交网络的增量式组水平的话题流行度预测方法 |
CN110287485A (zh) * | 2019-06-11 | 2019-09-27 | 天津大学 | 一种基于主题建模的社会群体间影响力量化方法 |
CN110287485B (zh) * | 2019-06-11 | 2023-08-18 | 天津大学 | 一种基于主题建模的社会群体间影响力量化方法 |
CN110489655A (zh) * | 2019-09-16 | 2019-11-22 | 浙江同花顺智能科技有限公司 | 热门内容确定、推荐方法、装置、设备及可读存储介质 |
CN110855773A (zh) * | 2019-11-09 | 2020-02-28 | 北京工业大学 | 一种Web中面向服务环境中的基于张量的信任评估方法 |
CN110855773B (zh) * | 2019-11-09 | 2023-03-31 | 北京工业大学 | 一种Web中面向服务环境中的基于张量的信任评估方法 |
CN111241421B (zh) * | 2020-01-14 | 2022-07-01 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111858972B (zh) * | 2020-07-28 | 2023-01-31 | 山东大学 | 一种基于家庭知识图谱的电影推荐方法 |
CN111858972A (zh) * | 2020-07-28 | 2020-10-30 | 山东大学 | 一种基于家庭知识图谱的电影推荐方法 |
CN112288195B (zh) * | 2020-11-24 | 2021-08-31 | 北京智谱华章科技有限公司 | 基于好友行为预测中心用户行为的方法、装置和电子设备 |
CN112396237A (zh) * | 2020-11-24 | 2021-02-23 | 南京航空航天大学 | 一种社交网络中的链接预测方法 |
CN112288195A (zh) * | 2020-11-24 | 2021-01-29 | 北京智源人工智能研究院 | 基于好友行为预测中心用户行为的方法、装置和电子设备 |
CN112541548A (zh) * | 2020-12-14 | 2021-03-23 | 百果园技术(新加坡)有限公司 | 关系网络的生成方法、装置、计算机设备及存储介质 |
CN114201669A (zh) * | 2021-11-19 | 2022-03-18 | 西安电子科技大学 | 一种基于词嵌入与协同过滤技术的api推荐方法 |
CN114201669B (zh) * | 2021-11-19 | 2023-02-03 | 西安电子科技大学 | 一种基于词嵌入与协同过滤技术的api推荐方法 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108776844B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108776844A (zh) | 基于上下文感知张量分解的社交网络用户行为预测方法 | |
CN108509551B (zh) | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 | |
Chen et al. | NPP: A neural popularity prediction model for social media content | |
CN108304867B (zh) | 面向社交网络的信息流行度预测方法及系统 | |
CN104239385B (zh) | 用于推断主题之间的关系的方法和系统 | |
CN103064917B (zh) | 一种面向微博的特定倾向的高影响力用户群发现方法 | |
CN109033408B (zh) | 信息推送方法及装置、计算机可读存储介质、电子设备 | |
CN110825948B (zh) | 基于促谣-辟谣消息和表示学习的谣言传播控制方法 | |
CN102708153B (zh) | 自适应在线社交网络热点话题发展趋势预测方法及系统 | |
CN109299808B (zh) | 基于群体劝说力建模的网民观点演化趋势预测方法 | |
CN103077247B (zh) | 一种社交网络中的朋友关系传递树的建立方法 | |
CN105809554A (zh) | 一种社交网络中用户参与热点话题的预测方法 | |
CN106651030A (zh) | 一种改进的rbf神经网络热点话题用户参与行为预测方法 | |
CN111242310A (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
CN111563770A (zh) | 一种基于特征差异化学习的点击率预估方法 | |
Salim et al. | Data analytics of social media 3.0: Privacy protection perspectives for integrating social media and Internet of Things (SM-IoT) systems | |
CN115660147A (zh) | 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统 | |
Huang et al. | Information fusion oriented heterogeneous social network for friend recommendation via community detection | |
Lerner et al. | Conditional independence in dynamic networks | |
Xiao et al. | User behavior prediction of social hotspots based on multimessage interaction and neural network | |
Meng et al. | POI recommendation for occasional groups Based on hybrid graph neural networks | |
Zelenskiy et al. | Software and algorithmic decision support tools for real estate selection and quality assessment | |
Yang et al. | Lstm network-based adaptation approach for dynamic integration in intelligent end-edge-cloud systems | |
Šuvakov et al. | Agent-based simulations of emotion spreading in online social networks | |
Kadge et al. | Graph based forecasting for social networking site |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |