CN111241421A - 基于社交上下文信息的用户转发行为预测方法 - Google Patents

基于社交上下文信息的用户转发行为预测方法 Download PDF

Info

Publication number
CN111241421A
CN111241421A CN202010034448.0A CN202010034448A CN111241421A CN 111241421 A CN111241421 A CN 111241421A CN 202010034448 A CN202010034448 A CN 202010034448A CN 111241421 A CN111241421 A CN 111241421A
Authority
CN
China
Prior art keywords
user
node
message
probability
concerned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010034448.0A
Other languages
English (en)
Other versions
CN111241421B (zh
Inventor
杨力
郭慧慧
刘泽宇
张岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010034448.0A priority Critical patent/CN111241421B/zh
Publication of CN111241421A publication Critical patent/CN111241421A/zh
Application granted granted Critical
Publication of CN111241421B publication Critical patent/CN111241421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于社交上下文信息的用户转发行为预测方法,用于解决现有技术中存在的预测准确率较低的技术问题,实现步骤为:(1)收集社交网络中的数据;(2)构建每个用户的社交网络图;(3)计算用户的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度;(4)计算用户的成对影响力和结构影响力;(5)获取用户的社交上下文信息;(6)基于社交上下文信息构建逻辑回归模型来预测用户的转发行为。本发明提出的方法依赖于用户的局部网络结构,将用户转发消息的主题概率分布和结构响力函数作为社交上下文信息集成到逻辑回归模型中,使得本发明更好地量化了转发行为的影响因素,可以提高用户转发行为的预测准确率。

Description

基于社交上下文信息的用户转发行为预测方法
技术领域
本发明属于社交网络分析及数据挖掘技术领域,涉及一种用户转发行为预测方法,具体涉及一种基于社交上下文信息的用户转发行为预测方法,可用于社交网络中用户转发行为的预测。
背景技术
随着互联网及社交媒体的发展和普及,社交网络逐渐成为用户进行信息获取、分享和交流的重要平台,极大程度上满足了用户的社交需求,每时每刻都进行着信息的交互。社交网络通过微博、博客、社区等多种途径,实现人与人之间的互联,最终形成了联系紧密的社交圈。社交网络具有传播快、范围广、影响大的特点,成为信息传播的重要途经,转发行为被认为是信息在网络中进行传播的重要机制。社交网络记录了大规模的用户活动数据,这些数据对于用户行为规律具有重要的研究意义和应用价值。目前,对社交网络分析的研究主要包括用户行为分析、社交网络情感分析、信息传播规律、影响力最大化等方面,其中,用户转发行为预测方法可以为推荐系统、个性化搜索和市场营销等应用提供保障。因此,转发行为预测建模成为研究者们关注的热点问题。
用户转发行为的分析是实现转发行为预测的基础,想要判断给定的用户是否会转发待预测的消息,首先需要分析影响用户转发与否的因素,继而将这些因素用合理的数学模型表示,并通过机器学习方法进行模型训练,最后完成预测任务。用户转发行为预测的首要任务是分析和探索影响用户转发行为的主要驱动因素。因此,基于数据统计的定性分析方法集中挖掘对用户转发行为产生影响的一些主要因素,如粉丝数、关注数、用户是否认证、用户兴趣偏好、消息文本内容的话题分布和情感倾向性等,这些前期定性分析为后面的转发行为影响因素量化研究奠定了坚实的建模基础。研究用户的行为预测这个问题,现有的解决方案大多都集中于将影响因素作为特征加入预测模型,而对于预测模型而言,许多研究将用户行为预测问题视作二分类问题。
例如,申请公布号为CN 107341571 A,名称为“一种基于量化社会影响力的社交网络用户行为预测方法”,公开了一种基于量化社会影响力的社交网络用户行为预测方法,该方法包括数据爬取、数据预处理、构建网络图、用户兴趣提取、用户间影响力量化、预测建模及模型训练评估。该方法存在的不足之处是:社交网络用户行为预测方法中只是通过用户的兴趣量化社交影响力来推测用户的行为,没有充分考虑接收消息的及时性和活跃邻居形成的圈子数量对目标用户的影响,缺乏对用户交互行为的多元性和动态性的研究,降低了用户行为预测的准确性。
发明内容
本发明的目的在于克服上述现有技术的不足,提出了一种基于社交上下文信息的用户转发行为预测方法,用于解决现有技术中存在的用户转发行为预测准确率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)收集社交网络中的数据:
(1a)随机选取社交网络中一个用户作为种子用户,并爬取该种子用户的关注用户,组成第一关注用户集合;
(1b)爬取第一关注用户集合中每个关注用户的关注用户,组成第二关注用户集合,并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U;
(1c)爬取用户集合U中每个用户vi在连续t个时间段发布的文本消息,并对所有的文本消息进行预处理,然后将前t-1个时间段发布的经过预处理所获取的的分词集合作为用户的历史消息,将第t个时间段发布的M条文本消息经过预处理所获取的分词集合作为M条待预测消息,M≥500;
(2)构建每个用户的社交网络图Gi
以用户集合U中的每个用户vi以及vi的关注用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi,有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率;
(3)计算用户vi的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度JSD(Pv||Pm):
(3a)将用户vi的历史消息和M条待预测消息分别作为LDA主题生成模型的输入,计算vi的历史消息的主题概率分布Pv和每条待预测消息的主题概率分布Pm
Figure BDA0002365459900000031
(3b)计算用户vi的历史消息的主题概率分布Pv与待预测消息的主题概率分布Pm的JS散度JSD(Pv||Pm):
Figure BDA0002365459900000032
Figure BDA0002365459900000033
其中,
Figure BDA0002365459900000034
Pv(k)表示第k个主题生成用户兴趣文档
Figure BDA00023654599000000313
的概率,Pa(k)表示Pa中的第k个概率值,∑表示求和操作,K表示LDA主题生成模型的主题个数,k=1,2,...,K;
(4)计算用户vi的成对影响力f(V,Gi)和结构影响力
Figure BDA00023654599000000314
(4a)以社交网络图Gi中的节点vi为出发点,沿Gi中的有向边随机游走,以第一概率随机选择与节点vi相邻的边,并沿该边移动到下一节点,或者以第二概率返回节点vi后,以下一个节点或节点vi为出发点重复随机游走过程,经过迭代直至社交网络图Gi中每个节点的概率值达到稳定状态,得到节点vi到其他节点vj,即其他节点vj对节点vi的影响力Infij的稳定概率分布;
(4b)计算用户vi的成对影响力f(V,Gi)和结构影响力
Figure BDA00023654599000000315
Figure BDA0002365459900000035
Figure BDA0002365459900000038
其中,V表示用户vi的关注用户节点集合,
Figure BDA0002365459900000039
表示在第t时间段转发用户vi发布的文本消息的用户所组成的活跃邻居集合,
Figure BDA00023654599000000310
表示用户vj转发消息与用户vi转发消息的时间差,vj∈V,a表示平衡因子参数,μ表示衰减因子参数,
Figure BDA00023654599000000311
表示
Figure BDA00023654599000000312
所形成的社交圈的集合;
(5)获取用户vi的社交上下文信息Xi,m
计算用户vi的局部影响力
Figure BDA0002365459900000036
并将
Figure BDA0002365459900000037
和JS散度JSD(Pv||Pm)作为用户vi的社交上下文信息Xi,m
Figure BDA0002365459900000041
其中,δ表示平衡f(V,Gi)和
Figure BDA0002365459900000042
权重的参数;
(6)基于社交上下文信息Xi,m获取用户vi的转发行为的预测结果:
(6a)将步骤(1)中收集到的半数以上数据对应的社交上下文信息作为训练集,其余数据对应的社交上下文信息作为测试集;
(6b)将训练集作为逻辑回归分类模型h(X)的输入,并通过似然函数L(β),采用梯度下降法进行迭代训练,得到训练好的逻辑回归分类模型h(X)';
(6c)将测试集作为训练好的逻辑回归分类模型h(X)'的输入,对用户的转发行为进行预测,并对预测结果与预先设置的阈值进行比较,当预测结果大于等于预先设置的阈值时,则用户vi在第t时间段转发了消息m,否则,用户vi在第t时间段没有转发消息m。
本发明与现有技术相比,具有如下优点:
本发明通过分析社交上下文信息,将社交网络中用户发布的历史消息与待预测消息的主题概率分布的相似性,以及社交网络的局部影响力作为用户转发行为的影响因素,来预测社交网络中用户的转发行为,本发明的建模思想更符合社交网络中用户转发行为的真实场景,充分考虑接收消息的及时性和活跃邻居形成的圈子数量对目标用户转发行为的影响,更好地捕捉了用户转发行为的外在影响因素,克服了现有方法仅考虑单一方面的影响因素的问题,可以有效提高用户转发行为的预测准确率。
附图说明
图1为本发明的实现流程图;
图2为本发明用户v1的社交网络图G1
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)收集社交网络中的数据:
步骤1a)随机选取社交网络中一个用户作为种子用户,爬取该种子用户的关注用户,组成第一关注用户集合S,S={s1,s2,...,si,...,ss};
步骤1b)爬取第一关注用户集合中每个用户si的关注用户,组成第二关注用户集合Vi,Vi={vi1,vi2,...,vij,...,viL},其中,si表示种子用户的第i个关注用户,vij表示用户si的第j个关注用户,L表示用户si的关注用户总数;
现有的数据采集方法主要包括系统日志采集方法、网络爬虫方法和特定系统接口方法,在本实施例中采用但不限于通过API(Application Programming Interface,应用程序编程接口)爬取社交网络中的数据,即以国内大型微博网络——新浪微博作为待研究的社交网络。当用户A关注用户B时,B的活动(例如发布原创消息和转发消息)将对A可见,然后A可以选择转发由B发布的消息,在本实施例中s取100,L取100。由于社交网络记录了大规模的用户行为数据,为了捕获用户转发行为的影响因素,需要爬取大量用户数据来进行分析与挖掘。
步骤1c)爬取用户集合U中每个用户vi在连续t个时间段发布的文本消息,并对所有的文本消息进行预处理,然后将前t-1个时间段发布的经过预处理所获取的的分词集合作为用户的历史消息,将第t个时间段发布的M条文本消息经过预处理所获取的分词集合作为M条待预测消息,M≥500。
由于爬取的原始文本消息中存在着大量的噪声信息,会对后面的文本内容分析造成干扰,因此需要过滤掉无关信息。在本实施例中对文本内容进行过滤处理主要包括删除重复数据、去除无用的空格及符号、去除停用词与无意义词。分词处理的具体操作为采用汉语分词工具对爬取到的所有文本消息进行分词处理,提取每条文本消息中的词语,得到每条文本消息的分词集合,然后将每条文本消息分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从每条文本消息的分词集合中剔除,用剩余词语组成文本消息最终的分词集合。本实施例中采用的汉词分词工具为中科院计算技术研究所研发的汉语词法分析系统ICTCLAS,采用的停用词列表为中国软件开发者社区CSDN提供的停用词列表。对文本内容的预处理主要会对LDA主题生成模型的分析结果产生影响,因此可以根据需求来调整对数据集进行预处理的具体操作。
步骤2)构建每个用户的社交网络图Gi
以用户集合U中的每个用户vi以及vi的关注用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi,有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率;
步骤2a)获取用户集合U中的每个用户vi在连续t个时间段关注的用户集合,统计用户vi对集合中的每个用户发布的消息的转发次数,将转发次数为零时对应的用户从集合中去除,得到用户集合Wi。以用户vi以及集合Wi中的用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi,有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率;
本发明构建的用户vi社交网络图Gi=(V,E),其中,V={v1,v2,...,vi,...,vn},|V|=n表示社交网络图Gi中有n个节点,E表示社交网络图Gi中的有向边,该有向边代表用户间的关注关系。例如边eij表示用户vi和用户vj之间存在关注关系,若Gi中的任意两个节点vi和vj之间存在关注关系,则在用户vi和用户vj之间存在一条有向边。
步骤2b)有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率。
首先,计算用户vi与其邻接节点vj之间转发消息的频率fij
Figure BDA0002365459900000061
其中,t表示用户发布消息所选取的时间段总数,
Figure BDA0002365459900000062
表示所选取的Δts时间段内用户vi和用户vj之间转发消息的平均数,Δts表示用户发布消息选取的第s个时间段;
然后,根据频率fij来计算转发概率:
Figure BDA0002365459900000063
其中,ρij表示节点vi对节点vj的转发概率,fij表示社交网络中用户节点vi和vj之间进行信息互动的频率。
本发明使用三元组(vi,t,m)来表示用户vi在第t时间段对于待预测消息m所执行的行为状态,将用户的行为状态记为
Figure BDA0002365459900000071
其中,
Figure BDA0002365459900000072
表示用户vi在t时刻转发了消息m,
Figure BDA0002365459900000073
表示用户vi在t时刻没有转发消息m。将第t时间段执行转发行为的用户称为活跃用户,反之则称为不活跃用户。在本实施例中,构建如图2所示的用户v1的社交网络图G1中V={v1,v2,v3,v4,v5},用户v1在第t时间段的活跃邻居集合为
Figure BDA0002365459900000079
在本实施例中节点v1与其邻居节点转发消息的频率分别是5、4、10、2,即f12=5,f13=4,f14=10,f15=2,则计算得到节点v1对活跃节点v2的转发概率是
Figure BDA0002365459900000075
以此类推,最终可以得到如表1所示的节点v1对其活跃邻居节点之间的转发概率。
表1
Figure BDA0002365459900000074
步骤3)计算用户vi的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度JSD(Pv||Pm):
步骤3a)将用户vi的历史消息组成用户兴趣文档
Figure BDA0002365459900000076
将每一条待预测消组成消息文档Dm,并通过LDA主题生成模型抽取
Figure BDA0002365459900000077
的K个主题和Dm的K个主题,计算每个主题生成用户兴趣文档
Figure BDA0002365459900000078
的概率Pv(k),并将Pv(1),Pv(2),...,Pv(k),...,Pv(K)组成用户vi的历史消息的主题概率分布
Figure BDA0002365459900000081
同时计算每个主题生成消息文档Dm的概率Pm(k),并将Pm(1),Pm(2),...,Pm(k),...,Pm(K)组成待预测消息的主题概率分布
Figure BDA0002365459900000082
LDA(Latent Dirichlet Allocation Model)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA主题生成模型对给定文档的主题分布进行建模,具体地说,就是对每个文档中的主题信息进行抽取,得到每个文档中的主题概率分布。所谓生成模型,就是认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布,这种非监督机器学习技术可以用来识别大规模文档集中潜藏的主题信息。
步骤3b)计算用户vi的历史消息的主题概率分布Pv与待预测消息的主题概率分布Pm的JS散度JSD(Pv||Pm):
Figure BDA0002365459900000083
Figure BDA0002365459900000084
其中,
Figure BDA0002365459900000085
Pv(k)表示第k个主题生成用户兴趣文档
Figure BDA0002365459900000086
的概率,Pa(k)表示Pa中的第k个概率值,∑表示求和操作,K表示LDA主题生成模型的主题个数,k=1,2,...,K。
在本实施例中,使用LDA模型计算主题概率分布时,需要确定合适的主题数量K,可以自己定义一个测试范围,进行多次实验来确定合适的K值。选取过程是:先选取初始k值,得到初始模型,计算各主题之间的相似度,然后增加或减少k的值,重新训练得到模型,再次计算主题之间的相似度,最后重复第二步直到得到最优的k值。假设我们得到最优的K=2,对于用户vi的历史消息组成用户兴趣文档
Figure BDA0002365459900000087
通过LDA主题生成模型得到用户vi的历史消息的主题概率分布Pv={0.5,0.5},并得到待预测消息的主题概率分布Pm={0.25,0.75},使用KL散度计算得到DKL(Pv||Pa)=0.032,DKL(Pm||Pa)=0.036,使用JS散度计算得到JSD(Pv||Pm)=0.034。
步骤4)计算用户vi的成对影响力f(V,Gi)和结构影响力
Figure BDA0002365459900000099
步骤4a)将社交网络图Gi中每条有向边的权重作为转移概率,得到转移矩阵A,其中,A中的元素ai,j表示节点vj下一步到达节点vi的转移概率。计算社交网络图Gi中每个节点的概率值
Figure BDA0002365459900000091
计算公式如下:
Figure BDA0002365459900000092
其中,
Figure BDA0002365459900000093
表示节点vi在第s步到达节点vj的概率,ri={r1,r2,...,rj,...,rl}T表示重启动向量,rj表示出发点在节点vj的概率,α为返回节点vi的重启概率,l为社交网络图Gi中的节点数目。
Figure BDA0002365459900000094
ri是列向量,若初始游走节点为vj,则ri中rj的值取1,其余为0。
步骤4b)从社交网络图Gi中的节点vi出发,沿着网络图中的边随机游走,每一步面临两个选择,以第一概率随机选择相邻节点,或者以第二概率返回开始节点后,以下一个节点或节点vi为出发点重复随机游走过程,经过迭代直至
Figure BDA0002365459900000095
收敛到一个平稳的状态,得到节点vi到其他节点vj的稳定概率分布,该稳定概率分布表示的是其他节点vj对节点vi的影响力Infij
在本实施例中,以用户v1的社交网络图G1为例,构造出的转移矩阵A为:
Figure BDA0002365459900000096
若随机游走者从节点v1开始随机游走,则初始状态
Figure BDA00023654599000000910
故有r1=(1,0,0,0,0)T,经过若干次迭代之后,列向量P1收敛,收敛的概率值就是所求的稳定概率分布值。
步骤4c)计算用户vi的成对影响力f(V,Gi)和结构影响力
Figure BDA0002365459900000097
Figure BDA0002365459900000098
Figure BDA0002365459900000101
其中,V表示用户vi的关注用户节点集合,
Figure BDA0002365459900000109
表示在第t时间段转发用户vi发布的文本消息的用户所组成的活跃邻居集合,
Figure BDA00023654599000001010
表示用户vj转发消息与用户vi转发消息的时间差,vj∈V,a表示平衡因子参数,μ表示衰减因子参数,
Figure BDA00023654599000001011
表示
Figure BDA00023654599000001012
所形成的社交圈的集合。在本实施例中,用户v1在第t时间段的活跃邻居集合为
Figure BDA0002365459900000103
该活跃邻居集合形成2个社交圈,分别为circle 1={v1,v2,v3},circle 2={v1,v4},则
Figure BDA0002365459900000104
步骤5)获取用户vi的社交上下文信息Xi,m
计算用户vi的局部影响力
Figure BDA0002365459900000105
并将
Figure BDA0002365459900000106
和JS散度JSD(Pv||Pm)作为用户vi的社交上下文信息Xi,m
Figure BDA0002365459900000107
其中,δ表示平衡f(V,Gi)和
Figure BDA0002365459900000108
权重的参数;
对于不同的用户群体其取值可能大不相同,如果用户的行为模式变化不大,不容易受到周围人的干扰,则δ的值可设置的相对较大。反之,如果用户的行为模式波动较大,偏向于从周围人来获取知识,则δ的值可设置相对较小。因此,在本实施例中,可以在区间[0.3,1.0]进行调试,根据最终的性能来决定δ的取值。
步骤6)基于社交上下文信息Xi,m获取用户vi的转发行为的预测结果:
步骤6a)将步骤(1)中收集到的半数以上数据对应的社交上下文信息作为训练集,其余数据对应的社交上下文信息作为测试集;
步骤6b)将训练集作为逻辑回归分类模型h(X)的输入,并通过似然函数L(β),采用梯度下降法进行迭代训练,得到训练好的逻辑回归分类模型h(X)'。逻辑回归分类模型h(X)和似然函数L(β),其表达式分别为:
Figure BDA0002365459900000102
Figure BDA0002365459900000111
其中,X表示逻辑回归分类模型h(X)的特征向量,β为特征向量系数,e为自然对数,Q为训练集中的样本数目,X(q)表示第q个训练样本所对应的特征向量,y(q)表示第q个训练样本所对应的h(X(q))的值。
根据社交上下文信息对用户vi在第t时间段的转发行为进行预测,判断用户是否在第t时间段转发待预测消息。转发行为预测可以视作是一个分类问题:给定一条待预测消息m,用户vi和时间戳t,本发明的目的是判断用户vi在第t时间段是否会转发该消息m,也就是对用户vi在第t时间段的行为状态进行分类。使用逻辑回归分类模型的优势在于可以把不同的函数组合方便地集成到模型中。训练逻辑回归模型,就是为了求解h(X)中的未知参数β,为了求解h(X)中的未知参数β,就需要构建一个目标函数,这个目标函数就是似然函数L(β),接下来要做的就是求解使目标函数达到最大的未知参数β。对每一个未知参数βj,通过梯度下降法可以得到βj的更新过程,即
Figure BDA0002365459900000112
Figure BDA0002365459900000113
Figure BDA0002365459900000114
其中,μ为学习率,也称为参数βj变化的步长,通常步长可以取0.1,0.05,0.01等,j=1,2。如果设置的过小,会导致βj变化微小,需要经过多次迭代,收敛速度过慢,但如果设置的l(α,β)j过大,就很难得到理想的l(α,β)j值,进而导致似然函数可能是局部最小。所以,μ的初始值可以设置的大一点,当似然函数接近最优解的时候,再将学习率减小。
步骤6c)将测试集作为训练好的逻辑回归分类模型h(X)'的输入,对用户的转发行为进行预测,并对预测结果与预先设置的阈值进行比较,当预测结果大于等于预先设置的阈值时,则用户vi在第t时间段转发了消息m,否则,用户vi在第t时间段没有转发消息m。
对于模型的评估,可以选取常用的性能度量标准,如RMSE(Root Mean SquaredError,均方根误差)或是准确度、召回率和F值来评估模型的性能。
准确率(Precision)是为了评估转发预测模型的准确性,其计算公式如下:
Figure BDA0002365459900000121
召回率(Recall)是为了评估转发预测模型的全面性,其计算公式如下:
Figure BDA0002365459900000122
F1值(F1-Score)是准确率和召回率的综合评估,其计算公式如下:
Figure BDA0002365459900000123
在本实施例中,测试数据规模为1000,其中用户vi转发的消息有600条,未转发的有400条,先从中任意抽取500条进行测试,预测成功的有450条预测失败的有50条,则准确率=450/500=0.90,召回率=450/600=0.75,F1-score=(2×0.90×0.75)/(0.90+0.75)=0.82。当准确率或召回率越高,表明预测结果越好,当然在有些情况下,这两个度量指标会互相矛盾,因此才需要用F1值来综合考虑两者性能。

Claims (6)

1.一种基于社交上下文信息的用户转发行为预测方法,其特征在于,包括如下步骤:
(1)收集社交网络中的数据:
(1a)随机选取社交网络中一个用户作为种子用户,并爬取该种子用户的关注用户,组成第一关注用户集合;
(1b)爬取第一关注用户集合中每个关注用户的关注用户,组成第二关注用户集合,并将种子用户、第一关注用户集合和第二关注用户集合组成用户集合U;
(1c)爬取用户集合U中每个用户vi在连续t个时间段发布的文本消息,并对所有的文本消息进行预处理,然后将前t-1个时间段发布的经过预处理所获取的的分词集合作为用户的历史消息,将第t个时间段发布的M条文本消息经过预处理所获取的分词集合作为M条待预测消息,M≥500;
(2)构建每个用户的社交网络图Gi
以用户集合U中的每个用户vi以及vi的关注用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi,有向边对应的权重为关注用户对被关注用户所发布的文本消息的转发概率;
(3)计算用户vi的历史消息的主题概率分布和待预测消息的主题概率分布之间的JS散度JSD(Pv||Pm):
(3a)将用户vi的历史消息和M条待预测消息分别作为LDA主题生成模型的输入,计算vi的历史消息的主题概率分布Pv和每条待预测消息的主题概率分布Pm
Figure FDA0002365459890000011
(3b)计算用户vi的历史消息的主题概率分布Pv与待预测消息的主题概率分布Pm的JS散度JSD(Pv||Pm):
Figure FDA0002365459890000012
Figure FDA0002365459890000013
其中,
Figure FDA0002365459890000021
Pv(k)表示第k个主题生成用户兴趣文档
Figure FDA00023654598900000213
的概率,Pa(k)表示Pa中的第k个概率值,∑表示求和操作,K表示LDA主题生成模型的主题个数,k=1,2,...,K;
(4)计算用户vi的成对影响力f(V,Gi)和结构影响力
Figure FDA00023654598900000214
(4a)以社交网络图Gi中的节点vi为出发点,沿Gi中的有向边随机游走,以第一概率随机选择与节点vi相邻的边,并沿该边移动到下一节点,或者以第二概率返回节点vi后,以下一个节点或节点vi为出发点重复随机游走过程,经过迭代直至社交网络图Gi中每个节点的概率值达到稳定状态,得到节点vi到其他节点vj,即其他节点vj对节点vi的影响力Infij的稳定概率分布;
(4b)计算用户vi的成对影响力f(V,Gi)和结构影响力
Figure FDA0002365459890000022
Figure FDA0002365459890000023
Figure FDA0002365459890000024
其中,V表示用户vi的关注用户节点集合,
Figure FDA0002365459890000025
表示在第t时间段转发用户vi发布的文本消息的用户所组成的活跃邻居集合,
Figure FDA0002365459890000026
表示用户vj转发消息与用户vi转发消息的时间差,vj∈V,a表示平衡因子参数,μ表示衰减因子参数,
Figure FDA0002365459890000027
表示
Figure FDA0002365459890000028
所形成的社交圈的集合;
(5)获取用户vi的社交上下文信息Xi,m
计算用户vi的局部影响力
Figure FDA0002365459890000029
并将
Figure FDA00023654598900000210
和JS散度JSD(Pv||Pm)作为用户vi的社交上下文信息Xi,m
Figure FDA00023654598900000211
其中,δ表示平衡f(V,Gi)和
Figure FDA00023654598900000212
权重的参数;
(6)基于社交上下文信息Xi,m获取用户vi的转发行为的预测结果:
(6a)将步骤(1)中收集到的半数以上数据对应的社交上下文信息作为训练集,其余数据对应的社交上下文信息作为测试集;
(6b)将训练集作为逻辑回归分类模型h(X)的输入,并通过似然函数L(β),采用梯度下降法进行迭代训练,得到训练好的逻辑回归分类模型h(X)';
(6c)将测试集作为训练好的逻辑回归分类模型h(X)'的输入,对用户的转发行为进行预测,并对预测结果与预先设置的阈值进行比较,当预测结果大于等于预先设置的阈值时,则用户vi在第t时间段转发了消息m,否则,用户vi在第t时间段没有转发消息m。
2.根据权利要求1所述的基于社交上下文信息的用户转发行为预测方法,其特征在于,步骤(1c)中所述的对所有的文本消息进行预处理,实现步骤为:
(1c1)采用汉语分词工具对爬取到的文本消息进行分词处理,提取每条文本消息中的词语,得到每条文本消息的分词集合;
(1c2)将每条文本消息分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从每条文本消息的分词集合中剔除,用剩余词语组成文本消息最终的分词集合。
3.根据权利要求1所述的基于社交上下文信息的用户转发行为预测方法,其特征在于,步骤(2)中所述的构建每个用户的社交网络图Gi,实现步骤为:
(2a)获取用户集合U中的每个用户vi在连续t个时间段关注的用户集合,统计用户vi对集合中的每个用户发布的消息的转发次数,将转发次数为零时对应的用户从集合中去除,得到用户集合Wi
(2b)以用户vi以及集合Wi中的用户为节点,以关注用户指向被关注用户的关注关系为有向边构建vi的社交网络图Gi
4.根据权利要求1所述的基于社交上下文信息的用户转发行为预测方法,其特征在于,步骤(3a)中所述的vi的历史消息的主题概率分布Pv和每条待预测消息的主题概率分布Pm,实现步骤为:
(3a1)将用户vi的历史消息组成用户兴趣文档
Figure FDA0002365459890000031
将每一条待预测消组成消息文档Dm,并通过LDA主题生成模型抽取
Figure FDA0002365459890000041
的K个主题和Dm的K个主题;
(3a2)计算每个主题生成用户兴趣文档
Figure FDA0002365459890000042
的概率Pv(k),并将Pv(1),Pv(2),...,Pv(k),...,Pv(K)组成用户vi的历史消息的主题概率分布
Figure FDA0002365459890000043
同时计算每个主题生成消息文档Dm的概率Pm(k),并将Pm(1),Pm(2),...,Pm(k),...,Pm(K)组成待预测消息的主题概率分布
Figure FDA0002365459890000044
5.根据权利要求1所述的基于社交上下文信息的用户转发行为预测方法,其特征在于,步骤(4a)中所述的节点vi到其他节点vj的稳定概率分布,实现步骤为:
(4a1)将社交网络图Gi中每条有向边的权重作为转移概率,得到转移矩阵A,其中,A中的元素ai,j表示节点vj下一步到达节点vi的转移概率;
(4a2)计算社交网络图Gi中每个节点的概率值
Figure FDA0002365459890000045
Figure FDA0002365459890000046
其中,
Figure FDA0002365459890000047
Figure FDA0002365459890000048
表示节点vi在第s步到达节点vj的概率,ri={r1,r2,...,rj,...,rl}T表示重启动向量,rj表示出发点在节点vj的概率,α为返回节点vi的重启概率,l为社交网络图Gi中的节点数目;
(4a3)从社交网络图Gi中的节点vi出发,沿着网络图中的边随机游走,每一步面临两个选择,以第一概率随机选择相邻节点,或者以第二概率返回开始节点后,以下一个节点或节点vi为出发点重复随机游走过程,经过迭代直至
Figure FDA0002365459890000049
收敛到一个平稳的状态,得到节点vi到其他节点vj的稳定概率分布,该稳定概率分布表示的是其他节点vj对节点vi的影响力Infij
6.根据权利要求1所述的基于社交上下文信息的用户转发行为预测方法,其特征在于,步骤(6b)中所述的逻辑回归分类模型h(X)和似然函数L(β),其表达式分别为:
Figure FDA0002365459890000051
Figure FDA0002365459890000052
其中,X表示逻辑回归分类模型h(X)的特征向量,β为特征向量系数,e为自然对数,Q为训练集中的样本数目,X(q)表示第q个训练样本所对应的特征向量,y(q)表示第q个训练样本所对应的h(X(q))的值。
CN202010034448.0A 2020-01-14 2020-01-14 基于社交上下文信息的用户转发行为预测方法 Active CN111241421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010034448.0A CN111241421B (zh) 2020-01-14 2020-01-14 基于社交上下文信息的用户转发行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010034448.0A CN111241421B (zh) 2020-01-14 2020-01-14 基于社交上下文信息的用户转发行为预测方法

Publications (2)

Publication Number Publication Date
CN111241421A true CN111241421A (zh) 2020-06-05
CN111241421B CN111241421B (zh) 2022-07-01

Family

ID=70870999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010034448.0A Active CN111241421B (zh) 2020-01-14 2020-01-14 基于社交上下文信息的用户转发行为预测方法

Country Status (1)

Country Link
CN (1) CN111241421B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815028A (zh) * 2020-06-10 2020-10-23 湖北大学 一种突发热点事件的传播路径的预测方法和装置
CN112149037A (zh) * 2020-09-28 2020-12-29 微梦创科网络科技(中国)有限公司 基于逻辑回归的实时识别异常关注的方法及系统
CN112800336A (zh) * 2021-02-07 2021-05-14 东北大学 一种基于简谐振动理论的在线社交网络用户行为预测方法
CN112929445A (zh) * 2021-02-20 2021-06-08 山东英信计算机技术有限公司 一种面向推荐系统的链路预测方法、系统及介质
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113781110A (zh) * 2021-09-07 2021-12-10 中国船舶重工集团公司第七0九研究所 一种基于多因素加权bi-lstm学习的用户行为预测方法与系统
CN117539963A (zh) * 2024-01-10 2024-02-09 山东大学 一种社交网络数据动态分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159220A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Prediction of user response actions to received data
CN107203632A (zh) * 2017-06-01 2017-09-26 中国人民解放军国防科学技术大学 基于相似关系和共现关系的话题流行度预测方法
CN107566249A (zh) * 2016-10-28 2018-01-09 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN108776844A (zh) * 2018-04-13 2018-11-09 中国科学院信息工程研究所 基于上下文感知张量分解的社交网络用户行为预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130159220A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Prediction of user response actions to received data
CN107566249A (zh) * 2016-10-28 2018-01-09 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN107203632A (zh) * 2017-06-01 2017-09-26 中国人民解放军国防科学技术大学 基于相似关系和共现关系的话题流行度预测方法
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN108776844A (zh) * 2018-04-13 2018-11-09 中国科学院信息工程研究所 基于上下文感知张量分解的社交网络用户行为预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汤小东: "社交网络中基于情感模型的用户转发行为预测", 《现代计算机》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815028A (zh) * 2020-06-10 2020-10-23 湖北大学 一种突发热点事件的传播路径的预测方法和装置
CN112149037A (zh) * 2020-09-28 2020-12-29 微梦创科网络科技(中国)有限公司 基于逻辑回归的实时识别异常关注的方法及系统
CN112149037B (zh) * 2020-09-28 2024-03-19 微梦创科网络科技(中国)有限公司 基于逻辑回归的实时识别异常关注的方法及系统
CN112800336A (zh) * 2021-02-07 2021-05-14 东北大学 一种基于简谐振动理论的在线社交网络用户行为预测方法
CN112929445A (zh) * 2021-02-20 2021-06-08 山东英信计算机技术有限公司 一种面向推荐系统的链路预测方法、系统及介质
CN112929445B (zh) * 2021-02-20 2022-06-07 山东英信计算机技术有限公司 一种面向推荐系统的链路预测方法、系统及介质
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113781110A (zh) * 2021-09-07 2021-12-10 中国船舶重工集团公司第七0九研究所 一种基于多因素加权bi-lstm学习的用户行为预测方法与系统
CN113781110B (zh) * 2021-09-07 2024-03-26 中国船舶重工集团公司第七0九研究所 一种基于多因素加权bi-lstm学习的用户行为预测方法与系统
CN117539963A (zh) * 2024-01-10 2024-02-09 山东大学 一种社交网络数据动态分析方法及系统
CN117539963B (zh) * 2024-01-10 2024-04-05 山东大学 一种社交网络数据动态分析方法及系统

Also Published As

Publication number Publication date
CN111241421B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN111241421B (zh) 基于社交上下文信息的用户转发行为预测方法
Yang et al. I know you'll be back: Interpretable new user clustering and churn prediction on a mobile social application
Feng et al. Personalized recommendations based on time-weighted overlapping community detection
CN111080400B (zh) 一种基于门控图卷积网络的商品推荐方法及系统、存储介质
Tang et al. Cross-domain collaboration recommendation
Li et al. Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment
CN113919441A (zh) 一种基于超图变换网络的分类方法
CN114817663B (zh) 一种基于类别感知图神经网络的服务建模与推荐方法
Pan et al. Clustering of designers based on building information modeling event logs
Xiao et al. Link prediction based on feature representation and fusion
Crespo et al. Predicting teamwork results from social network analysis
Hsieh et al. A keyword-aware recommender system using implicit feedback on Hadoop
Ding et al. Session-based recommendation with hypergraph convolutional networks and sequential information embeddings
Qi et al. An efficient GAN-based predictive framework for multivariate time series anomaly prediction in cloud data centers
CN117216419B (zh) 基于ai技术的数据分析方法
Caschera et al. MONDE: a method for predicting social network dynamics and evolution
Oo et al. Detecting Influential Users in a Trending Topic Community Using Link Analysis Approach.
Rashid et al. OlapGN: a multi-layered graph convolution network-based model for locating influential nodes in graph networks
CN113256024B (zh) 一种融合群体行为的用户行为预测方法
Zheng et al. Predicting hot events in the early period through Bayesian model for social networks
Agrawal Fundamentals of machine learning
Mishra et al. Understanding the data science behind business analytics
CN114329231A (zh) 对象特征处理方法、装置、电子设备及存储介质
Das et al. Efficient sampling of information in social networks
He et al. A novel graph-based feature interaction model for click-through rate prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant