CN115033804B - 一种基于随机生长的社交网络关键转发者检测方法 - Google Patents
一种基于随机生长的社交网络关键转发者检测方法 Download PDFInfo
- Publication number
- CN115033804B CN115033804B CN202210633858.6A CN202210633858A CN115033804B CN 115033804 B CN115033804 B CN 115033804B CN 202210633858 A CN202210633858 A CN 202210633858A CN 115033804 B CN115033804 B CN 115033804B
- Authority
- CN
- China
- Prior art keywords
- data set
- push
- forwarding
- cascade
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000003190 augmentative effect Effects 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000003416 augmentation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于随机生长的社交网络关键转发者检测方法,首先利用源数据集的各个特征的值计算得到的重要性评分排序,抽取出前A的数据构成初始数据集,得到转发级联;然后通过转发级联,从源数据集中选取数据补充进入初始数据集,形成整体转发级联;再将整体转发级联进行随机生长产生随机生长数据集,随机生长数据集和初始数据集合成为新的中间数据集,形成增广转发级联;最后在随机生长数据集的基础上再次进行随机生长的操作,生成最终数据集;将最终数据集投入图卷积神经网络模型进行训练,得到用于检测社交网络中关键转发者的模型。本发明减少了训练模型的开销,提高了模型效率,为社交网络关键转发者的检测提供了有力的支持。
Description
技术领域
本发明涉及社交网络中关键转发者的检测方法,特别是一种基于随机生长的社交网络关键转发者检测方法。
背景技术
随着社会和科学技术的不断发展,互联网的普及,人与人之间的关系也越来越复杂,各种各样的社交平台层出不穷,这些基于互联网的社交平台已经渗透到人们生活的各个方面,每天人们都会在这些社交平台上阅览和转发数百条消息,在消息转发的过程中,那些影响力更大的转发者对这个过程具有绝对影响力,因此,识别消息传播过程中的关键转发者,并预测关键转发者对公众情绪,平台舆论趋势等产生的影响,在娱乐和商业推广等诸多领域均有着重要的意义。在研究某一具体事件的用户影响力时,现有的文献主要集中在使用底层网络拓扑的知识来识别社交网络中有影响力的用户,这就需要完整的网络拓扑信息,而对于大规模的社交网络来说,获取这些信息通常是困难和昂贵的,并且效率也不高。
发明内容
为了克服现有的社交网络检测关键转发者方法存在的开销大和效率低的不足,本发明提供了一种基于随机生长的社交网络关键转发者检测方法,能够高效率且低成本地对社交网络中潜在的关键转发者进行检测,从而合理有效地解决了现有检测方法效率低成本高的问题。
该方法首先将源数据集的各个特征的值按照AHP公式(层次分析法,可以将复杂问题中的各种因素通过划分重要性、两两比较的方法,对因素的重要性进行定量分析) 计算得到的重要性评分排序,从中按比例抽取出前A的数据构成初始数据集,得到他们的转发级联;然后通过转发级联,从源数据集中选取数据补充进入初始数据集,使原本分散的转发级联重新联系在一起,形成一个整体转发级联;然后根据源数据集,将整体转发级联进行随机生长产生随机生长数据集,随机生长数据集和初始数据集合成为新的中间数据集,形成增广转发级联,新的中间数据集中初始数据集和随机生长数据集的占比为B,打乱随机生长数据集;最后在随机生长数据集的基础上,再次进行随机生长的操作,生成最终数据集,使得初始数据集和随机生长数据集的占比为C;然后将最终数据集投入图卷积神经网络模型进行训练,得到了用于检测社交网络中关键转发者的模型。本发明的方法大大减少了训练模型的开销,提高了模型效率,为社交网络关键转发者的检测提供了有力的支持,从而为网络信息建设提供了智能化的辅助。
本发明的技术方案为:
所述一种基于随机生长的社交网络关键转发者检测方法,包括以下步骤:
步骤1:设置数据集标签:
从社交平台上获取源数据集R,所述源数据的特征参数包括推文特征和推文作者特征;
计算源数据中每条推文的重要性评分GII:
其中MIIj为推文作者ui发布的推文vj的影响力,计算公式如下:
MIIj=UII*TIIj
其中UII表示根据推文作者的特征计算得到的影响力,TIIj表示根据推文的特征计算得到的影响力;
步骤2:构建级联;
构建节点集合V:根据推文Id和推文的一对一映射关系,获得代表推文的节点集合V={v1,v2,v3,…,vn},其中n为推文的数量,vi表示V中第i个节点即第i篇推文,vj为第j篇推文;
构建边集合E:根据推文彼此之间的转发关系,获得代表推文转发关系的边集合 E={eij|0<i<m,0<j<m},其中m为转发事件的数量,如果推文vi的上级推文 Id与推文vj的Id相等,则vj为vi的父推文或者父节点,存在eij∈E,代表vi与vj之间存在转发关系;
根据构建的边集合E,获得n*n的邻接矩阵Adj,所述邻接矩阵Adj为源数据集R所构建的转发级联,邻接矩阵Adj中的元素满足公式:
邻接矩阵Adj的第i行向量[ai1,ai2,ai3,…,ain]代表节点集合V中第i篇推文vi的被转发信息:如果aij=1,那么节点集合V中第j篇推文vj转发了推文vi,推文vj有一条指向vi的有向边;
将源数据集R中的推文按照步骤1中计算出的重要性评分从大到小排序,取前A 条推文构成初始数据集F,并对这A条推文打上标签1,源数据集R中的其他推文打上标签0;根据初始数据集F中的推文,利用源数据集R所构建的转发级联,通过初始数据集F中的推文Id和上级推文Id构建出若干个转发级联Gi,且每个转发级联都有对应的根节点ri;
步骤3:数据集随机生长:
根据初始数据集F构建的多个转发级联Gi,从数据集R-F中找出能够连接所述转发级联Gi的节点所对应的推文Nk,并将推文Nk加入到初始数据集F中,使所有转发级联Gi生长为一个整体转发级联G′,且对应的初始数据集变为完整初始数据集F′;
根据整体转发级联G′,从数据集R-F′中随机选择部分推文SNi,直接添加进入整体转发级联G′作为新的节点,生成增广转发级联GZ,并对应形成中间数据集M,其中完整初始数据集F′和随机生长的数据集M-F′的推文数量比为B;
根据增广转发级联GZ,从数据集R-M中随机选择部分推文添加进入增广转发级联GZ作为新的节点,生成最终转发级联GF,并对应形成最终数据集L,其中完整初始数据集F′和随机生长的数据集L-F′的推文数量比为C;
步骤4:模型训练:
将所述最终数据集L的前D个推文携带标签,剩余推文不携带标签,并作为训练集投入图卷积神经网络进行半监督训练;
步骤5:将待检测的数据集投入训练好的图卷积神经网络中,输出数据集中每条推文的标签,根据标签判断推文是否为关键推文;统计待检测的数据集中的每位作者发布的推文数量以及其中关键推文数量,得到关键推文占比Rate,根据关键推文占比确定关键转发者。
进一步的,步骤1中,推文特征和推文作者特征为:
进一步的,步骤1中,根据推文作者的特征计算得到的影响力计算公式如下:
UII=wflerCnt*flerCnt+wflingCnt*flingCnt+wtweetCnt*tweetCnt+wloc*loc +wdes*des+wcredit*credit
flerCnt为推文作者的粉丝数,flingCnt为推文作者的关注数,tweetCnt为推文作者发布的推文数,loc为推文作者是否填写自己的地址,des为推文作者是否填写自己的个人描述,credit为推文作者的信用信息,wflerCnt、wflingCnt、wtweetCnt、wloc、wdes、 wcredit为对应的权重。
进一步的,权重wflerCnt=0.4942、wflingCnt=0.0882、wtweetCnt=0.2740、 wloc=0.0404、wdes=0.0404、wcredit=0.0629。
进一步的,步骤1中,根据推文的特征计算得到的影响力计算公式如下:
TIIj=TSIIj+TDIIj
TSIIj=whashtagCnt*hashtagCntj+wlen*lenj+wdist*distj+wmenCnt*menCntj
TDIIj=(wtweetFavCnt*tweetFavCntj+wretweetCnt*retweetCntj+wcommentCnt *commentCntj)*timej
hashtagCntj为当前推文vj的标签数量,lenj为当前推文vj的内容长度,distj为当前推文vj的发布地址,menCntj为当前推文vj的被引用次数;tweetFavCntj为当前推文vj的被点赞次数,retweetCntj为当前推文vj的被转发次数,commentCntj为当前推文vj的被评论次数;timej为当前推文vj的发布时间;whashtagCnt、wlen、wdist、wmenCnt、 wtweetFavCnt、wretweetCnt、wcommentCnt为对应的权重。
进一步的,权重whashtagCnt=0.0725、wlen=0.0285、wdist=0.0365、 wmenCnt=0.0556、wtweetFavCnt=0.3259、wretweetCnt=0.4255、wcommentCnt=0.0556。
进一步的,步骤2中的A为占比,取A=1/300。
进一步的,步骤3中比值B=1/2,比值C=1/9。
进一步的,步骤4中的D为占比,取D=1/20。
有益效果
针对传统的识别社交网络中有影响力的用户方法在开销大和效率低的问题。本发明在对数据集进行随机生长的基础上,采用了图卷积神经网络模型,通过少量的数据 (只采用部分网络拓扑信息)进行训练,在保证模型准确度的同时,减少了训练开销,提高了模型效率。此外,与使用底层网络拓扑的知识来识别社交网络中有影响力的用户的算法相比,本发明的方法充分利用了推文作者和推文本身的特征,大大提升了数据的可靠性,从而为数据建设提供了智能化辅助。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明方法原理框图。
具体实施方式
本发明针对社交网络中的关键转发者进行检测,在数据集的存储信息中,包含推文自身的特征和推文作者特征两种类型的数据项,各数据项又包含多个字段,例如推文作者特征的数据项有“当前推文作者的粉丝数”、“当前推文作者的关注数”、“当前推文作者发布的推文数”等字段。这些字段的数据会通过AHP公式计算得到重要性评分。本发明利用重要性评分对每条数据项进行标记,判断其是否是关键转发者,并打上相应的标签,再结合对数据集的随机生长和对应转发级联的构建,通过图卷积神经网络的半监督模型训练,实现社交网络中的关键转发者检测。
如图1所示,一种社交网络中关键转发者的检测方法,包括如下步骤:
步骤1:设置数据集标签;
定义从社交平台上获取的源数据集R的特征参数以及AHP权重;所述特征参数包括推文特征和推文作者特征;
采用AHP公式,计算源数据中每条数据项(即每条推文)的重要性评分GII,计算公式如下:
其中MIIj为推文作者ui发布的推文vj的影响力,计算公式如下:
MIIj=UII*TIIj
其中UII表示根据推文作者的特征计算得到的影响力,计算公式如下:
UII=wflerCnt*flerCnt+wflingCnt*flingCnt+wtweetCnt*tweetCnt+wloc*loc +wdes*des+wcredit*credit
flerCnt为推文作者的粉丝数,flingCnt为推文作者的关注数,tweetCnt为推文作者发布的推文数,loc为推文作者是否填写自己的地址,des为推文作者是否填写自己的个人描述,credit为推文作者的信用信息,wflerCnt、wflingCnt、wtweetCnt、wloc、wdes、 wcredit为对应的权重;权重wflerCnt=0.4942、wflingCnt=0.0882、wtweetCnt=0.2740、 wloc=0.0404、wdes=0.0404、wcredit=0.0629。
其中TIIj表示根据推文的特征计算得到的影响力,计算公式如下:
TIIj=TSIIj+TDIIj
TSIIj=whashtagCnt*hashtagCntj+wlen*lenj+wdist*distj+wmenCnt*menCntj
TDIIj=(wtweetFavCnt*tweetFavCntj+wretweetCnt*retweetCntj+wcommentCnt *commentCntj)*timej
hashtagCntj为当前推文vj的标签数量,lenj为当前推文vj的内容长度,distj为当前推文vj的发布地址,menCntj为当前推文vj的被引用次数;tweetFavCntj为当前推文vj的被点赞次数,retweetCntj为当前推文vj的被转发次数,commentCntj为当前推文vj的被评论次数;timej为当前推文vj的发布时间;whashtagCnt、wlen、wdist、wmenCnt、 wtweetFavCnt、wretweetCnt、wcommentCnt为对应的权重,权重whashtagCnt=0.0725、 wlen=0.0285、wdist=0.0365、wmenCnt=0.0556、wtweetFavCnt=0.3259、wretweetCnt= 0.4255、wcommentCnt=0.0556。
步骤2:构建级联;
构建节点集合V:根据推文Id和推文的一对一映射关系,获得代表推文的节点集合V={v1,v2,v3,…,vn},其中n为推文的数量,vi表示V中第i个节点即第i篇推文,vj为第j篇推文;
构建边集合E:根据推文彼此之间的转发关系,获得代表推文转发关系的边集合 E={eij|0<i<m,0<j<m},其中m为转发事件的数量,如果推文vi的上级推文 Id与推文vj的Id相等,则vj为vi的父推文或者父节点,存在eij∈E,代表vi与vj之间存在转发关系;
根据构建的边集合E,获得n*n的邻接矩阵Adj,所述邻接矩阵Adj为源数据集R所构建的转发级联,邻接矩阵Adj中的元素满足公式:
邻接矩阵Adj的第i行向量[ai1,ai2,ai3,…,ain]代表节点集合V中第i篇推文vi的被转发信息:如果aij=1,那么节点集合V中第j篇推文vj转发了推文vi,推文vj有一条指向vi的有向边;
将源数据集R中的推文按照步骤1中计算出的重要性评分从大到小排序,取占比为前1/300条推文构成初始数据集F,并对这A条推文打上标签1,源数据集R中的其他推文打上标签0;根据初始数据集F中的推文,利用源数据集R所构建的转发级联,通过初始数据集F中的推文Id和上级推文Id构建出若干个转发级联Gi(i≥0),且每个转发级联都有对应的根节点ri(i≥0)。
步骤3:数据集随机生长:
根据初始数据集F构建的多个转发级联Gi(i≥0),从数据集R-F中找出能够连接所述转发级联Gi的节点所对应的推文Nk,并将推文Nk加入到初始数据集F中,使所有转发级联Gi生长为一个整体转发级联G′,且对应的初始数据集变为完整初始数据集F′;
根据整体转发级联G′,从数据集R-F′中随机选择部分推文SNi(i≥0),直接添加进入整体转发级联G′作为新的节点,这个过程称为随机生长,生成增广转发级联GZ,并对应形成中间数据集M,其中完整初始数据集F′和随机生长的数据集M-F′的推文数量比为B,取B=1/2;
根据增广转发级联GZ,从数据集R-M中随机选择部分推文添加进入增广转发级联GZ作为新的节点,生成最终转发级联GF,并对应形成最终数据集L,其中完整初始数据集F′和随机生长的数据集L-F′的推文数量比为C,取C=1/9。
步骤4:模型训练:
将所述最终数据集L中的前1/20个推文携带标签,剩余推文不携带标签,作为训练集投入图卷积神经网络进行半监督训练;再将后(1-1/20)个数据作为测试数据集投入训练好的图卷积神经网络中进行结果测试。
步骤5:关键转发者检测:
将待检测的数据集投入训练好的图卷积神经网络中,输出数据集中每条推文的标签,根据标签判断推文是否为关键推文;由于一条推文可以唯一映射到一位推文作者,所以可以对每位推文作者的关键推文(标签为1的推文数量)的数量进行统计,再除以该作者在数据集R中发布的所有推文的数量,得到关键推文占比Rate,将推文作者按照Rate进行排序,即可得到关键转发者。
具体实施例:
1、设置数据集标签:
首先,定义从社交平台上获取的源数据集R的特征参数,以及AHP权重;接着,采用AHP公式,计算源数据中每条数据项的重要性评分。
2、构建级联:
利用源数据R构建推文的转发级联,该过程使用了每条数据项的特征参数中的“当前推文的上级推文Id”和“当前推文的Id”,最终可以得到代表转发级联的邻接矩阵。随后,根据步骤1计算得到的每条数据项的重要性评分从大到小排序,取前1/300个数据项构成初始数据集F,这些数据项可以根据推文Id和上级推文Id构建出多个转发级联,且每个转发级联都有对应的根节点。经实验,由下表可知使用图卷积神经网络模型进行社交网络关键转发者检测时,初始数据集阈值取1/300时,算法准确率最高。因此,将初始数据集阈值设定为1/300。
3、数据集随机生长:
根据初始数据集F构建的多个转发级联,从数据集R-F中找出可以连接这些转发级联的节点所在的数据项(即推文)Nk,加入到F中,使其生长为一个整体转发级联G′,对应的初始数据集变为完整初始数据集F′;
据整体转发级联G′,从数据集R-F′中随机选择部分数据项SNi,这些数据项满足SNi∈G′的子节点集合,所以他们可以直接添加进入整体转发级联G′,作为新的节点,这个过程称为随机生长,最终生成增广转发级联GZ,对应中间数据集M;
根据增广转发级联GZ,从数据集R-M中随机选择部分数据项进行随机生长操作,将他们添加进入增广转发级联GZ,作为新的节点,最终生成最终转发级联GF,对应最终数据集L;
4、训练模型:
将最终数据集的前1/20个数据携带标签,后(1-1/20)个数据不携带标签,将它们作为训练集投入图卷积神经网络进行半监督训练;
再将后(1-1/20)个数据作为测试数据集投入训练好的图卷积神经网络中进行结果测试;
经过测试,由下表可知使用图卷积神经网络模型进行社交网络关键转发者检测时,最终数据集中训练集的占比为1/20时,算法准确率最高,因此,将最终数据集中训练集的占比设定为1/20。
数据项 | 最终数据集中训练集的占比 | 准确率 |
社交网络 | 1/10 | 0.6923 |
1/20 | 0.7592 | |
1/30 | 0.7125 |
5、关键转发者检测:
将待检测的数据集投入训练好的模型中,输出每条推文是否具有影响力(输出其中的关键推文),由于一条推文可以唯一映射到一位推文作者,所以可以对每位推文作者的关键推文(标签为1的推文数量)的数量进行统计,再除以该作者在数据集R中发布的所有推文的数量,得到关键推文占比Rate,将推文作者按照Rate进行排序,即可得到关键转发者。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于随机生长的社交网络关键转发者检测方法,其特征在于:包括以下步骤:
步骤1:设置数据集标签:
从社交平台上获取源数据集R,所述源数据的特征参数包括推文特征和推文作者特征;
计算源数据中每条推文的重要性评分GII:
其中MIIj为推文作者ui发布的推文vj的影响力,计算公式如下:
MIIj=UII*TIIj
其中UII表示根据推文作者的特征计算得到的影响力,TIIj表示根据推文的特征计算得到的影响力;
步骤2:构建级联;
构建节点集合V:根据推文Id和推文的一对一映射关系,获得代表推文的节点集合V={v1,v2,v3,…,vn},其中n为推文的数量,vi表示V中第i个节点即第i篇推文,vj为第j篇推文;
构建边集合E:根据推文彼此之间的转发关系,获得代表推文转发关系的边集合E={eij|0<i<m,0<j<m},其中m为转发事件的数量,如果推文vi的上级推文Id与推文vj的Id相等,则vj为vi的父推文或者父节点,存在eij∈E,代表vi与vj之间存在转发关系;
根据构建的边集合E,获得n*n的邻接矩阵Adj,所述邻接矩阵Adj为源数据集R所构建的转发级联,邻接矩阵Adj中的元素满足公式:
邻接矩阵Adj的第i行向量[ai1,ai2,ai3,…,ain]代表节点集合V中第i篇推文vi的被转发信息:如果aij=1,那么节点集合V中第j篇推文vj转发了推文vi,推文vj有一条指向vi的有向边;
将源数据集R中的推文按照步骤1中计算出的重要性评分从大到小排序,取前A条推文构成初始数据集F,并对这A条推文打上标签1,源数据集R中的其他推文打上标签0;根据初始数据集F中的推文,利用源数据集R所构建的转发级联,通过初始数据集F中的推文Id和上级推文Id构建出若干个转发级联Gi,且每个转发级联都有对应的根节点ri;
步骤3:数据集随机生长:
根据初始数据集F构建的多个转发级联Gi,从数据集R-F中找出能够连接所述转发级联Gi的节点所对应的推文Nk,并将推文Nk加入到初始数据集F中,使所有转发级联Gi生长为一个整体转发级联G′,且对应的初始数据集变为完整初始数据集F′;
根据整体转发级联G′,从数据集R-F′中随机选择部分推文SNi,直接添加进入整体转发级联G′作为新的节点,生成增广转发级联GZ,并对应形成中间数据集M,其中完整初始数据集F′和随机生长的数据集M-F′的推文数量比为B;
根据增广转发级联GZ,从数据集R-M中随机选择部分推文添加进入增广转发级联GZ作为新的节点,生成最终转发级联GF,并对应形成最终数据集L,其中完整初始数据集F′和随机生长的数据集L-F′的推文数量比为C;
步骤4:模型训练:
将所述最终数据集L的前D个推文携带标签,剩余推文不携带标签,并作为训练集投入图卷积神经网络进行半监督训练;
步骤5:将待检测的数据集投入训练好的图卷积神经网络中,输出数据集中每条推文的标签,根据标签判断推文是否为关键推文;统计待检测的数据集中的每位作者发布的推文数量以及其中关键推文数量,得到关键推文占比Rate,根据关键推文占比确定关键转发者。
2.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:步骤1中,推文特征和推文作者特征为:
3.根据权利要求2所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:步骤1中,根据推文作者的特征计算得到的影响力计算公式如下:
UII=wflerCnt*flerCnt+wflingCnt*flingCnt+wtweetCnt*tweetCnt+wloc*loc+wdes*des+wcredit*credit
flerCnt为推文作者的粉丝数,flingCnt为推文作者的关注数,tweetCnt为推文作者发布的推文数,loc为推文作者是否填写自己的地址,des为推文作者是否填写自己的个人描述,credit为推文作者的信用信息,wflerCnt、wflingCnt、wtweetCnt、wloc、wdes、wcredit为对应的权重。
4.根据权利要求3所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:权重wflerCnt=0.4942、wflingCnt=0.0882、wtweetCnt=0.2740、wloc=0.0404、wdes=0.0404、wcredit=0.0629。
5.根据权利要求2所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:步骤1中,根据推文的特征计算得到的影响力计算公式如下:
TIIj=TSIIj+TDIIj
TSIIj=whashtagCnt*hashtagCntj+wlen*lenj+wdist*distj+wmenCnt*menCntj
TDIIj=(wtweetFavCnt*tweetFavCntj+wretweetCnt*retweetCntj+wcommentCnt*commentCntj)*timej
hashtagCntj为当前推文vj的标签数量,lenj为当前推文vj的内容长度,distj为当前推文vj的发布地址,menCntj为当前推文vj的被引用次数;tweetFavCntj为当前推文vj的被点赞次数,retweetCntj为当前推文vj的被转发次数,commentCntj为当前推文vj的被评论次数;timej为当前推文vj的发布时间;whashtagCnt、wlen、wdist、wmenCnt、wtweetFavCnt、wretweetCnt、wcommentCnt为对应的权重。
6.根据权利要求5所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:权重whashtagCnt=0.0725、wlen=0.0285、wdist=0.0365、wmenCnt=0.0556、wtweetFavCnt=0.3259、wretweetCnt=0.4255、wcommentCnt=0.0556。
7.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:步骤2中的A为占比,取A=1/300。
8.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:步骤3中比值B=1/2,比值C=1/9。
9.根据权利要求1所述一种基于随机生长的社交网络关键转发者检测方法,其特征在于:步骤4中的D为占比,取D=1/20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210633858.6A CN115033804B (zh) | 2022-06-06 | 2022-06-06 | 一种基于随机生长的社交网络关键转发者检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210633858.6A CN115033804B (zh) | 2022-06-06 | 2022-06-06 | 一种基于随机生长的社交网络关键转发者检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115033804A CN115033804A (zh) | 2022-09-09 |
CN115033804B true CN115033804B (zh) | 2024-02-27 |
Family
ID=83123834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210633858.6A Active CN115033804B (zh) | 2022-06-06 | 2022-06-06 | 一种基于随机生长的社交网络关键转发者检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033804B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3073433A1 (en) * | 2015-03-24 | 2016-09-28 | Xerox Corporation | Language identification on social media |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN111898041A (zh) * | 2020-07-20 | 2020-11-06 | 电子科技大学 | 一种结合社交网络的圈层用户综合影响力评估及伪造判别方法 |
CN111898040A (zh) * | 2020-07-20 | 2020-11-06 | 电子科技大学 | 一种结合社交网络的圈层用户影响力评估方法 |
CN113505307A (zh) * | 2021-09-06 | 2021-10-15 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395179B2 (en) * | 2015-03-20 | 2019-08-27 | Fuji Xerox Co., Ltd. | Methods and systems of venue inference for social messages |
-
2022
- 2022-06-06 CN CN202210633858.6A patent/CN115033804B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3073433A1 (en) * | 2015-03-24 | 2016-09-28 | Xerox Corporation | Language identification on social media |
CN107341571A (zh) * | 2017-06-27 | 2017-11-10 | 华中科技大学 | 一种基于量化社会影响力的社交网络用户行为预测方法 |
CN111898041A (zh) * | 2020-07-20 | 2020-11-06 | 电子科技大学 | 一种结合社交网络的圈层用户综合影响力评估及伪造判别方法 |
CN111898040A (zh) * | 2020-07-20 | 2020-11-06 | 电子科技大学 | 一种结合社交网络的圈层用户影响力评估方法 |
CN113505307A (zh) * | 2021-09-06 | 2021-10-15 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
Non-Patent Citations (1)
Title |
---|
社交网络高影响力用户发现算法研究;毋建军;;长沙大学学报;20180315(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115033804A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
Gómez et al. | A likelihood-based framework for the analysis of discussion threads | |
CN105868773A (zh) | 一种基于层次随机森林的多标签分类方法 | |
JP2019519042A (ja) | 情報をプッシュする方法及びデバイス | |
Guo et al. | Feature selection based on Rough set and modified genetic algorithm for intrusion detection | |
CN101091204A (zh) | 信息处理设备、信息处理方法和程序 | |
CN103580919B (zh) | 一种利用邮件服务器日志进行邮件用户标记的方法与系统 | |
CN111191099B (zh) | 一种基于社交媒体的用户活动类型识别方法 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
US11748426B2 (en) | Personalized comment recommendation method based on link prediction model of graph bidirectional aggregation network | |
CN111428151B (zh) | 一种基于网络增速的虚假消息识别方法及其装置 | |
CN112906790B (zh) | 一种基于用电数据的独居老人识别方法和系统 | |
CN109447110A (zh) | 综合邻居标签相关性特征和样本特征的多标签分类的方法 | |
CN113268675A (zh) | 一种基于图注意力网络的社交媒体谣言检测方法和系统 | |
Shah et al. | Artificial intelligence as a service for immoral content detection and eradication | |
CN115033804B (zh) | 一种基于随机生长的社交网络关键转发者检测方法 | |
CN111400617B (zh) | 基于主动学习的社交机器人检测数据集扩展方法及系统 | |
CN112560105B (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN112100515B (zh) | 一种用于社交媒体中假消息的检测方法 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
CN106844743B (zh) | 维吾尔语文本的情感分类方法及装置 | |
CN114003803A (zh) | 一种社交平台上特定地域的媒体账号发现方法及系统 | |
CN109558483B (zh) | 一种基于朴素贝叶斯模型的谣言识别方法 | |
JP2010286868A (ja) | コミュニティ形成システム、そのコミュニティ形成装置、そのデータ処理方法およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |