CN107330562A - 基于个体用户特征的信息传播方法 - Google Patents
基于个体用户特征的信息传播方法 Download PDFInfo
- Publication number
- CN107330562A CN107330562A CN201710548807.2A CN201710548807A CN107330562A CN 107330562 A CN107330562 A CN 107330562A CN 201710548807 A CN201710548807 A CN 201710548807A CN 107330562 A CN107330562 A CN 107330562A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mtd
- user
- mfrac
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002596 correlated effect Effects 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 8
- 230000000644 propagated effect Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 101150014742 AGE1 gene Proteins 0.000 claims description 2
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 9
- 238000007477 logistic regression Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Nitrogen And Oxygen Or Sulfur-Condensed Heterocyclic Ring Systems (AREA)
Abstract
本发明公开一种基于个体用户特征的信息传播方法,包括提取影响用户转发行为的相关特征;从社交网络中提取出用户的转发微博和未转发微博;为每个用户的历史数据为每个用户生成一个预测模型;确定参考好友的相关特征,建立参考好友选择模型,最后对参考好友模型进行求解;判断该用户是否拥有自己的转发预测模型,如果有则使用该用户自己的转发模型进行预测,如果没有则使用参考好友选择模型选择一个参考好友,通过该参考好友的转发预测模型进行预测。本发明克服了未考虑用户间关系的特征关系,以及使用同一个预测模型带来的同质性缺陷。本发明对于缺乏历史信息的新用户有较好的预测结果并且能够准确的反映真实社交网络上信息的传播规律。
Description
技术领域
本发明属于在线社交网络信息传播技术领域,特别涉及基于个体用户特征的信息传播方法。
背景技术
随着互联网快速的发展和在线社交平台的普及,信息的传播方式发生了根本的变化。四通八达的网络将人们无时无刻地联系在一起,打破了传统的通过熟人社交网络和中心节点进行信息传播。截止2016年6月中国网民数量已经高达7.10亿,2017年新浪的月活跃用户达到4亿,同比增长了46%。网络社交平台有助于国家政策的普及、商品的推广、新闻的传播等。微博作为Web2.0应用的代表,其对社会的影响备受关注。微博社交平台为人们提供了一个信息传播平台和言论自由的空间,然而在社交平台给大家带来诸多便利的同时,也有一些不法分子在网络上散布谣言以及制造舆论来破坏社会治安。因此如何有效的预测信息的传播成为亟待解决的难题。
国内外都对微博的信息传播模型展开了相关的研究,各有所侧重,总体上分为两种:一种是从宏观上入手,这类模型一般是基于仓室模型,侧重于信息传播时,不同人群总人数随时间变化的特征,例如:转发人数占总人数的比例,接收到信息的人数占总人数的比例等。另一种是从微观上入手,随着无标度网络、小世界网络等复杂网络的兴起,信息传播与在线社交网络的结合使信息传播模型的研究深入到了个人层面,所建立的信息传播模型通常会以复杂网络或者在线社交网络为基础,并考虑信息在传播时所涉及到的用户个体特征、用户在整个关系网络中的特征、用户之间的关系特征等。
经典的仓室模型是SIR模型,由Kermack等人在1927年提出,该模型将人群分为三类(即三个仓室):易感染者(S)、感染者(I)、移出者(R),不同类别的人群根据现实条件在三个仓室间迁移。张彦超等人建立的信息传播模型以SIR模型为基础,首先将社交网络中的节点状态划分为三种,可以传播信息的节点,可以接收信息的节点,已经接受但不传播信息的节点,并且节点间的状态可以相互转化。同时考虑了网络中节点度的相关性,以此制定相关的信息传播规则,并根据规则建立了信息传播的动力学演化方程组,从宏观的角度预测信息的传播趋势。但是这类信息传播模型反映的是全局的信息传播趋势,无法反映出每个用户在信息传播时所起到的作用,无法确定信息传播网络中的关键用户和影响信息传播的关键因素,因此目前大部分的研究主要从微观角度入手。王振飞等人提出的基于逻辑回归模型的微博转发预测方法,从微观角度入手,提取了用户和微博两者的特征,并结合逻辑回归算法实现了对微博的预测,并与传统方法进行对比实验验证了文本方法的正确性与有效性。马晓峰等人提出的基于混合特征学习的微博转发预测方法,在考虑用户与微博特征的同时,并对预测微博进行了分类,实验对比了不同主题类别微博的转发预测效果。Zhang等人提出的基于LDA的内容转发预测模型较基于词频的内容转发预测模型起到较好的预测结果。刘清提出的融合兴趣和行为的用户转发行为预测方法,在预测用户的转发行为时融合了用户的兴趣和历史行为特征。马莹莹提出的微博用户转发行为及情感预测研究重点考虑了情感因素对用户转发行为的影响。
在本发明之前,这些文章都从微观角度入手并考虑了一些用户的个体特征,但是仍然存在一下几方面的不足之处:(1)对用户的个体特征考虑不够全面,仅仅考虑用户兴趣与微博内容特征或者网络特征,并未考虑用户间关系的特征,例如两者是否互相提及过对方,这种关系往往比相互关注更加紧密。(2)所有的用户使用同一个预测模型,这样必然会使不同用户的预测结果出现同质性。
发明内容
本发明的目的在于克服上述缺陷,提供基于个体用户特征的信息传播方法。
本发明的技术方案为:
基于个体用户特征的信息传播方法,其主要技术特征在于,包括如下步骤:
(10)转发特征提取:提取影响用户转发行为的相关特征;
(20)历史数据提取:从社交网络中提取出用户的转发微博和未转发微博;
(30)为每个用户生成预测模型:通过每个用户的历史数据为每个用户生成一个预测模型;
(40)生成参考好友选择模型:首先确定参考好友的相关特征,然后建立参考好友选择模型,最后对参考好友模型进行求解;
(50)转发预测:当用户接受到一条新的微博时,首先判断该用户是否拥有自己的转发预测模型,如果有则使用该用户自己的转发模型进行预测,如果没有则使用参考好友选择模型选择一个参考好友,通过该参考好友的转发预测模型进行预测。
本发明与现有技术相比,其显著优点和效果为:可以更有效的预测每一个用户的转发行为,避免对不同用户转发预测时出现同质性,同时对于缺乏历史数据的新用户也有一定的预测能力。
下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
图1——本发明主框架示意图。
图2——本发明实体间的关系示意图。
图3——本发明逻辑回归算法、朴素贝叶斯算法、实验结果对比示意图。
图4——本发明特征箱线示意图,其中a为发送者权威箱线图,b为接收者对微博的兴趣箱线图,c为发送者意愿箱线图,d为发送者影响力箱线图。
具体实施方式
本发明的技术思路是基于如下问题而设计的:
研究信息的传播模型有利于预测信息传播的趋势和范围,可以反映出相关事件的发展趋势,有助于政策普及,使商业营销做出正确的决策并杜绝谣言、虚假信息、淫秽暴力信息的传播。但是信息在网络中传播时会受到不同因素的影响,如果仅仅考虑微博内容和用户兴趣对转发行为的影响并且所有用户共享一个预测模型,这样会导致预测模型不够精确。因此提出一个基于个体用户特征的信息传播方法来准确模拟信息在社交网络传播过程,有着重要的意义。
下面具体说明本发明。
如图1、2所示,本发明基于个体用户特征的信息传播方法,包括如下步骤:
(10)转发特征提取:提取影响用户转发行为的相关特征;
所述(10)转发特提取步骤具体为:
信息在社交网络中的传播可以划分为点到点的传播,每一个传播实例都会涉及到三个实体:信息发送者、信息接收者、传播的信息,实体间的关系如图2所示。影响用户转发行为的特征包括:信息发送者和信息接收者的属性特征、传播信息的特征、实体之间关系的特征。
转发特征表示如下:
1)节点的影响力:用户所有微博的转发量(AR),微博的数量为(AN)。
2)节点的权威度:M(Ui)是关注Ui的用户集合,Uj是Ui的一个粉丝,L(Uj)是Uj关注的数量,N是网络中总的用户数量。
3)节点是否认证:1表示认证,0表示未认证。
4)节点的活跃度:posts为发送微博的总数量,days为天数。
5)转发者转发微博的意愿:用户转发微博量retweet_post,关注数量fellowings_num。
6)是否包含URL:1未包含,0为未包含。
7)是否包含标签:1未包含,0为未包含。
8)是否为好友。相互关注的用户互称为好友。双边关系的好友相对于单边关系更加的紧密,因此有较大的概率会影响微博的转发。该特征的表示形式如公式(8)。
9)是否提及过对方:1表示提及,0表示未提及。
10)信息发送者和信息转发者的兴趣相似度:公式(11)为改进后的KL公式。p和q分别表示两个用户的兴趣向量。
11)信息接收者对信息感兴趣的程度:其中p代表用户的兴趣向量,q代表微博主题向量。
(20)历史数据提取:从社交网络中提取出用户的转发微博和未转发微博;所述(20)转发特提取步骤具体为:
(21)提取用户转发的微博:可以直接提取,用户ui的转发微博集合表示为
(22)提取用户未转发的微博:用户ui关注的用户集合为用户ui的转发微博集合对应的上一级微博集合为用户ui对应的未转发微博集合为
(30)为每个用户生成预测模型:为每个用户生成预测模型:通过每个用户的历史数据为每个用户生成一个预测模型;
所述(30)转发特提取步骤具体为:
首先判断用户历史转发微博数据是否大于100条。如果小于100条,则结束;如果大于100条,进行如下步骤:
1)按照步骤10所提取的特征,对步骤20所提取的数据进行处理,将用户数据表示成向量的形式。
2)使用处理后的向量,生成SVM预测模型。
(40)生成参考好友选择模型:首先确定参考好友的相关特征,然后建立参考好友选择模型,最后对参考好友模型进行求解;
所述(40)转发特提取步骤具体为:
(41)参考好友特征选择,选择如下特征:
1)性别是否相同:gender1,gender2分别代表两个用户的性别。
2)年龄的相似度:Age1,Age2分别表示两个用户的年龄,年龄越相近,相似度越高值越接近1。
3)兴趣相似度:ins1,ins2分别表示两个用户的兴趣向量。
4)关注相同微博的用户数目。其中seti(fellows),setj(fellows)分别表示用户i和用户j关注微博的集合,||seti(fellows)∪setj(fellows)||表示用户i和用户j关注微博的总数目,||seti(fellows)∩setj(fellows)||表示用户i和用户j关注相同微博的数量。
5)用户的权威相似度:Authority(ai),Authority(aj)分别表示两个用户的权威值。
(42)模型建立:步骤如下:
1)首先用所选取的特征建立一个特征向量,如公式(3-23)。
2)建立基础函数公式(27),其中u和v表示互相关注的两个微博用户,Φ为这两个用户间的关系特征,α0是常量,α1是好友特征的权重
fα(u,v)=α0+α1 TΦ (19)
3)使用贝叶斯逻辑斯蒂函数表示,两个用户对同一微博都转发的概率为p(u,v),如公式(28)。
4)G(V,E)为微博构成的网络,V是所有用户的集合,E是所有用户间的关注关系。对于用户集合中任意一个用户u,其好友集合为Fri(u),相互关注的用户互称为好友。用户u的好友集合中和用户u转发过相同微博的好友集合为SF(u)∈Fri(u),两个好友转发的相同微博的集合为SWei(u,v),||SWei(u,v)||表示集合SWei(u,v)中元素的数量。一个u用户和其中一个好友v转发过相同微博的概率为:。
5)SF(u)为用户u的好友集合中和用户u转发过相同微博的好友集合,用户u和所有好友转发过相同微博的概率为:
6)在整个数据集中好友间转发过相同微博的概率为:
7)最终形式为式:
8)满足全局似然概率f(G(V,E),α)最大的参数估计α即为该模型的解。计算出参数后将参数的值带入到公式(19),当选择一个用户参考好友时,将该用户与相邻好友的关系特征向量分别带入到公式(19),选择值最大的好友作为参考好友。
(43)好友模型求解
1)求上式(24)的解,等价于式(25)取得最小值时,α的值即为所求的解。
2)设参数α,目标函数L(α)=-lgf(G(V,E),α),该式的求解可以通过随机梯度下降算法来求解。首先初始化α(0)的值,然后根据要学习的数据集合,每次沿着目标函数的下降方向前进一小步,步伐的大小为δ,经过若干次迭代和对α值的更新,可以使目标函数收敛到全局或者局部的最优值。为了防止目标函数收敛的值是局部最优值,尝试不同的初始值,然后比较目标函数收敛后的值。
(50)转发预测:当用户接受到一条新的微博时,首先判断该用户是否拥有自己的转发预测模型,如果有则使用该用户自己的转发模型进行预测,如果没有则使用参考好友选择模型选择一个参考好友,通过该参考好友的转发预测模型进行预测。
所述(50)转发预测步骤包括:
(51)当一个用户接受到一个新的微博时,按照步骤(10)所提取的特征,对这条微博处理,将微博表示成特征向量;
(52)判断该用户是否拥有转发预测模型,如果有,使用自己的转发预测模型进行预测;如果没有,使用步骤(40)的参考好友选择模型从相邻的好友中选择出一位参考好友,通过该参考好友的转发预测模型进行预测。
为了验证本发明方法的有效性,对本发明方法进行下述实验分析。
硬件环境:英特尔第二代酷睿i5-2430M@2.40GHz双核
软件环境:Windows 7旗舰版64位
(61)图4为所选择的部分特征的箱线示意图,图4中a为发送者权威箱线图,b为接收者对微博的兴趣箱线图,c为发送者意愿箱线图,d为发送者影响力箱线图,以图4中a进行说明,可以看出相同特征在转发微博和未转发微博中的中位值和值域相差较大,因此这些特征具有良好的区分转发微博与未转发微博的能力。
(62)通过将基于个体用户特征的信息传播方法和逻辑回归算法(LR)、朴素贝叶斯算法(NB)进行对比,验证本方法的有效性。
在不同的数据量的情况下,使用F值来衡量本方法、逻辑回归算法(LR)、朴素贝叶斯算法(NB)的预测效果,结果都显示本方法都具有更好的效果,如图3所示。当用户数据量达到100-200的时候,逻辑回归算法和朴素贝叶斯算法迅速发挥作用,准确率迅速提高,但是其F值和本算法仍相差10%左右。
从图3中可以看出当用户的历史数据量不足100时,本方法通过相邻好友进行预测,准确率在接近40%,而朴素贝叶斯算法和逻辑回归算法由于历史数据的缺乏甚至没法进行预测。
Claims (6)
1.基于个体用户特征的信息传播方法,其特征在于,包括如下步骤:
(10)转发特征提取:提取影响用户转发行为的相关特征;
(20)历史数据提取:从社交网络中提取出用户的转发微博和未转发微博;
(30)转发预测:通过每个用户的历史数据为每个用户生成一个预测模型;
(40)生成参考好友选择模型:首先确定参考好友的相关特征,然后建立参考好友选择模型,最后对参考好友模型进行求解;
(50)转发预测:当用户接受到一条新的微博时,首先判断该用户是否拥有自己的转发预测模型,如果有则使用该用户自己的转发模型进行预测,如果没有则使用参考好友选择模型选择一个参考好友,通过该参考好友的转发预测模型进行预测。
2.根据权利要求1所述的基于个体用户特征的信息传播方法,其特征在于,所述步骤(10)转发特征提取步骤具体为:
提取影响用户转发行为的相关特征,信息在社交网络中的传播可以划分为点到点的传播,每一个传播实例都会涉及到三个实体:信息发送者、信息接收者、传播的信息,实体间的关系;影响用户转发行为的特征包括:信息发送者和信息接收者的属性特征、传播信息的特征、实体之间关系的特征;
转发特征表示如下:
1)节点的影响力:用户所有微博的转发量(AR),微博的数量为(AN);
<mrow>
<mi>I</mi>
<mi>n</mi>
<mi>f</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>A</mi>
<mi>R</mi>
</mrow>
<mrow>
<mi>A</mi>
<mi>N</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
2)节点的权威度:M(Ui)是关注Ui的用户集合,Uj是Ui的一个粉丝,L(Uj)是Uj关注的数量,N是网络中总的用户数量;
<mrow>
<mi>A</mi>
<mi>u</mi>
<mi>t</mi>
<mi>h</mi>
<mi>o</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>q</mi>
</mrow>
<mi>N</mi>
</mfrac>
<mo>+</mo>
<mi>q</mi>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<mi>M</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>U</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mfrac>
<mrow>
<mi>A</mi>
<mi>u</mi>
<mi>t</mi>
<mi>h</mi>
<mi>o</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>U</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
3)节点是否认证:1表示认证,0表示未认证;
<mrow>
<mi>V</mi>
<mi>e</mi>
<mi>r</mi>
<mi>i</mi>
<mi>f</mi>
<mi>i</mi>
<mi>e</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>V</mi>
<mi>e</mi>
<mi>r</mi>
<mi>i</mi>
<mi>f</mi>
<mi>i</mi>
<mi>e</mi>
<mi>d</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>U</mi>
<mi>n</mi>
<mi>v</mi>
<mi>e</mi>
<mi>r</mi>
<mi>i</mi>
<mi>f</mi>
<mi>i</mi>
<mi>e</mi>
<mi>d</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
4)节点的活跃度:posts为发送微博的总数量,days为天数;
<mrow>
<mi>A</mi>
<mi>c</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>t</mi>
<mi>s</mi>
</mrow>
<mrow>
<mi>d</mi>
<mi>a</mi>
<mi>y</mi>
<mi>s</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
5)转发者转发微博的意愿:用户转发微博量retweet_post,关注数量fellowings_num;
<mrow>
<mi>W</mi>
<mi>i</mi>
<mi>l</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>t</mi>
<mi>w</mi>
<mi>e</mi>
<mi>e</mi>
<mi>t</mi>
<mo>_</mo>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>t</mi>
</mrow>
<mrow>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
<mi>g</mi>
<mi>s</mi>
<mo>_</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
6)是否包含URL:1未包含,0为未包含;
<mrow>
<mi>U</mi>
<mi>R</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>I</mi>
<mi>n</mi>
<mi>c</mi>
<mi>l</mi>
<mi>u</mi>
<mi>d</mi>
<mi>e</mi>
<mi> </mi>
<mi>U</mi>
<mi>R</mi>
<mi>L</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>U</mi>
<mi>n</mi>
<mi>i</mi>
<mi>n</mi>
<mi>c</mi>
<mi>l</mi>
<mi>u</mi>
<mi>d</mi>
<mi>e</mi>
<mi> </mi>
<mi>U</mi>
<mi>R</mi>
<mi>L</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
7)是否包含标签:1未包含,0为未包含;
<mrow>
<mi>T</mi>
<mi>a</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>I</mi>
<mi>n</mi>
<mi>c</mi>
<mi>l</mi>
<mi>u</mi>
<mi>d</mi>
<mi>e</mi>
<mi> </mi>
<mi>t</mi>
<mi>a</mi>
<mi>g</mi>
<mi>s</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>U</mi>
<mi>n</mi>
<mi>i</mi>
<mi>n</mi>
<mi>c</mi>
<mi>l</mi>
<mi>u</mi>
<mi>d</mi>
<mi>e</mi>
<mi> </mi>
<mi>t</mi>
<mi>a</mi>
<mi>g</mi>
<mi>s</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
1
8)是否为好友:相互关注的用户互称为好友,1表示好友,0表示不是好友关系;
<mrow>
<mi>F</mi>
<mi>r</mi>
<mi>i</mi>
<mi>e</mi>
<mi>n</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>m</mi>
<mi>u</mi>
<mi>t</mi>
<mi>u</mi>
<mi>a</mi>
<mi>l</mi>
<mi> </mi>
<mi>a</mi>
<mi>t</mi>
<mi>t</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>O</mi>
<mi>n</mi>
<mi>e</mi>
<mo>-</mo>
<mi>w</mi>
<mi>a</mi>
<mi>y</mi>
<mi> </mi>
<mi>a</mi>
<mi>t</mi>
<mi>t</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
9)是否提及过对方:1表示提及,0表示未提及;
<mrow>
<mi>M</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>m</mi>
<mi>u</mi>
<mi>t</mi>
<mi>u</mi>
<mi>a</mi>
<mi>l</mi>
<mo>@</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>t</mi>
<mi> </mi>
<mi>m</mi>
<mi>u</mi>
<mi>t</mi>
<mi>u</mi>
<mi>a</mi>
<mi>l</mi>
<mo>@</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
10)信息发送者和信息转发者的兴趣相似度:公式(11)为改进后的KL公式,p和q分别表示两个用户的兴趣向量;
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>j</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>&lsqb;</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>K</mi>
<mi>L</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mo>+</mo>
<mi>q</mi>
</mrow>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>K</mi>
<mi>L</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mo>,</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mo>+</mo>
<mi>q</mi>
</mrow>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>D</mi>
<mrow>
<mi>K</mi>
<mi>L</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<mi>l</mi>
<mi>n</mi>
<mfrac>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<msub>
<mi>q</mi>
<mi>j</mi>
</msub>
</mfrac>
<mo>|</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
11)信息接收者对信息感兴趣的程度:其中p代表用户的兴趣向量,q代表微博主题向量;
<mrow>
<mi>I</mi>
<mi>n</mi>
<mi>s</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>j</mi>
<mi>s</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>&lsqb;</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>K</mi>
<mi>L</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mo>+</mo>
<mi>q</mi>
</mrow>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>K</mi>
<mi>L</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mo>,</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mo>+</mo>
<mi>q</mi>
</mrow>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
3.根据权利要求1所述的基于个体用户特征的信息传播方法,其特征在于,所述(20)历史数据提取步骤包括:
(21)提取用户转发的微博:可以直接提取,用户ui的转发微博集合表示为
(22)提取用户未转发的微博:用户ui关注的用户集合为用户ui的转发微博集合对应的上一级微博集合为用户ui对应的未转发微博集合为
4.根据权利要求1所述的基于个体用户特征的信息传播方法,其特征在于,所述(30)为每个用户生成预测模型具体步骤为:
首先判断用户历史转发微博数据是否大于100条。如果小于100条,则结束;如果大于100条,进行如下步骤:
1)按照步骤10所提取的特征,对步骤20所提取的数据进行处理,将用户数据表示成向量的形式;
2)使用处理后的向量,生成SVM预测模型。
5.根据权利要求1所述的基于个体用户特征的信息传播方法,其特征在于,所述(40)生成参考好友选择模型步骤具体为:
(41)参考好友特征选择,选择如下特征:
1)性别是否相同:gender1,gender2分别代表两个用户的性别;
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>gender</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>gender</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>gender</mi>
<mn>1</mn>
</msub>
<mi>a</mi>
<mi>n</mi>
<mi>d</mi>
<mi> </mi>
<msub>
<mi>gender</mi>
<mn>2</mn>
</msub>
<mi>s</mi>
<mi>a</mi>
<mi>m</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>gender</mi>
<mn>1</mn>
</msub>
<mi>a</mi>
<mi>n</mi>
<mi>d</mi>
<mi> </mi>
<msub>
<mi>gender</mi>
<mn>2</mn>
</msub>
<mi>n</mi>
<mi>o</mi>
<mi>t</mi>
<mi> </mi>
<mi>s</mi>
<mi>a</mi>
<mi>m</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>13</mn>
<mo>)</mo>
</mrow>
</mrow>
2)年龄的相似度:Age1,Age2分别表示两个用户的年龄,年龄越相近,相似度越高值越接近1;
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>Age</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>Age</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>Age</mi>
<mn>1</mn>
</msub>
<mo>*</mo>
<msub>
<mi>Age</mi>
<mn>2</mn>
</msub>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>Age</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>Age</mi>
<mn>2</mn>
</msub>
</mrow>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
3)兴趣相似度:ins1,ins2分别表示两个用户的兴趣向量;
4)关注相同微博的用户数目,其中seti(fellows),setj(fellows)分别表示用户i和用户j关注微博的集合,||seti(fellows)∪setj(fellows)||表示用户i和用户j关注微博的总数目,||seti(fellows)∩setj(fellows)||表示用户i和用户j关注相同微博的数量;
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>set</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
</mrow>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>set</mi>
<mi>j</mi>
</msub>
<mo>(</mo>
<mrow>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>set</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>&cap;</mo>
<msub>
<mi>set</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>set</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>&cup;</mo>
<msub>
<mi>set</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>16</mn>
<mo>)</mo>
</mrow>
</mrow>
5)用户的权威相似度:Authority(ai),Authority(aj)分别表示两个用户的权威值;
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>A</mi>
<mi>u</mi>
<mi>t</mi>
<mi>h</mi>
<mi>o</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>A</mi>
<mi>u</mi>
<mi>t</mi>
<mi>h</mi>
<mi>o</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mi>A</mi>
<mi>u</mi>
<mi>t</mi>
<mi>h</mi>
<mi>o</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mi>A</mi>
<mi>u</mi>
<mi>t</mi>
<mi>h</mi>
<mi>o</mi>
<mi>r</mi>
<mi>i</mi>
<mi>t</mi>
<mi>y</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mn>2</mn>
</mfrac>
<mo>)</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>17</mn>
<mo>)</mo>
</mrow>
</mrow>
(42)模型建立:步骤如下:
1)首先用所选取的特征建立一个特征向量;
<mrow>
<mi>&Phi;</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mi>g</mi>
<mi>e</mi>
<mi>n</mi>
<mi>d</mi>
<mi>e</mi>
<msub>
<mi>r</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>g</mi>
<mi>e</mi>
<mi>n</mi>
<mi>d</mi>
<mi>e</mi>
<msub>
<mi>r</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mi>a</mi>
<mi>g</mi>
<msub>
<mi>e</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>a</mi>
<mi>g</mi>
<msub>
<mi>e</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mi>i</mi>
<mi>n</mi>
<msub>
<mi>s</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mi>i</mi>
<mi>n</mi>
<msub>
<mi>s</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<mi>s</mi>
<mi>e</mi>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>s</mi>
<mi>e</mi>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mi>f</mi>
<mi>e</mi>
<mi>l</mi>
<mi>l</mi>
<mi>o</mi>
<mi>w</mi>
<mi>s</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>18</mn>
<mo>)</mo>
</mrow>
</mrow>
2)建立基础函数,其中u和v表示互相关注的两个微博用户,Φ为这两个用户间的关系特征,α0是常量,α1是好友特征的权重,
fα(u,v)=α0+α1 TΦ (19)
3)使用贝叶斯逻辑斯蒂函数(Bayesian logistic function)表示,两个用户对同一微博都转发的概率为:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>{</mo>
<mo>-</mo>
<msub>
<mi>f</mi>
<mi>&alpha;</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>}</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>20</mn>
<mo>)</mo>
</mrow>
</mrow>
4)G(V,E)为微博构成的网络,V是所有用户的集合,E是所有用户间的关注关系。对于用户集合中任意一个用户u,其好友集合为Fri(u),相互关注的用户互称为好友;用户u的好友集合中和用户u转发过相同微博的好友集合为SF(u)∈Fri(u),两个好友转发的相同微博的集合为SWei(u,v),||SWei(u,v)||表示集合SWei(u,v)中元素的数量;一个u用户和其中一个好友v转发过相同微博的概率为:
<mrow>
<munder>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>S</mi>
<mi>W</mi>
<mi>e</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mo>=</mo>
<mi>p</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>S</mi>
<mi>W</mi>
<mi>e</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>21</mn>
<mo>)</mo>
</mrow>
</mrow>
5)SF(u)为用户u的好友集合中和用户u转发过相同微博的好友集合,用户u和所有好友转发过相同微博的概率为:
<mrow>
<munder>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mi>S</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mi>S</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>p</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>S</mi>
<mi>W</mi>
<mi>e</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>22</mn>
<mo>)</mo>
</mrow>
</mrow>
6)在整个数据集中好友间转发过相同微博的概率为:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>G</mi>
<mo>(</mo>
<mrow>
<mi>V</mi>
<mo>,</mo>
<mi>E</mi>
</mrow>
<mo>)</mo>
<mo>,</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Pi;</mo>
<mrow>
<mi>u</mi>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<munder>
<mo>&Pi;</mo>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mi>S</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mi>p</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>S</mi>
<mi>W</mi>
<mi>e</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>23</mn>
<mo>)</mo>
</mrow>
</mrow>
7)最终形式为式:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>G</mi>
<mo>(</mo>
<mrow>
<mi>V</mi>
<mo>,</mo>
<mi>E</mi>
</mrow>
<mo>)</mo>
<mo>,</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Pi;</mo>
<mrow>
<mi>u</mi>
<mo>&Element;</mo>
<mi>V</mi>
</mrow>
</munder>
<munder>
<mo>&Pi;</mo>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mi>S</mi>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<mi>exp</mi>
<mo>{</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>&alpha;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msup>
<msub>
<mi>&alpha;</mi>
<mn>1</mn>
</msub>
<mi>T</mi>
</msup>
<mi>&Phi;</mi>
<mo>)</mo>
</mrow>
<mo>}</mo>
</mrow>
</mfrac>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<mi>S</mi>
<mi>W</mi>
<mi>e</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>|</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>24</mn>
<mo>)</mo>
</mrow>
</mrow>
8)满足全局似然概率f(G(V,E),α)最大的参数估计α即为该模型的解。计算出参数后将参数的值带入到公式(19),当选择一个用户参考好友时,将该用户与相邻好友的关系特征向量分别带入到公式(19),选择值最大的好友作为参考好友;
(43)好友模型求解
1)求上式(24)的解,等价于式(25)取得最小值时,α的值即为所求的解。
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>&alpha;</mi>
</munder>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mi>lg</mi>
<mi> </mi>
<mi>f</mi>
<mo>(</mo>
<mrow>
<mi>G</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>V</mi>
<mo>,</mo>
<mi>E</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>&alpha;</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>25</mn>
<mo>)</mo>
</mrow>
</mrow>
2)设参数α,目标函数L(α)=-lgf(G(V,E),α),该式的求解可以通过随机梯度下降算法来求解;首先初始化α(0)的值,然后根据要学习的数据集合,每次沿着目标函数的下降方向前进一小步,步伐的大小为δ,经过若干次迭代和对α值的更新,可以使目标函数收敛到全局或者局部的最优值。为了防止目标函数收敛的值是局部最优值,尝试不同的初始值,然后比较目标函数收敛后的值;
<mrow>
<msup>
<mi>&alpha;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<msup>
<mi>&alpha;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<mi>&delta;</mi>
<mo>*</mo>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>&alpha;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msup>
<mi>&alpha;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>26</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
6.根据权利要求1所述的基于个体用户特征的信息传播方法,其特征在于,所述(50)转发预测步骤包括:
(51)当一个用户接受到一个新的微博时,按照步骤(10)所提取的特征,对这条微博处理,将微博表示成特征向量;
(52)判断该用户是否拥有转发预测模型,如果有,使用自己的转发预测模型进行预测;如果没有,使用步骤(40)的参考好友选择模型从相邻的好友中选择出一位参考好友,通过该参考好友的转发预测模型进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710548807.2A CN107330562B (zh) | 2017-07-03 | 2017-07-03 | 基于个体用户特征的信息传播方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710548807.2A CN107330562B (zh) | 2017-07-03 | 2017-07-03 | 基于个体用户特征的信息传播方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330562A true CN107330562A (zh) | 2017-11-07 |
CN107330562B CN107330562B (zh) | 2020-12-01 |
Family
ID=60197113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710548807.2A Active CN107330562B (zh) | 2017-07-03 | 2017-07-03 | 基于个体用户特征的信息传播方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330562B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741198A (zh) * | 2018-11-28 | 2019-05-10 | 中国科学院计算技术研究所 | 网络信息传播影响力度量方法、系统及影响力最大化方法 |
CN109829504A (zh) * | 2019-02-14 | 2019-05-31 | 重庆邮电大学 | 一种基于ics-svm分析用户转发行为的预测方法及系统 |
CN110163404A (zh) * | 2018-06-12 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息扩散预测方法、装置及服务器、存储介质 |
CN111242658A (zh) * | 2018-11-29 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 信息分享奖励方法、装置及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
CN106547901A (zh) * | 2016-11-08 | 2017-03-29 | 周口师范学院 | 一种基于能量优化的微博用户转发行为预测方法 |
-
2017
- 2017-07-03 CN CN201710548807.2A patent/CN107330562B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617279A (zh) * | 2013-12-09 | 2014-03-05 | 南京邮电大学 | 基于Pagerank方法的微博信息传播影响力评估模型的实现方法 |
CN106547901A (zh) * | 2016-11-08 | 2017-03-29 | 周口师范学院 | 一种基于能量优化的微博用户转发行为预测方法 |
Non-Patent Citations (1)
Title |
---|
SYEDA NADIA FIRDAUS等: "Retweet Prediction Considering User"s Difference as an Author and Retweeter", 《2016 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163404A (zh) * | 2018-06-12 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息扩散预测方法、装置及服务器、存储介质 |
CN109741198A (zh) * | 2018-11-28 | 2019-05-10 | 中国科学院计算技术研究所 | 网络信息传播影响力度量方法、系统及影响力最大化方法 |
CN111242658A (zh) * | 2018-11-29 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 信息分享奖励方法、装置及计算机可读存储介质 |
CN109829504A (zh) * | 2019-02-14 | 2019-05-31 | 重庆邮电大学 | 一种基于ics-svm分析用户转发行为的预测方法及系统 |
CN109829504B (zh) * | 2019-02-14 | 2022-07-01 | 重庆邮电大学 | 一种基于ics-svm分析用户转发行为的预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107330562B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Naveed et al. | Bad news travel fast: A content-based analysis of interestingness on twitter | |
CN104156436B (zh) | 一种社交云媒体协同过滤推荐方法 | |
CN101408883B (zh) | 一种网络舆情观点收集方法 | |
Bergholz et al. | Improved Phishing Detection using Model-Based Features. | |
CN104268271B (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
Akehurst et al. | CCR—a content-collaborative reciprocal recommender for online dating | |
CN107330562A (zh) | 基于个体用户特征的信息传播方法 | |
Alsaedi et al. | Arabic event detection in social media | |
Rasool et al. | Multi-label fake news detection using multi-layered supervised learning | |
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN107609103A (zh) | 一种基于推特的事件检测方法 | |
CN106294590A (zh) | 一种基于半监督学习的社交网络垃圾用户过滤方法 | |
Mirani et al. | Sentiment analysis of isis related tweets using absolute location | |
CN107330798A (zh) | 一种基于种子节点传播的社交网络间用户身份识别方法 | |
CN110909529B (zh) | 一种公司形象提升系统的用户情感分析和预判系统 | |
Randma‐Liiv et al. | Policy transfer in immature policy environments: motives, scope, role models and agents | |
Druzin et al. | Authoritarianism and the Internet | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN107403007A (zh) | 一种基于网络的微博消息可信度判别模型的方法 | |
Sheth et al. | Semantic filtering for social data | |
Drury et al. | A social network of crime: A review of the use of social networks for crime and the detection of crime | |
Suvarna et al. | Identifying victim blaming language in discussions about sexual assaults on twitter | |
CN107491491A (zh) | 一种适应用户兴趣变化的媒体文章推荐方法 | |
Zhu et al. | Location-time-sociality aware personalized tourist attraction recommendation in LBSN | |
Long et al. | A method of machine learning for social bot detection combined with sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |