CN111753213A - 一种问答社交网络用户分享行为的传染力度量方法 - Google Patents

一种问答社交网络用户分享行为的传染力度量方法 Download PDF

Info

Publication number
CN111753213A
CN111753213A CN202010523240.5A CN202010523240A CN111753213A CN 111753213 A CN111753213 A CN 111753213A CN 202010523240 A CN202010523240 A CN 202010523240A CN 111753213 A CN111753213 A CN 111753213A
Authority
CN
China
Prior art keywords
infection
users
question
user
social network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010523240.5A
Other languages
English (en)
Inventor
於志文
康健
谢佳妤
郭斌
王柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010523240.5A priority Critical patent/CN111753213A/zh
Publication of CN111753213A publication Critical patent/CN111753213A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种问答社交网络用户分享行为的传染力度量方法,所述方法获取用户已有的历史行为数据,确定用户个人属性、用户之间的关注关系;对问答数据分别进行数值化、向量化处理;构建社交网络,分析影响传染力因素;基于信息的常见传播途径,类比树模型构建多种可能的传染树;构建好所有可能的传染树后,计算节点之间的传染概率,得到同一个传染树的所有节点的传染概率后,计算整个网络中某位用户起到的传染力大小。更加全面的考虑用户知识分享行为与其受欢迎程度、活跃程度、属性完整程度等因素,基于不确定传染源的特性构建多种可能的传染网络计算用户传染力,本发明传染力的度量方法可应用在现实生活中很多场景中。

Description

一种问答社交网络用户分享行为的传染力度量方法
技术领域
本发明涉及信息传播领域,具体为一种问答社交网络用户分享行为的传染力度量方法。
背景技术
行为传染指的是个体行为引发关系人相同行为的趋势和过程。具体来讲就是当个体的行为在网络中做出时,会对其朋友形成刺激,继而朋友会表现出相同行为,这种现象称为行为传染。
随着网络技术的飞速发展,虚拟社区对应着社交网络的出现,人们的交际不再受到空间的限制,为知识的传播搭建了新的介质,并且节约了其传播的时间,节省了成本。一方面促进了知识分享的实现,另一方面促进了问答社交网络的发展。特别是在社交时代,网民有了自己的发言权,能够表达自己的观点和想法,各种社交媒体的出现推动了海量内容的生成,一些专业的知识分享社区,比如知乎、百度知道、Quora、Stack Overflow、果壳等平台应运而生,吸引了众多网民参与到平台中国,以寻求、分享知识。而对于传染力的应用,现实生活中在很多场景下人们都用传染力来达到自己的目的,比如商人利用影响力来更加广泛地销售商品、政客利用他们的影响力来赢得选举。
随着社交网络的发展与应用,行为传染问题也逐步转移到网络关系层面,从人际互动角度,将用户属性与环境变量抽象到社交网络层面,基于社交网络来对传染规律进行分析。行为传染现象目前已在大量社交场景中被人们发现进而进行研究。Aral等人利用外部变量法识别并验证在大规模社交网络中锻炼行为存在传染性,发现在生活中如果与更多热爱锻炼的朋友接触,则自己本身也会加大运动量;还有相关研究发现拥有好学的室友可以促进其余室友的学习;拥有花园的住户会受到勤劳的邻居的影响而变得更加勤劳,在观察邻居对花园的修葺行为后促进自己对花园的管理。这些传染现象均在不同场景下被人们发现。知识分享行为对于想法、概念与事件的发展起到很重要的作用,目前很多问答平台比如知乎和Quora均允许用户提出或者回答平台上的问题,问答平台的免费性和开放性使得用户可以自由发表自己的言论以及思想。但是,知识分享行为传染力如何度量,以及哪些因素会影响该传染性依然亟待解决。
发明内容
针对以上缺陷,本发明提供了一种全面的考虑用户知识分享行为与其受欢迎程度、活跃程度、属性完整程度等因素,对用户行为与行为内容进行细粒度分析,基于不确定传染源的特性构建多种可能的传染网络计算用户传染力的问答社交网络用户分享行为的传染力度量方法。
本发明一种问答社交网络用户分享行为的传染力度量方法的技术方案为,所述方法包括以下步骤:
S1:获取用户已有的历史行为数据,筛选话题进行格式整理,确定用户个人属性、用户之间的关注关系;
S2:对问答数据分别进行数值化、向量化处理;
S3:构建社交网络,从所述网络属性角度分析各社交网络对应的网络特征,分析影响传染力因素;
S4:基于信息的常见传播途径,类比树模型构建多种可能的传染树;
S5:构建好所有可能的传染树后,计算节点之间的传染概率,得到同一个传染树的所有节点的传染概率后,计算整个网络中某位用户起到的传染力大小。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述S1中格式整理,是将数据中文本通过Word2vec训练文本的向量表示,利用其语义上的相似性筛选部分话题;将不同话题对应的内容整理为<话题,问题ID,问题内容,回答时间,回答者,回答内容,回答者的关注者,用户个人属性>的格式。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述S1中需要将数据其转化为时间戳格式,对转化过的时间戳归一化表示,采用Normalization方式,把数据变成(0,1)之间的小数,将有量纲表达式变成无量纲表达式。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述S2中每种属性根据数据类型进行相应的单独处理;所述每种属性通过独热编码方式分别处理。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述构建社交网络,是抽取存储数据库中用户的时间戳,选择第一位回答者记录其ID,从所述ID开始,根据其余用户是否与所述有关注关系,依次遍历用户存储列表,从而构建对应的社交网络记为G=(V,E),且G={g1,g2,…,gm},其中V是对同一个问题的一系列回答,边E={(vi,vj)}表示第j个回答该问题的用户是受到第i个回答问题的用户所影响。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述S4中,多种可能的传染树是通过用户之间的关注关系和回答同一问题的先后关系来构建的。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述S5中所述用户的传染概率根据所述S3中分析得到的影响传染因素以及影响可能性递减的时间因素来定义。
进一步地,的一种问答社交网络用户分享行为的传染力度量方法,所述S5中在构建好的传染树基础上基于存在的级联边,根据传染树的传播路径对路径上的各用户的传染力与传染概率的乘积进行求和,最后对所有传染树中的用户各自传染力求和得到用户最终的传染力值。
本发明的有益效果为:更加全面的考虑用户知识分享行为与其受欢迎程度、活跃程度、属性完整程度等因素,基于不确定传染源的特性构建多种可能的传染网络计算用户传染力。本发明传染力的度量方法可应用在现实生活中很多场景中,如商人利用影响力来更加广泛地销售商品、政客利用他们的影响力来赢得选举等。
附图说明
图1为本发明一种问答社交网络用户分享行为的传染力度量方法的步骤图;
图2为本发明一种问答社交网络用户分享行为的传染力度量方法的实施例的流程图;
图3为本发明一种问答社交网络用户分享行为的传染力度量方法的实施例中问答社交网络用户分享行为的潜在传染树的构建图。
具体实施方式
下面结合附图及实施例来进一步描述本发明的技术方案。
如图1所示,本发明一种问答社交网络用户分享行为的传染力度量方法的步骤包括:
S1:获取用户已有的历史行为数据,筛选话题进行格式整理,确定用户个人属性、用户之间的关注关系;
S2:对问答数据分别进行数值化、向量化处理;
S3:构建社交网络,从所述网络属性角度分析各社交网络对应的网络特征,分析影响传染力因素;
S4:基于信息的常见传播途径,类比树模型构建多种可能的传染树;
S5:构建好所有可能的传染树后,计算节点之间的传染概率,得到同一个传染树的所有节点的传染概率后,计算整个网络中某位用户起到的传染力大小。
下面结合图2所呈现的实施例的流程图来详细描述本发明一种问答社交网络用户分享行为的传染力度量方法的技术方案。
SS1、首先利用多个问答平台账号获取其对应的账号token,然后从话题列表入手,通过知乎接口采集知乎平台上用户回答问题的历史行为数据,用户个人属性以及用户之间的关注关系。将该数据中文本通过Word2vec训练文本的向量表示,利用其语义上的相似性筛选部分话题,首先在二维坐标平面中绘制各话题对应的词向量在降维成二维后的分布,可以看出来哪些距离很近,层次聚类得到新的话题个数,Kmeans++聚类得到最终的话题聚类结果。然后将这些向量通过Kmeans++进行聚类,这样最终得到语义不重叠的13个话题T={t1,t2,…,t13}表示。将不同话题对应的内容整理为<话题,问题ID,问题内容,回答时间,回答者,回答内容,回答者的关注者,用户个人属性>的格式。
SS2、在相应数据库中按表存储,并将采集到的数据分别进行数字化处理。由于数据类型各不相同,所以每种属性需要对其进行相应的单独处理。由于采集到的用户的回答时间为时分秒格式Number={hour:min:sec},而在对数值进行计算时,需要将其转化为时间戳格式,公式为timestamp=Number(hour*3600)+Number(min*60)+Number(sec)。另外,由于时间戳基数较大,计算过程中不利于特征作用的体现,所以将转过的时间戳归一化表示,本算法采用的是Normalization方式,把数据变成(0,1)之间的小数,将有量纲表达式变成无量纲表达式,便于后续不同单位或量级的指标能够进行加权。另外,本算法定义的用户属性总量为9,而每位用户填写的属性个数均不同,所以将属性填充量定义为用户的属性完整程度并进行数值化编码。其余属性也均通过独热编码等方式分别处理,最终所有数据为数字格式。
SS3、抽取存储数据库中用户的时间戳,根据以本周周一为基准的方式计算回答每个问题的第一位回答者,并记录其ID。从该ID开始,根据其余用户是否与其有关注关系(vi,vj)=0或者(vi,vj)=1依次遍历用户存储列表u={u1,u2,…,um},从而构建对应的社交网络G=(V,E),且G={g1,g2,…,gm},其中V是对同一个问题的一系列回答,边E={(vi,vj)}表示第j个回答该问题的用户是受到第i个回答问题问题的用户所影响。并通过Gephi导入数据gi,从网络静态及动态属性角度分析各社交网络对应的网络特征。
SS4、在构建好社交网络G=(V,E)之后,对于用户i与用户j,筛选存在边E={(vi,vj)},并且满足ti<tj的用户。由于知乎平台没有明显标注用户回答问题与哪位朋友有关或者仅是用户本身对该问题感兴趣而回答的。利用用户回答问题的时间先后关系以及信息的常见传播途径,类比树模型构建多种可能的传染树。节点v1是时间t1回答了问题的根节点,回答文本v2在时间t2发布,表现在树结构中,即为从v1指向v2的有向边(v1,v2)。对于时间t3发表的回答v3,由于从知乎的数据中只能获知v3是在v1和v2后面发布的,但没有明确的传染关系,所以无法确定v3是受到哪个行为的传染而产生的相应的行为,此时可以同时构建两种可能的传染树结构,相应的边集合为E={(v1,v2),(v1,v3)}或者E={(v1,v2),(v2,v3)}。同样地,后面时间发布的回答,比如v4可能传染自v1或v2或者v3,即可以构建更多种可能的传染树T={t1,t2,…,tm},如图3所示。
SS5、在构建好所有可能的传染树之后,基于传染树来定义用户传染力。由于回答行为对应的传染关系无法明确获得,所以定义用户的传染力是基于传染概率得到,即用户j可能受到用户k影响而回答的概率定义为Pkj,公式为
Figure BDA0002532906150000071
其中mk表示用户k的粉丝量,粉丝量越高,其关注者更可能受到他的影响;ck表示用户k对社区的信任程度,其对社区信任程度高,越可能影响朋友;freqj为用户回答意愿度,表示用户愿意回答问题的程度;最后一个是时间因素t,本文认为用户更可能受到最新回答的影响;分母是先按时间顺序对构建好的传播图中用户节点进行排序,在用户j之前回答过问题的所有与他有关注关系的用户求和。即在构建好所有可能的传染树后,基于存在的级联边,可以计算节点之间的传染概率,得到同一个传染树的所有节点的传染概率后,即可计算整个网络中某位用户起到的传染力大小,首先初始化用户本身对自己的影响为1,回答时间在后面的对回答时间在前面的传染力为0,定义用户i对用户j的传染力为根据传播图的传播路径对路径上的各用户的传染力与传染概率的乘积进行求和得到的结果
Figure BDA0002532906150000081
其中mik表示用户k在用户i到用户j的传播路径中,且用户i对用户k的传染力为mik。pkj表示用户j收到用户k的传染而回答的概率。接下来对所有可能的传染树中计算得到的用户i与用户j的mij进行求和
Figure BDA0002532906150000082
得到conti为用户i的最终传染力值。

Claims (8)

1.一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述方法包括以下步骤:
S1:获取用户已有的历史行为数据,筛选话题进行格式整理,确定用户个人属性、用户之间的关注关系;
S2:对问答数据分别进行数值化、向量化处理;
S3:构建社交网络,从所述网络属性角度分析各社交网络对应的网络特征,分析影响传染力因素;
S4:基于信息的常见传播途径,类比树模型构建多种可能的传染树;
S5:构建好所有可能的传染树后,计算节点之间的传染概率,得到同一个传染树的所有节点的传染概率后,计算整个网络中某位用户起到的传染力大小。
2.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述S1中格式整理,是将数据中文本通过Word2vec训练文本的向量表示,利用其语义上的相似性筛选部分话题;将不同话题对应的内容整理为<话题,问题ID,问题内容,回答时间,回答者,回答内容,回答者的关注者,用户个人属性>的格式。
3.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述S1中需要将数据其转化为时间戳格式,对转化过的时间戳归一化表示,采用Normalization方式,把数据变成(0,1)之间的小数,将有量纲表达式变成无量纲表达式。
4.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述S2中每种属性根据数据类型进行相应的单独处理;所述每种属性通过独热编码方式分别处理。
5.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述构建社交网络,是抽取存储数据库中用户的时间戳,选择第一位回答者记录其ID,从所述ID开始,根据其余用户是否与所述有关注关系,依次遍历用户存储列表,从而构建对应的社交网络记为G=(V,E),且G={g1,g2,…,gm},其中V是对同一个问题的一系列回答,边E={(vi,vj)}表示第j个回答该问题的用户是受到第i个回答问题的用户所影响。
6.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述S4中,多种可能的传染树是通过用户之间的关注关系和回答同一问题的先后关系来构建的。
7.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述S5中所述用户的传染概率根据所述S3中分析得到的影响传染因素以及影响可能性递减的时间因素来定义。
8.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法,其特征在于:所述S5中在构建好的传染树基础上基于存在的级联边,根据传染树的传播路径对路径上的各用户的传染力与传染概率的乘积进行求和,最后对所有传染树中的用户各自传染力求和得到用户最终的传染力值。
CN202010523240.5A 2020-06-10 2020-06-10 一种问答社交网络用户分享行为的传染力度量方法 Pending CN111753213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010523240.5A CN111753213A (zh) 2020-06-10 2020-06-10 一种问答社交网络用户分享行为的传染力度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010523240.5A CN111753213A (zh) 2020-06-10 2020-06-10 一种问答社交网络用户分享行为的传染力度量方法

Publications (1)

Publication Number Publication Date
CN111753213A true CN111753213A (zh) 2020-10-09

Family

ID=72674995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010523240.5A Pending CN111753213A (zh) 2020-06-10 2020-06-10 一种问答社交网络用户分享行为的传染力度量方法

Country Status (1)

Country Link
CN (1) CN111753213A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070064617A1 (en) * 2005-09-15 2007-03-22 Reves Joseph P Traffic anomaly analysis for the detection of aberrant network code
CN105005918A (zh) * 2015-07-24 2015-10-28 金鹃传媒科技股份有限公司 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法
CN106055627A (zh) * 2016-05-27 2016-10-26 西安电子科技大学 话题领域中社交网络关键节点的识别方法
CN106682991A (zh) * 2016-12-21 2017-05-17 重庆邮电大学 一种基于在线社交网络的信息传播模型及其传播方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
WO2017157149A1 (zh) * 2016-03-15 2017-09-21 平安科技(深圳)有限公司 基于社交网络的推荐方法、装置、服务器及存储介质
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法
CN109657048A (zh) * 2019-01-09 2019-04-19 中南大学 一种应用于开源问答社区中回答者推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070064617A1 (en) * 2005-09-15 2007-03-22 Reves Joseph P Traffic anomaly analysis for the detection of aberrant network code
CN105005918A (zh) * 2015-07-24 2015-10-28 金鹃传媒科技股份有限公司 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法
WO2017157149A1 (zh) * 2016-03-15 2017-09-21 平安科技(深圳)有限公司 基于社交网络的推荐方法、装置、服务器及存储介质
CN106055627A (zh) * 2016-05-27 2016-10-26 西安电子科技大学 话题领域中社交网络关键节点的识别方法
CN106980692A (zh) * 2016-05-30 2017-07-25 国家计算机网络与信息安全管理中心 一种基于微博特定事件的影响力计算方法
CN106682991A (zh) * 2016-12-21 2017-05-17 重庆邮电大学 一种基于在线社交网络的信息传播模型及其传播方法
CN107341270A (zh) * 2017-07-28 2017-11-10 东北大学 面向社交平台的用户情感影响力分析方法
CN109657048A (zh) * 2019-01-09 2019-04-19 中南大学 一种应用于开源问答社区中回答者推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHI-JIE ZHOU ET AL.: "Hidden Behavior Prediction of Complex Systems Under Testing Influence Based on Semiquantitative Information and Belief Rule Base", 《IEEE TRANSACTIONS ON FUZZY SYSTEMS》 *
朱晓莉: "社会化问答网站用户影响力研究", 《中国优秀硕士学位论文全文数据库》 *
王仁武等: "融合用户情感评分的节点专业影响力分析", 《现代情报》 *

Similar Documents

Publication Publication Date Title
CN111858960B (zh) 面向本质计算的跨dikw图谱的虚拟社区资源处理方法及组件
Harris An introduction to exponential random graph modeling
Di Girolamo et al. Evolutionary game theoretical on-line event detection over tweet streams
Su et al. Learning portfolio analysis and mining for SCORM compliant environment
Solomon et al. Understanding the psycho-sociological facets of homophily in social network communities
Gokulkumari et al. Analyze the political preference of a common man by using data mining and machine learning
CN114896512A (zh) 基于学习者偏好与群体偏好的学习资源推荐方法及系统
Hadoux et al. Strategic argumentation dialogues for persuasion: Framework and experiments based on modelling the beliefs and concerns of the persuadee
Lyras et al. Modeling Credibility in Social Big Data using LSTM Neural Networks.
Al-Kfairy et al. A sentiment analysis approach for identifying users’ security and privacy perception of metaverse in twitter
Haaland et al. Measuring what is top of mind
Knezek et al. Assessing approaches to learning with nonparametric multidimensional scaling
CN117217808B (zh) 一种智能的活动邀请裂变能力分析预测方法
CN113609405A (zh) 基于dikw的虚拟社区用户类型的转换方法及系统
Kanavos et al. Fuzzy information diffusion in twitter by considering user’s influence
Paolillo Network analysis
Yu et al. Temporal sentiment analysis of learners: Public versus private social media communication channels in a women-in-tech conversion course
CN111753213A (zh) 一种问答社交网络用户分享行为的传染力度量方法
Wang et al. [Retracted] Application of Improved Machine Learning and Fuzzy Algorithm in Educational Information Technology
CN113254788A (zh) 一种基于大数据的推荐方法、系统及可读存储介质
Dhakal et al. Predicting friendship strength for privacy preserving: a case study on Facebook
CN111444338A (zh) 文本处理、装置、存储介质及设备
CN113407704A (zh) 文本匹配方法、装置、设备及计算机可读存储介质
Ahmed et al. A cognitive model to predict human interest in smart environments
Ziembinski Social mood revealed

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201009