CN111753213A

CN111753213A - 一种问答社交网络用户分享行为的传染力度量方法

Info

Publication number: CN111753213A
Application number: CN202010523240.5A
Authority: CN
Inventors: 於志文; 康健; 谢佳妤; 郭斌; 王柱
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-10-09

Abstract

本发明提供一种问答社交网络用户分享行为的传染力度量方法，所述方法获取用户已有的历史行为数据，确定用户个人属性、用户之间的关注关系；对问答数据分别进行数值化、向量化处理；构建社交网络，分析影响传染力因素；基于信息的常见传播途径，类比树模型构建多种可能的传染树；构建好所有可能的传染树后，计算节点之间的传染概率，得到同一个传染树的所有节点的传染概率后，计算整个网络中某位用户起到的传染力大小。更加全面的考虑用户知识分享行为与其受欢迎程度、活跃程度、属性完整程度等因素，基于不确定传染源的特性构建多种可能的传染网络计算用户传染力，本发明传染力的度量方法可应用在现实生活中很多场景中。

Description

一种问答社交网络用户分享行为的传染力度量方法

技术领域

本发明涉及信息传播领域，具体为一种问答社交网络用户分享行为的传染力度量方法。

背景技术

行为传染指的是个体行为引发关系人相同行为的趋势和过程。具体来讲就是当个体的行为在网络中做出时，会对其朋友形成刺激，继而朋友会表现出相同行为，这种现象称为行为传染。

随着网络技术的飞速发展，虚拟社区对应着社交网络的出现，人们的交际不再受到空间的限制，为知识的传播搭建了新的介质，并且节约了其传播的时间，节省了成本。一方面促进了知识分享的实现，另一方面促进了问答社交网络的发展。特别是在社交时代，网民有了自己的发言权，能够表达自己的观点和想法，各种社交媒体的出现推动了海量内容的生成，一些专业的知识分享社区，比如知乎、百度知道、Quora、Stack Overflow、果壳等平台应运而生，吸引了众多网民参与到平台中国，以寻求、分享知识。而对于传染力的应用，现实生活中在很多场景下人们都用传染力来达到自己的目的，比如商人利用影响力来更加广泛地销售商品、政客利用他们的影响力来赢得选举。

随着社交网络的发展与应用，行为传染问题也逐步转移到网络关系层面，从人际互动角度，将用户属性与环境变量抽象到社交网络层面，基于社交网络来对传染规律进行分析。行为传染现象目前已在大量社交场景中被人们发现进而进行研究。Aral等人利用外部变量法识别并验证在大规模社交网络中锻炼行为存在传染性，发现在生活中如果与更多热爱锻炼的朋友接触，则自己本身也会加大运动量；还有相关研究发现拥有好学的室友可以促进其余室友的学习；拥有花园的住户会受到勤劳的邻居的影响而变得更加勤劳，在观察邻居对花园的修葺行为后促进自己对花园的管理。这些传染现象均在不同场景下被人们发现。知识分享行为对于想法、概念与事件的发展起到很重要的作用，目前很多问答平台比如知乎和Quora均允许用户提出或者回答平台上的问题，问答平台的免费性和开放性使得用户可以自由发表自己的言论以及思想。但是，知识分享行为传染力如何度量，以及哪些因素会影响该传染性依然亟待解决。

发明内容

针对以上缺陷，本发明提供了一种全面的考虑用户知识分享行为与其受欢迎程度、活跃程度、属性完整程度等因素，对用户行为与行为内容进行细粒度分析，基于不确定传染源的特性构建多种可能的传染网络计算用户传染力的问答社交网络用户分享行为的传染力度量方法。

本发明一种问答社交网络用户分享行为的传染力度量方法的技术方案为，所述方法包括以下步骤：

S1：获取用户已有的历史行为数据，筛选话题进行格式整理，确定用户个人属性、用户之间的关注关系；

S2：对问答数据分别进行数值化、向量化处理；

S3：构建社交网络，从所述网络属性角度分析各社交网络对应的网络特征，分析影响传染力因素；

S4：基于信息的常见传播途径，类比树模型构建多种可能的传染树；

S5：构建好所有可能的传染树后，计算节点之间的传染概率，得到同一个传染树的所有节点的传染概率后，计算整个网络中某位用户起到的传染力大小。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述S1中格式整理，是将数据中文本通过Word2vec训练文本的向量表示，利用其语义上的相似性筛选部分话题；将不同话题对应的内容整理为<话题，问题ID，问题内容，回答时间，回答者，回答内容，回答者的关注者，用户个人属性>的格式。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述S1中需要将数据其转化为时间戳格式，对转化过的时间戳归一化表示，采用Normalization方式，把数据变成(0,1)之间的小数，将有量纲表达式变成无量纲表达式。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述S2中每种属性根据数据类型进行相应的单独处理；所述每种属性通过独热编码方式分别处理。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述构建社交网络，是抽取存储数据库中用户的时间戳，选择第一位回答者记录其ID，从所述ID开始，根据其余用户是否与所述有关注关系，依次遍历用户存储列表，从而构建对应的社交网络记为G＝(V,E)，且G＝{g₁,g₂,…,g_m},其中V是对同一个问题的一系列回答，边E＝{(v_i,v_j)}表示第j个回答该问题的用户是受到第i个回答问题的用户所影响。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述S4中，多种可能的传染树是通过用户之间的关注关系和回答同一问题的先后关系来构建的。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述S5中所述用户的传染概率根据所述S3中分析得到的影响传染因素以及影响可能性递减的时间因素来定义。

进一步地，的一种问答社交网络用户分享行为的传染力度量方法，所述S5中在构建好的传染树基础上基于存在的级联边，根据传染树的传播路径对路径上的各用户的传染力与传染概率的乘积进行求和，最后对所有传染树中的用户各自传染力求和得到用户最终的传染力值。

本发明的有益效果为：更加全面的考虑用户知识分享行为与其受欢迎程度、活跃程度、属性完整程度等因素，基于不确定传染源的特性构建多种可能的传染网络计算用户传染力。本发明传染力的度量方法可应用在现实生活中很多场景中，如商人利用影响力来更加广泛地销售商品、政客利用他们的影响力来赢得选举等。

附图说明

图1为本发明一种问答社交网络用户分享行为的传染力度量方法的步骤图；

图2为本发明一种问答社交网络用户分享行为的传染力度量方法的实施例的流程图；

图3为本发明一种问答社交网络用户分享行为的传染力度量方法的实施例中问答社交网络用户分享行为的潜在传染树的构建图。

具体实施方式

下面结合附图及实施例来进一步描述本发明的技术方案。

如图1所示，本发明一种问答社交网络用户分享行为的传染力度量方法的步骤包括：

S2：对问答数据分别进行数值化、向量化处理；

下面结合图2所呈现的实施例的流程图来详细描述本发明一种问答社交网络用户分享行为的传染力度量方法的技术方案。

SS1、首先利用多个问答平台账号获取其对应的账号token，然后从话题列表入手，通过知乎接口采集知乎平台上用户回答问题的历史行为数据，用户个人属性以及用户之间的关注关系。将该数据中文本通过Word2vec训练文本的向量表示，利用其语义上的相似性筛选部分话题，首先在二维坐标平面中绘制各话题对应的词向量在降维成二维后的分布，可以看出来哪些距离很近，层次聚类得到新的话题个数，Kmeans++聚类得到最终的话题聚类结果。然后将这些向量通过Kmeans++进行聚类，这样最终得到语义不重叠的13个话题T＝{t₁,t₂,…,t₁₃}表示。将不同话题对应的内容整理为<话题，问题ID，问题内容，回答时间，回答者，回答内容，回答者的关注者，用户个人属性>的格式。

SS2、在相应数据库中按表存储，并将采集到的数据分别进行数字化处理。由于数据类型各不相同，所以每种属性需要对其进行相应的单独处理。由于采集到的用户的回答时间为时分秒格式Number＝{hour:min:sec}，而在对数值进行计算时，需要将其转化为时间戳格式，公式为timestamp＝Number(hour*3600)+Number(min*60)+Number(sec)。另外，由于时间戳基数较大，计算过程中不利于特征作用的体现，所以将转过的时间戳归一化表示，本算法采用的是Normalization方式，把数据变成(0,1)之间的小数，将有量纲表达式变成无量纲表达式，便于后续不同单位或量级的指标能够进行加权。另外，本算法定义的用户属性总量为9，而每位用户填写的属性个数均不同，所以将属性填充量定义为用户的属性完整程度并进行数值化编码。其余属性也均通过独热编码等方式分别处理，最终所有数据为数字格式。

SS3、抽取存储数据库中用户的时间戳，根据以本周周一为基准的方式计算回答每个问题的第一位回答者，并记录其ID。从该ID开始，根据其余用户是否与其有关注关系(v_i,v_j)＝0或者(v_i,v_j)＝1依次遍历用户存储列表u＝{u₁,u₂,…,u_m},从而构建对应的社交网络G＝(V,E)，且G＝{g₁,g₂,…,g_m},其中V是对同一个问题的一系列回答，边E＝{(v_i,v_j)}表示第j个回答该问题的用户是受到第i个回答问题问题的用户所影响。并通过Gephi导入数据g_i，从网络静态及动态属性角度分析各社交网络对应的网络特征。

SS4、在构建好社交网络G＝(V,E)之后，对于用户i与用户j，筛选存在边E＝{(v_i,v_j)}，并且满足t_i＜t_j的用户。由于知乎平台没有明显标注用户回答问题与哪位朋友有关或者仅是用户本身对该问题感兴趣而回答的。利用用户回答问题的时间先后关系以及信息的常见传播途径，类比树模型构建多种可能的传染树。节点v₁是时间t₁回答了问题的根节点，回答文本v₂在时间t₂发布，表现在树结构中，即为从v₁指向v₂的有向边(v₁,v₂)。对于时间t₃发表的回答v₃，由于从知乎的数据中只能获知v₃是在v₁和v₂后面发布的，但没有明确的传染关系，所以无法确定v₃是受到哪个行为的传染而产生的相应的行为，此时可以同时构建两种可能的传染树结构，相应的边集合为E＝{(v₁，v₂)，(v₁，v₃)}或者E＝{(v₁，v₂)，(v₂，v₃)}。同样地，后面时间发布的回答，比如v₄可能传染自v₁或v₂或者v₃，即可以构建更多种可能的传染树T＝{t₁,t₂,…,t_m}，如图3所示。

SS5、在构建好所有可能的传染树之后，基于传染树来定义用户传染力。由于回答行为对应的传染关系无法明确获得，所以定义用户的传染力是基于传染概率得到，即用户j可能受到用户k影响而回答的概率定义为P_kj，公式为

其中m_k表示用户k的粉丝量，粉丝量越高，其关注者更可能受到他的影响；c_k表示用户k对社区的信任程度，其对社区信任程度高，越可能影响朋友；freq_j为用户回答意愿度，表示用户愿意回答问题的程度；最后一个是时间因素t，本文认为用户更可能受到最新回答的影响；分母是先按时间顺序对构建好的传播图中用户节点进行排序，在用户j之前回答过问题的所有与他有关注关系的用户求和。即在构建好所有可能的传染树后，基于存在的级联边，可以计算节点之间的传染概率，得到同一个传染树的所有节点的传染概率后，即可计算整个网络中某位用户起到的传染力大小，首先初始化用户本身对自己的影响为1，回答时间在后面的对回答时间在前面的传染力为0，定义用户i对用户j的传染力为根据传播图的传播路径对路径上的各用户的传染力与传染概率的乘积进行求和得到的结果

其中m_ik表示用户k在用户i到用户j的传播路径中，且用户i对用户k的传染力为m_ik。p_kj表示用户j收到用户k的传染而回答的概率。接下来对所有可能的传染树中计算得到的用户i与用户j的m_ij进行求和

得到cont_i为用户i的最终传染力值。

Claims

1.一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述方法包括以下步骤：

S2：对问答数据分别进行数值化、向量化处理；

2.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述S1中格式整理，是将数据中文本通过Word2vec训练文本的向量表示，利用其语义上的相似性筛选部分话题；将不同话题对应的内容整理为<话题，问题ID，问题内容，回答时间，回答者，回答内容，回答者的关注者，用户个人属性>的格式。

3.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述S1中需要将数据其转化为时间戳格式，对转化过的时间戳归一化表示，采用Normalization方式，把数据变成(0,1)之间的小数，将有量纲表达式变成无量纲表达式。

4.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述S2中每种属性根据数据类型进行相应的单独处理；所述每种属性通过独热编码方式分别处理。

5.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述构建社交网络，是抽取存储数据库中用户的时间戳，选择第一位回答者记录其ID，从所述ID开始，根据其余用户是否与所述有关注关系，依次遍历用户存储列表，从而构建对应的社交网络记为G＝(V,E)，且G＝{g₁,g₂,…,g_m},其中V是对同一个问题的一系列回答，边E＝{(v_i,v_j)}表示第j个回答该问题的用户是受到第i个回答问题的用户所影响。

6.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述S4中，多种可能的传染树是通过用户之间的关注关系和回答同一问题的先后关系来构建的。

7.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述S5中所述用户的传染概率根据所述S3中分析得到的影响传染因素以及影响可能性递减的时间因素来定义。

8.根据权利要求1所述的一种问答社交网络用户分享行为的传染力度量方法，其特征在于：所述S5中在构建好的传染树基础上基于存在的级联边，根据传染树的传播路径对路径上的各用户的传染力与传染概率的乘积进行求和，最后对所有传染树中的用户各自传染力求和得到用户最终的传染力值。