CN112329473B - 一种基于话题影响力渗流的语义社交网络社区发现方法 - Google Patents

一种基于话题影响力渗流的语义社交网络社区发现方法 Download PDF

Info

Publication number
CN112329473B
CN112329473B CN202011126371.6A CN202011126371A CN112329473B CN 112329473 B CN112329473 B CN 112329473B CN 202011126371 A CN202011126371 A CN 202011126371A CN 112329473 B CN112329473 B CN 112329473B
Authority
CN
China
Prior art keywords
node
topic
influence
nodes
seepage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202011126371.6A
Other languages
English (en)
Other versions
CN112329473A (zh
Inventor
杨海陆
任旺
张金
陈德运
王莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202011126371.6A priority Critical patent/CN112329473B/zh
Publication of CN112329473A publication Critical patent/CN112329473A/zh
Application granted granted Critical
Publication of CN112329473B publication Critical patent/CN112329473B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于话题影响力渗流的语义社交网络社区发现方法。步骤1:构造语义社交网络节点的语义空间坐标表示;步骤2:构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程;步骤3:根据步骤2的话题影响力渗流微分方程,求解话题影响力偏微分方程;步骤4:根据步骤3制定生成社区的博弈规则;步骤5:在步骤4的博弈规则选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点;步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构。现有方法仅以话题的相似性作为社区的生成标准会降低社区内部节点的一致性,社区内聚性略显不足。

Description

一种基于话题影响力渗流的语义社交网络社区发现方法
技术领域
本发明属于语义社交网络领域;具体涉及一种基于话题影响力渗流的语义社交网络社区发现方法。
背景技术
语义社交网络是一种由节点、链接以及文档组成的新型社交网络。其中,节点代表语义社交网络个体;链接代表节点和节点之间的关系,例如微博社交网络中的关注关系、科技论文网络中的引用关系等;文档代表网络个体发表的文本,例如微博帖子、论文摘要等。与传统的仅考虑网络拓扑结构的社交网络相比,语义社交网络蕴含有丰富的话题属性(topic),例如:科技论文网络中的论文摘要蕴含有论文的研究领域、研究方法等,微博网络中的用户帖子蕴含有用户对社会事件的观点和态度等。可以看出,语义社交网络更善于描述网络节点的内在属性,目前已经成为在线社交网络分析领域的研究热点。
语义社区发现,是语义社交网络分析中的重要研究内容。所谓社区,是指按特定属性聚合在一起的网络群组,满足群组内部成员之间相似性较高,群组之间成员具相似性较低这一特点。在传统的基于拓扑结构的社交网络中,社区内部成员链接较为紧密,社区之间成员链接较为稀疏。而在语义社交网络的社区结构中,社区内部成员不光要具有较高的紧密程度,同时要满足文档中的话题属性具有较高的相似性,科技论文网络中按关键词划分的研究领域,就是典型的语义社区划分实例。
根据网络节点所蕴含语义信息的不同,语义社区识别可以分为两大类:(1)基于结构的语义信息表示。这类网络中的节点不含有文本信息,但研究者基于NetworkEmbedding方法提取了节点的2-hop邻居信息作为节点的语义信息进行社区识别。(2)基于文档的语义信息表示。这类网络中的网络节点蕴含有丰富的文本信息,研究者通过提取文本中蕴含的话题,并构造话题相似性度量函数,挖掘具有较高话题一致性的社区结构。
现有方法存在的问题在于:仅考虑了用户文本中蕴含的话题,忽略了用户对话题持有的观点,这使得对某话题接纳程度较低的用户,也会被划分进围绕话题构造的社区之中,社区面临随网络演化的分裂风险。根据拉扎斯菲尔德提出的二级传播理论,用户会对较为认可的观点加以转发。
发明内容
本发明提供了一种基于话题影响力渗流的语义社交网络社区发现方法,所解决的技术问题是目前语义社区识别算法无法刻画用户的对文本话题的接纳性,导致输出的社区结果内聚性较低、内部一致性不足这一问题。
本发明通过以下技术方案实现:
一种基于话题影响力渗流的语义社交网络社区发现方法,所述语义社交网络社区发现方法包括以下步骤:
步骤1:构造语义社交网络节点的语义空间坐标表示;
步骤2:构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程;
步骤3:根据步骤2的话题影响力渗流微分方程,求解话题影响力偏微分方程;
步骤4:根据步骤3制定生成社区的博弈规则;
步骤5:在步骤4的博弈规则选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点;
步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构。
进一步的,所述步骤1构造语义社交网络节点的语义空间坐标表示具体为,语义社交网络被建模为G=(V,E,T),其中V为节点集,代表语义社交网络用户;E为边集,代表语义社交网络用户之间的链接关系;T为文档集合,代表语义社交网络用户发表的文本信息;
以文档集合T为输入,利用开源的第三方Python工具包Gensim自带的文档话题生成模型LDA,提取文档集合T中的k个话题作为k维语义空间的基,某一节点vi∈V在语义空间中的坐标mi通过vi发表的文档ti∈T中的关键字的求和均值加以表达,具体如公式(1)所示,
Figure BDA0002733735890000021
公式(1)中,Ni代表节点vi的文档ti中的关键词的个数,Ni,j代表文档ti中的第j个关键词,BNi,j代表文档ti中的第j个关键词在k维语义空间中的坐标。
进一步的,所述步骤2构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程具体包括以下步骤:
步骤2.1:制定话题影响力的渗流规则;
步骤2.1.1:选择渗流源点作为种子节点,种子节点的话题影响力初始时刻最大,并随着话题影响力的渗流开始传播;
步骤2.1.2:随着种子节点的话题影响力向周围区域不断渗透,种子节点对其他节点的影响会变小,但是种子节点总的话题影响力大小不变;
步骤2.1.3:受种子节点影响的所有节点会吸收并弱化种子节点的话题影响力,但是种子节点所代表的话题的影响力却得到了增强,话题影响力传播曲线呈现出高斯分布;
步骤2.2:基于渗流力学中的瞬时点源函数,对话题传播时影响力的渗流强度进行建模。
进一步的,所述步骤2.2具体为,令S代表话题影响力的渗流强度,其定义为语义社交网络中,节点受自身以外的其他节点发出的话题影响力大小与其在语义空间坐标处形成的虚拟语义空间大小的比值,在语义空间中,每个节点自身是一个充满不等量话题影响力的固定大小的实心球体,建模时,先赋予S一个虚拟量纲[λγ-1],其中λ是话题影响力数值大小的量纲,γ表示实心球体在虚拟语义空间中的大小;
在语义空间中,mi与mj的内积mi·mj代表了节点vi与vj的语义相关性,vi与vj语义坐标越相似,mi·mj越大,定义话题传播空间坐标
Figure BDA0002733735890000031
表示以节点vi为原点,节点vj相对于原点的话题传播空间坐标,并规定在语义传播空间原点满足zi→i=0,且mi·mj→0时,zi→j→∞,得到关于话题传播空间坐标z的一维话题渗流二阶偏微分方程如下:
Figure BDA0002733735890000032
其中,S为话题影响力的渗流强度,d为语义传播空间原点与受影响节点间的距离,z为话题传播空间坐标,ηz为话题传播的渗流系数,方程(2)的初始条件为:
S(z,0)=κ0δ(z) (3)
其中,κ0代表渗流原点处节点话题影响力的初值,S(z,0)代表语义传播空间原点与受影响节点间的距离为0,即未进行影响力传播时的话题影响力渗流强度;
δ(z)为狄拉克函数,其意义在于除了语义传播空间原点以外的节点的函数值都等于0,而在整个定义域上的积分等于1,其数学表示式为:
Figure BDA0002733735890000033
方程(3)代表的意义:当d=0时,影响力全部集中在渗源节点,在该节点未进行影响力传播时,在该节点的影响力值大小为κ0,而在其他位置影响力大小则为0,
偏微分方程(2)的边界条件如下:
Figure BDA0002733735890000041
S(∞,d)=0表明话题影响力渗流强度S在话题传播空间坐标为无穷时值为0,
Figure BDA0002733735890000042
表明话题影响力渗流强度S对话题传播空间坐标z的偏微分在话题传播空间坐标z为无穷时大小为0。
进一步的,所述步骤3求解话题影响力偏微分方程具体为,通过对偏微分方程(2)式和初值条件(3)式和(5)式来对偏微分方程求解,进一步揭示话题影响力渗流强度S和话题传播空间坐标z和语义传播空间原点到受影响节点间的距离d内在的数学关系,从而得到语义空间任意节点话题影响力渗流强度S的求解公式;
话题影响力渗流强度S是κ、z、d、ηz的函数,假设函数F(S,κ,z,d,ηz)=0,S的量纲为[λγ-1],κ是话题渗源节点的话题影响力,量纲为[λ],其中S正比于λ除以某一特征长度,选取
Figure BDA0002733735890000043
作为特征长度;
利用布金汉π定理,选取S、d、ηz为基本变量,可得:
Figure BDA0002733735890000044
Figure BDA0002733735890000045
接下来确定待定函数f,设变量
Figure BDA0002733735890000046
则有
Figure BDA0002733735890000047
联合式(2)可得:
Figure BDA0002733735890000048
方程(5)的边界条件变为:
Figure BDA0002733735890000051
对方程(8)化简得到:
Figure BDA0002733735890000052
ω为常数,将方程(9)带入得到ω=0,可得方程(10)通解为
Figure BDA0002733735890000053
根据假设,渗源节点话题影响力守恒,可得:
Figure BDA0002733735890000054
Figure BDA0002733735890000055
可得ω0=1;最后结果为:
Figure BDA0002733735890000056
移项变形可得:
Figure BDA0002733735890000057
方程(13)是典型的标准正态函数,以话题传播空间坐标z作为横轴,话题影响力渗流强度S为纵轴;根据标准正态函数的数学性质可知瞬时影响力点源在一维无界语义空间的强度场中的任意d处沿z方向是正态分布;随距离d的变大,影响力强度峰值变小,而受到影响节点的范围变宽,分布曲线趋于平稳;
按照正态函数3σ原则的数学性质,每个节点的话题影响范围在(μ-3σ,μ+3σ)以外的概率小于3‰;因此,实际问题中通常认为相应的事件不会发生,把横轴区间(μ-3σ,μ+3σ)看作是随机变量话题传播空间坐标z实际可能的取值区间;为方便计算,认为节点的话题影响力仅在3σ的范围即
Figure BDA0002733735890000058
有效,即μ-3σ<z≤μ+3σ;因此,通过给定以语义传播空间原点为中心的话题影响力最多覆盖3跳范围。
进一步的,所述步骤4的博弈规则;
步骤4.1.1、博弈参与者为语义社交网络中种子节点以外任意节点;
步骤4.1.2、策略集Pi为策略集Pi=0,表示节点vi仅接受消息不传播,Pi=1表示节点vi接受消息并且继续传播;
步骤4.1.3、效益函数Ui为每个参与者vi选择一个单一的策略Pi,效益函数用来计算策略Pi对参与者的益处,在传播困境博弈模型中,节点vi的效益函数定义为:
Figure BDA0002733735890000061
Ui(Pi,Pj)代表参与者vi传播来自vj所含话题的带来的效益,Sji表示vj的话题对vi的话题的影响力渗流强度,ξ表示传播话题的损耗值;
语义社交网络中,如果节点vi的话题影响力的初值小于该渗透区域内其他节点的话题影响力的初值,那么vi就可能会受到其他节点影响力的渗透,同时对vi话题影响力渗流强度较小的节点的渗透会被对vi话题影响力渗流强度较大的节点的渗透所覆盖,若不存在比节点vi话题影响力的初值大的节点,则认为节点vi在该渗透区域影响力渗流强度Si为无穷大,其表示为:
Figure BDA0002733735890000062
这样一来,如果参与者vi被其他节点渗透,只需计算传播当前对自身话题影响力最大的节点的效益,而不必对全局所有节点的效益函数加以计算。
进一步的,为了更快的得到话题影响渗流强度S的值,引入数据结构胜者树;
当前节点受到其他任意节点的影响力渗流强度构成一颗胜者树,在高效率下筛选出话题影响力渗流强度最大节点,式(14)定义的效益函数仅针对于节点传播一个话题的情形,对应于节点加入单一社区的情况,
但真实语义社交网络通常存在语义重叠社区,因此针对语义重叠社区,定义效益函数如下:
Figure BDA0002733735890000063
其中
Figure BDA0002733735890000064
为重叠损失系数,
Figure BDA0002733735890000065
|R(i)|为节点vi传播的不同节点话题的个数,Ui(Pi,Pj)为仅传播单一节点话题时的效益,当个体传播某一节点的话题时,每次多传播一个节点的话题都会造成
Figure BDA0002733735890000066
的损耗;
为了实现语义重叠社区利益和效率双重的最大化,定义了效益满足值ρ(i)
Figure BDA0002733735890000071
N代表节点vi加入的社区总数;当N=1时,为避免出现社区初始效益满足值过大导致后续社区无法加入,令效益满足值为节点vi有且仅有的一个传播话题社区的效益值(U值)的1/2,当N>1,效益满足值为各单一社区效益加和平均值,若UG(i)的值小于效益满足值ρ(i),则认为加入该社区会导致效率下降选择拒绝加入策略。
进一步的,所述步骤5选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点具体为,
基于PageRank算法,提出一种面向话题影响力最大化的种子节点选取算法,步骤如下:
步骤5.1、初始化优先队列seedSet以及哈希表hashMap为空,其中seedSet存储排序后的话题影响力得分,为后续博弈算法提供高话题影响力种子节点,利用哈希表hashMap将节点ID与话题影响力得分之间形成映射,避免已经被划分的节点成为非均衡节点,从而加快后续社区的生成速度,构造节点数组outlink[vi],用以表示节点vi指向的节点;步骤5.2、网络中的第i个节点将自身影响力按照不同的转移概率非均分的传递给指向节点,构造转移矩阵P:
Figure BDA0002733735890000072
其中i行j列的值表示影响力从节点vj传递到节点vi的概率,M(i,j)为权值邻接矩阵,公式如式(19)所示,
Figure BDA0002733735890000073
如果节点vi指向节点vj则有向边(i,j)边权为mi·mj,否则(i,j)边权为0;
步骤5.3、各节点的影响力得分取决于指向它的节点的得分,用向量vector存储网络中所有节点的影响力得分,并将其初始化为0,遍历社交网络节点,利用式(20)对向量vector进行迭代,
Figure BDA0002733735890000081
其中,α为阻尼因子,用来阻止某些节点影响力过大,P为,τ/N为自重启向量,为不具备直接链接关系的节点间建立转移概率,重复迭代公式(20),直到整个网络收敛,将vector中的影响力得分存储到优先队列seedSet以及哈希表hashMap中;
步骤5.4、将影响力得分转换为对应的话题影响力,定义转换系数ε,将各节点的影响力乘以转化系数得到对应的话题影响力κ,将哈希表hashMap和优先队列seedSet对应的节点进行转化,
步骤5.5、转化结束后,哈希表hashMap和优先队列seedSet存储有网络节点的话题影响力值,输出结果哈希表hashMap和优先队列seedSet,算法结束。
进一步的,所述步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构具体包括以下步骤,
步骤6.1、遍历优先队列seedSet和哈希表hashMap,从队头取出seedSet中任一高话题影响力种子节点,如果在哈希表hashMap中种子节点已经被划分到社区中,重新遍历hashMap和seedSet,如果hashMap和seedSet不为空,则再次从seedSet中取出新的种子节点j,直到该种子节点没有归属社区,将该种子节点作为非均衡点;
步骤6.2、设定mi·mj<0.2时,节点vi与节点vj不参与渗流过程,因此话题传播空间坐标的模
Figure BDA0002733735890000082
进而可得跳数d最大值为2.78,向上取整有dmax=3;遍历种子节点3跳之内的所有节点,若当前受到影响的节点i未被划分社区,则计算该节点的非重叠社区效益函数Ui(Pi,Pj),如果Ui(Pi,Pj)>0,则当前受到影响的节点vi加入种子节点vj所在社区,将节点vi在hashMap中对应的ID标记为已经被划分社区,同时将hashMap元素个数减1,如果Ui(Pi,Pj)<0,则跳过节点vi寻找下一节点;
步骤6.3、若当前受到影响的节点vi已被划分社区并且与发出话题影响力的种子节点vj不在同一社区,则比较当前受到影响的节点vi所在社区的种子节点与发出话题影响力的种子节点vj的余弦相似性U(mseed(i),mj),其表达式为:
Figure BDA0002733735890000083
式中,|mseed(i)||mj|代表节点vseed(i)与节点vj的语义空间坐标的模的乘积,g代表节点vseed(i)与节点vj的语义空间坐标的第g个元素;
步骤6.4、若U(mi,mj)大于阈值0.7,则认为二者相似则合并二者当前所在社区;
步骤6.5、否则若U(mi,mj)小于阈值0.7,使用重叠语义社区效益函数UG(i)进行计算,如果UG(i)大于效益满足值ρ(i),则vi加入发出话题影响力的种子节点vj所在社区,同时当前受到影响的节点加入社区数|R(i)|加1;否则如果UG(i)小于效益满足值ρ(i),则跳过节点vi寻找下一节点;
步骤6.6、当执行一个最佳选择会带来效益的提升时,节点就会执行该最佳动作,局部达到纳什均衡,然后取出新的符合条件的种子节点作为非均衡节点;不断地选择非均衡节点进行博弈,直到整个网络处于纳什均衡状态;
步骤6.7、当seedSet种子节点个数为0,但hashMap中还有元素剩余时,为加速算法快速收敛,将剩余元素随机划分到离其跳数最小的社区重叠部分;
步骤6.8、迭代终止时,受到同一个非均衡节点影响且满足博弈条件的节点被划分为同一社区,并且相似非均衡节点所在社区彼此合并,语义社交网络全局达到纳什均衡,此时输出语义社区识别结果集合SC。
本发明的有益效果是:
构造了基于话题影响力渗透的博弈规则,认为合理的社区结构内部用户应当通过某种策略的做出权衡,从而选择是否接纳某话题并充当该话题的转发者,从而达到最大收益;而现有方法仅以话题的相似性作为社区的生成标准会降低社区内部节点的一致性,社区内聚性略显不足。
附图说明
附图1本发明方法流程图。
附图2社交网络拓扑结构图。
附图3社区划分后的社交网络拓扑结构图。
附图4本发明空手道俱乐部网络的社区划分结果示意图,其中(a)为话题数k=1时社区划分结果示意图,(b)为话题数k=2时社区划分结果示意图,(c)为话题数k=4时社区划分结果示意图,(d)为话题数k=8时社区划分结果示意图。
附图5本发明重叠社区模块度EQ比对分析图。
附图6本发明语义社区模块度SQ比对分析图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于话题影响力渗流的语义社交网络社区发现方法,所述语义社交网络社区发现方法包括以下步骤:
步骤1:构造语义社交网络节点的语义空间坐标表示;
步骤2:构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程;
步骤3:根据步骤2的话题影响力渗流微分方程,求解话题影响力偏微分方程;
步骤4:根据步骤3制定生成社区的博弈规则;
步骤5:在步骤4的博弈规则选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点;
步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构。
进一步的,所述步骤1构造语义社交网络节点的语义空间坐标表示具体为,语义社交网络被建模为G=(V,E,T),其中V为节点集,代表语义社交网络用户;E为边集,代表语义社交网络用户之间的链接关系;T为文档集合,代表语义社交网络用户发表的文本信息;
以文档集合T为输入,利用开源的第三方Python工具包Gensim自带的文档话题生成模型LDA(LatentDirichletAllocation),提取文档集合T中的k个话题作为k维语义空间的基,某一节点vi∈V在语义空间中的坐标(语义坐标)mi通过vi发表的文档ti∈T中的关键字的求和均值加以表达,具体如公式(1)所示,
Figure BDA0002733735890000101
公式(1)中,Ni代表节点vi的文档ti中的关键词(与ti所属话题余弦相似性最高的词汇)的个数,Ni,j代表文档ti中的第j个关键词,
Figure BDA0002733735890000102
代表文档ti中的第j个关键词在k维语义空间中的坐标(第j个关键词与k个话题的余弦相似性表示)。
进一步的,所述步骤2构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程具体包括以下步骤:
步骤2.1:制定话题影响力的渗流规则;
步骤2.1.1:选择渗流源点作为种子节点,种子节点的话题影响力初始时刻最大,并随着话题影响力的渗流开始传播;
步骤2.1.2:随着种子节点的话题影响力向周围区域不断渗透,种子节点对其他节点的影响会变小,但是种子节点总的话题影响力大小不变;
步骤2.1.3:受种子节点影响的所有节点会吸收并弱化种子节点的话题影响力,但是种子节点所代表的话题的影响力却得到了增强,话题影响力传播曲线呈现出高斯分布;
步骤2.2:基于渗流力学中的瞬时点源函数,对话题传播时影响力的渗流强度进行建模。
进一步的,所述步骤2.2具体为,令S代表话题影响力的渗流强度,其定义为语义社交网络中,节点受自身以外的其他节点发出的话题影响力大小与其在语义空间坐标处形成的虚拟语义空间大小的比值,在语义空间中,每个节点自身是一个充满不等量话题影响力的固定大小的实心球体,建模时,先赋予S一个虚拟量纲[λγ-1],其中λ是话题影响力数值大小的量纲,γ表示实心球体在虚拟语义空间中的大小;
在语义空间中,mi与mj的内积mi·mj代表了节点vi与vj的语义相关性,vi与vj语义坐标越相似,mi·mj越大,定义话题传播空间坐标
Figure BDA0002733735890000111
表示以节点vi为原点,节点vj相对于原点的话题传播空间坐标,并规定在语义传播空间原点满足zi→i=0,且mi·mj→0时,zi→j→∞,得到关于话题传播空间坐标z的一维话题渗流二阶偏微分方程如下:
Figure BDA0002733735890000112
其中,S为话题影响力的渗流强度,d为语义传播空间原点与受影响节点间的距离(跳数),z为话题传播空间坐标,ηz为话题传播的渗流系数,方程(2)的初始条件为:
S(z,0)=κ0δ(z) (3)
其中,κ0代表渗流原点处节点话题影响力的初值,S(z,0)代表语义传播空间原点与受影响节点间的距离(跳数)为0,即未进行影响力传播时的话题影响力渗流强度;
δ(z)为狄拉克函数,其意义在于除了语义传播空间原点以外的节点的函数值都等于0,而在整个定义域上的积分等于1,其数学表示式为:
Figure BDA0002733735890000121
方程(3)代表的意义:当d=0时,影响力全部集中在渗源节点,在该节点未进行影响力传播时,在该节点的影响力值大小为κ0,而在其他位置影响力大小则为0,
偏微分方程(2)的边界条件如下:
Figure BDA0002733735890000122
S(∞,d)=0表明话题影响力渗流强度S在话题传播空间坐标为无穷时值为0,
Figure BDA0002733735890000123
表明话题影响力渗流强度S对话题传播空间坐标z的偏微分在话题传播空间坐标z为无穷时大小为0。
进一步的,所述步骤3求解话题影响力偏微分方程具体为,通过对偏微分方程(2)式和初值条件(3)式和(5)式来对偏微分方程求解,进一步揭示话题影响力渗流强度S和话题传播空间坐标z和语义传播空间原点到受影响节点间的距离d内在的数学关系,从而得到语义空间任意节点话题影响力渗流强度S的求解公式;
求解偏微分方程一般有量纲分析法、拉普拉斯变换以及分离变量法;本发明利用物理现象建立偏微分方程,因此采用量纲分析法对偏微分方程进行求解;
量纲分析法的基本原理是布金汉π定理,定理指出:若某一物理过程的函数式包含n个物理量,其中k个具有相互独立的量纲,则该函数式必能变换为包含(n-k)个由这些物理量组成的无量纲准数(πi)的等价函数;
话题影响力渗流强度S是κ、z、d、ηz的函数,假设函数F(S,κ,z,d,ηz)=0,S的量纲为[λγ-1],κ是话题渗源节点的话题影响力,量纲为[λ],其中S正比于λ除以某一特征长度,选取
Figure BDA0002733735890000124
作为特征长度;
利用布金汉π定理,选取S、d、ηz为基本变量,可得:
Figure BDA0002733735890000131
Figure BDA0002733735890000132
接下来确定待定函数f,设变量
Figure BDA0002733735890000133
则有
Figure BDA0002733735890000134
联合式(2)可得:
Figure BDA0002733735890000135
方程(5)的边界条件变为:
Figure BDA0002733735890000136
对方程(8)化简得到:
Figure BDA0002733735890000137
ω为常数,将方程(9)带入得到ω=0,可得方程(10)通解为
Figure BDA0002733735890000138
根据假设,渗源节点话题影响力守恒,可得:
Figure BDA0002733735890000139
Figure BDA00027337358900001310
可得ω0=1;最后结果为:
Figure BDA00027337358900001311
移项变形可得:
Figure BDA00027337358900001312
方程(13)是典型的标准正态函数,以话题传播空间坐标z作为横轴,话题影响力渗流强度S为纵轴;根据标准正态函数的数学性质可知瞬时影响力点源在一维无界语义空间的强度场中的任意d处沿z方向是正态分布;随距离d的变大,影响力强度峰值变小,而受到影响节点的范围变宽,分布曲线趋于平稳;
按照正态函数3σ原则的数学性质,每个节点的话题影响范围在(μ-3σ,μ+3σ)以外的概率小于3‰;因此,实际问题中通常认为相应的事件不会发生,把横轴区间(μ-3σ,μ+3σ)看作是随机变量话题传播空间坐标z实际可能的取值区间;为方便计算,认为节点的话题影响力仅在3σ的范围即
Figure BDA0002733735890000141
有效,即μ-3σ<z≤μ+3σ;因此,通过给定以语义传播空间原点为中心的话题影响力最多覆盖3跳范围。
进一步的,所述步骤4的博弈规则;
社交网络中,个体的行为都是自发的,其考虑各种利弊情形后加入社区,这种行为模式和博弈论中的参与者行为相吻合,语义社交网络中每个人都有自己感兴趣的话题,因此每个人不仅会把自己的话题变为影响力影响周围的人,同时也受到周围人的话题影响,但每个人受到不同话题影响时,会表现出不同的反应,对于那些鲜有人传播的并且自己不感兴趣的话题,通常只会简单看一下而不做过多的关注;反之,对于和自己感兴趣的话题相似的,且有大量人群讨论的高影响力话题,则会持续关注话题的进展并对话题进一步传播,
从博弈论的角度来说,所有个体都被认为是一个理性的、自私的博弈参与者,这些个体会遵循某种规则,选择影响力较大的并且和自己感兴趣的话题较为接近的话题社区,最终实现自身利益的最大化,即达到纳什均衡。
步骤4.1.1、博弈参与者为语义社交网络中种子节点以外任意节点;
步骤4.1.2、策略集Pi为策略集Pi=0,表示节点vi仅接受消息不传播,Pi=1表示节点vi接受消息并且继续传播;
步骤4.1.3、效益函数Ui为每个参与者vi选择一个单一的策略Pi,效益函数用来计算策略Pi对参与者的益处,在传播困境博弈模型中,节点vi的效益函数定义为:
Figure BDA0002733735890000142
Ui(Pi,Pj)代表参与者vi传播来自vj所含话题的带来的效益,Sji表示vj的话题对vi的话题的影响力渗流强度,ξ表示传播话题的损耗值;
语义社交网络中,如果节点vi的话题影响力的初值小于该渗透区域内其他节点的话题影响力的初值,那么vi就可能会受到其他节点影响力的渗透,同时对vi话题影响力渗流强度较小的节点的渗透会被对vi话题影响力渗流强度较大的节点的渗透所覆盖,若不存在比节点vi话题影响力的初值大的节点,则认为节点vi在该渗透区域影响力渗流强度Si为无穷大,其表示为:
Figure BDA0002733735890000151
这样一来,如果参与者vi被其他节点渗透,只需计算传播当前对自身话题影响力最大的节点的效益,而不必对全局所有节点的效益函数加以计算。
进一步的,为了更快的得到话题影响渗流强度S的值,引入数据结构胜者树;
当前节点受到其他任意节点的影响力渗流强度构成一颗胜者树,由于胜者树的特点,在高效率下筛选出话题影响力渗流强度最大节点,式(14)定义的效益函数仅针对于节点传播一个话题的情形,对应于节点加入单一社区的情况,
但真实语义社交网络通常存在语义重叠社区,例如当加入多个社区使参与者的效益显著增加时,参与者将加入多个社区从而形成语义重叠社区,参与者加入多个社区一般会有损耗,例如时间、金钱等,因此针对语义重叠社区,定义效益函数如下:
Figure BDA0002733735890000152
其中
Figure BDA0002733735890000153
为重叠损失系数,
Figure BDA0002733735890000154
|R(i)|为节点vi传播的不同节点话题的个数,Ui(Pi,Pj)为仅传播单一节点话题时的效益,当个体传播某一节点的话题时,每次多传播一个节点的话题都会造成
Figure BDA0002733735890000156
的损耗;
由于博弈者不仅追求自身利益最大化,也追求效率最大化,因此对于重叠社区节点而言,加入多个社区虽然获得比加入少量社区带来的效益高,但在某些情况下,加入少量的高效益社区同样也能带来加入多个低效益社区的等价效益,为了实现语义重叠社区利益和效率双重的最大化,定义了效益满足值ρ(i)
Figure BDA0002733735890000155
N代表节点vi加入的社区总数;当N=1时,为避免出现社区初始效益满足值过大导致后续社区无法加入,令效益满足值为节点vi有且仅有的一个传播话题社区的效益值(U值)的1/2,当N>1,效益满足值为各单一社区效益加和平均值,若UG(i)的值小于效益满足值ρ(i),则认为加入该社区会导致效率下降选择拒绝加入策略。
进一步的,所述步骤5选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点具体为,纳什均衡点是博弈论中的重要概念,又称为非合作博弈均衡点,如果某情况下无一参与者独自行动而增加收益,则此策略组合被称为纳什均衡点,对于初始时刻,语义社交网络中的所有节点处于孤立状态,未产生效益和损耗,此时我们认为社区内部所有节点均处于非纳什均衡状态,即非均衡态;
如果不选择话题影响力最大的节点,而是随机选取节点作为非均衡节点,并将其话题向周围进行渗透,很可能由于被选中的节点自身影响力较低,导致其影响力向周围渗透失败,进而增加算法的时间开销,因此,每次选取话题影响力最大的种子节点作为非均衡节点,会使迭代次数大大减少,在大规模的语义社会网络中会得到可观的时间收益。
基于PageRank算法,提出一种面向话题影响力最大化的种子节点选取算法,步骤如下:
步骤5.1、初始化优先队列seedSet以及哈希表hashMap为空,其中seedSet存储排序后的话题影响力得分,为后续博弈算法提供高话题影响力种子节点,利用哈希表hashMap将节点ID与话题影响力得分之间形成映射,避免已经被划分的节点成为非均衡节点,从而加快后续社区的生成速度,构造节点数组outlink[vi],用以表示节点vi指向的节点;
步骤5.2、网络中的第i个节点将自身影响力按照不同的转移概率非均分的传递给指向节点,构造转移矩阵P:
Figure BDA0002733735890000161
其中i行j列的值表示影响力从节点vj传递到节点vi的概率,M(i,j)为权值邻接矩阵,公式如式(19)所示,
Figure BDA0002733735890000162
如果节点vi指向节点vj则有向边(i,j)边权为mi·mj,否则(i,j)边权为0;
步骤5.3、各节点的影响力得分取决于指向它的节点的得分,用向量vector存储网络中所有节点的影响力得分,并将其初始化为0,遍历社交网络节点,利用式(20)对向量vector进行迭代,
Figure BDA0002733735890000171
其中,α为阻尼因子,用来阻止某些节点影响力过大,P为,τ/N为自重启向量,为不具备直接链接关系的节点间建立转移概率,重复迭代公式(20),直到整个网络收敛,将vector中的影响力得分存储到优先队列seedSet以及哈希表hashMap中;
步骤5.4、将影响力得分转换为对应的话题影响力,定义转换系数ε,将各节点的影响力乘以转化系数得到对应的话题影响力κ,将哈希表hashMap和优先队列seedSet对应的节点进行转化,
步骤5.5、转化结束后,哈希表hashMap和优先队列seedSet存储有网络节点的话题影响力值,输出结果哈希表hashMap和优先队列seedSet,算法结束。
进一步的,所述步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构具体包括以下步骤,
步骤6.1、遍历优先队列seedSet和哈希表hashMap,从队头取出seedSet中任一高话题影响力种子节点,如果在哈希表hashMap中种子节点已经被划分到社区中,重新遍历hashMap和seedSet,如果hashMap和seedSet不为空,则再次从seedSet中取出新的种子节点j,直到该种子节点没有归属社区,将该种子节点作为非均衡点;
步骤6.2、为了加快话题渗流过程,设定mi·mj<0.2时,节点vi与节点vj不参与渗流过程,因此话题传播空间坐标的模
Figure BDA0002733735890000172
进而可得跳数d最大值为2.78,向上取整有dmax=3;遍历种子节点3跳之内的所有节点,若当前受到影响的节点i未被划分社区,则计算该节点的非重叠社区效益函数Ui(Pi,Pj),如果Ui(Pi,Pj)>0,则当前受到影响的节点vi加入种子节点vj所在社区,将节点vi在hashMap中对应的ID标记为已经被划分社区,同时将hashMap元素个数减1,如果Ui(Pi,Pj)<0,则跳过节点vi寻找下一节点;
步骤6.3、若当前受到影响的节点vi已被划分社区并且与发出话题影响力的种子节点vj不在同一社区,则比较当前受到影响的节点vi所在社区的种子节点与发出话题影响力的种子节点vj的余弦相似性U(mseed(i),mj),其表达式为:
Figure BDA0002733735890000181
式中,|mseed(i)||mj|代表节点vseed(i)与节点vj的语义空间坐标的模的乘积,g代表节点vseed(i)与节点vj的语义空间坐标的第g个元素;
步骤6.4、若U(mi,mj)大于阈值0.7,则认为二者相似则合并二者当前所在社区;
步骤6.5、否则若U(mi,mj)小于阈值0.7,使用重叠语义社区效益函数UG(i)进行计算,如果UG(i)大于效益满足值ρ(i),则vi加入发出话题影响力的种子节点vj所在社区,同时当前受到影响的节点加入社区数|R(i)|加1;否则如果UG(i)小于效益满足值ρ(i),则跳过节点vi寻找下一节点;
步骤6.6、当执行一个最佳选择会带来效益的提升时,节点就会执行该最佳动作,局部达到纳什均衡,然后取出新的符合条件的种子节点作为非均衡节点;不断地选择非均衡节点进行博弈,直到整个网络处于纳什均衡状态;
步骤6.7、当seedSet种子节点个数为0,但hashMap中还有元素剩余时,为加速算法快速收敛,将剩余元素随机划分到离其跳数最小的社区重叠部分;
步骤6.8、迭代终止时,受到同一个非均衡节点影响且满足博弈条件的节点被划分为同一社区,并且相似非均衡节点所在社区彼此合并,语义社交网络全局达到纳什均衡,此时输出语义社区识别结果集合SC。
实施例2
一种基于话题影响力渗流的语义社交网络社区发现方法SGSC。
步骤1:基于Python工具包Gensim自带的LDA模型生成语义社交网络节点的语义空间坐标表示。
步骤2:基于物理学领域中的渗流理论,构造基于瞬时点源函数的语义空间话题影响力渗流偏微分方程。
步骤3:求解话题影响力偏微分方程,构造话题影响力渗流强度表达式。
步骤4:制定生成社区的博弈规则。接纳并转发影响力渗流强度较大且社交个体感兴趣的话题,最终实现利益的最大化,达到纳什均衡。
步骤5:选取影响力渗流强度最大的非均衡节点作为初始种子节点,将各个节点的影响力得分乘以转化系数的到对应的话题影响力,以非均衡节点作为语义传播空间源点进行话题影响力渗流。
步骤6:确定博弈的参与者和策略集,并且针对语义非重叠社区和语义重叠社区制定不同的效益函数。
步骤7:利用博弈规则生成语义社交网络社区结构。迭代终止时,受到同一个非均衡节点影响且满足博弈条件的节点被划分为同一社区,相似的非均衡节点所在社区彼此合并。
SGSC算法流程如附图1所示。
实施例3
假设存在加权有向网络G=(V,E),如附图2所示。
根据公式(19),计算权值邻接矩阵可得:
Figure BDA0002733735890000191
进而可得转移矩阵:
Figure BDA0002733735890000201
根据步骤2中话题传播空间坐标
Figure BDA0002733735890000202
可得话题传播空间坐标矩阵Zi,j
Figure BDA0002733735890000203
根据公式(20)对每个节点进行迭代计算影响力值,并且转换成话题影响力值,将各节点按话题影响力大小存储到seedSet和hashMap,具体如下表所示:
表1各节点话题影响力
节点编号ID 话题影响力值
1 31.15
2 38.3
3 88.65
4 607.25
5 57.5
6 346.1
7 38.0
8 76.7
9 6.4
10 6.4
11 6.4
12 6.4
13 6.4
14 6.4
从seedSet取出话题影响力最大的节点4作为非均衡节点,由于数据量较小这里假设话题只影响1跳范围。将有向边指向节点4的节点视为受到影响节点,包括节点2,3,5,6,8。
对于节点2而言,除了受到节点4的话题影响力覆盖以外,还受到节点5的影响覆盖。根据式(12),
Figure BDA0002733735890000211
其中ηz=0.5,d=1,π=3。分别计算节点4以及节点5对节点2的S值,可得S4,2=247.86×e-0.5=150.20,S5,2=23.47×e-0.22=18.78。因此,胜者树中话题影响力强度最大的节点为节点4。这里假定传播话题的损耗值ξ为节点2本身的话题影响力大小,可得效益函数结果大于0,故采用策略。因此节点2接纳节点4的影响力并继续传播,节点2加入节点4所在社区。同理依次处理节点3、5、6、8,可知节点3、5、6、8加入节点4所在社区。
节点4影响区域全部处理完毕,该节点有效覆盖区域达到局部纳什均衡。由于hashMap中节点2、3、5、6、8均被标记已经有归属社区丧失了作为非均衡节点资格,所以从seedSet取出下一个非均衡种子节点7。节点7对节点5、8、12、13、14有影响,但节点5已有归属社区,因此首先根据余弦相似性公式(20)比较节点7和节点5所在社区的最大话题影响力节点4之间话题相似性,假设已知m4·m7=1,|m4|=2,|m7|=1||,相似性阈值为0.8。由于当前节点7和节点4只归属一个社区,故k取值为1。可得
Figure BDA0002733735890000212
小于0.8,因此选择不合并当前节点7和节点4所在社区。
由于社区合并失败,因此判断节点7和节点5的话题影响力大小,确定话题影响力渗透方向,可知话题影响力由节点7向节点5渗透。对节点5,U5(P5,P7)=18.8×e-0.04=14.89,采用重叠语义社区效益函数计算UG(5),可得UG(5)=150.20+14.89-82.59=82.5,利用式(17)计算得到效益满足值ρ(5)=75.1,因此采用策略。节点5接受节点7的话题影响力并继续渗透传播,同时节点5加入节点7所在社区,同理计算节点7对节点8、12、13、14话题影响力使该区域达到纳什均衡。
按上述实例对附图2所示的社交网络进行社区发现,所得结果如附图3所示,不同社区用实线区域加以区分。
实施例4
附图4给出了本发明方法SGSC在空手道俱乐部网络上的社区划分结果。可以发现,随着主题数量的不断增加,社区尺寸逐渐变小,挖掘局部群聚属性的能力不断增强。
图4中每个虚线框区域代表一个社区,如图随着话题佘亮的增加,社区个数上升,社区粒度呈下降趋势。
实施例5
用SCI、TCCD、LCTA、TURCM以及S-LPA算法作为社区发现的比对方法,用重叠社区模块度函数EQ以及语义社区模块度函数SQ评测社区的生成质量。用Sina微博网络、Enron邮件网络、DBLP引文网络、清华大学QLSP数据网络以及豆瓣电影评分网络作为实验数据。验证结果在附图5以及附图6给出。从附图5中可以看出,本发明方法SGSC在重叠社区发现性能上具有一定的竞争力。平均来看,SGSC的EQ评分略低于S-LPA以及TCCD,优于SCI、LCTA以及TURCM。从附图6中可以看出,本发明方法SGSC在语义社区发现性能上具有较大的性能优势,尤其是在Sina、Enron以及Douban这类富情感数据中,本发明方法SGSC平均高于其他5种方法11.61%、10.08%以及10.56%,这表明SGSC更能捕捉用户之间的情感相似性。

Claims (2)

1.一种基于话题影响力渗流的语义社交网络社区发现方法,其特征在于,所述语义社交网络社区发现方法包括以下步骤:
步骤1:构造语义社交网络节点的语义空间坐标表示;
步骤2:构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程;
步骤3:根据步骤2的话题影响力渗流微分方程,求解话题影响力偏微分方程;
步骤4:根据步骤3制定生成社区的博弈规则;
步骤5:在步骤4的博弈规则选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点;
步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构;
所述步骤1构造语义社交网络节点的语义空间坐标表示具体为,语义社交网络被建模为G=(V,E,T),其中V为节点集,代表语义社交网络用户;E为边集,代表语义社交网络用户之间的链接关系;T为文档集合,代表语义社交网络用户发表的文本信息;
以文档集合T为输入,利用开源的第三方Python工具包Gensim自带的文档话题生成模型LDA,提取文档集合T中的k个话题作为k维语义空间的基,某一节点vi∈V在语义空间中的坐标mi通过vi发表的文档ti∈T中的关键字的求和均值加以表达,具体如公式(1)所示,·
Figure FDA0003123683800000011
公式(1)中,Ni代表节点vi的文档ti中的关键词的个数,Ni,j代表文档ti中的第j个关键词,
Figure FDA0003123683800000012
代表文档ti中的第j个关键词在k维语义空间中的坐标;
所述步骤2构造步骤1的同时构造基于渗流力学的话题影响力渗流微分方程具体包括以下步骤:
步骤2.1:制定话题影响力的渗流规则;
步骤2.1.1:选择渗流源点作为种子节点,种子节点的话题影响力初始时刻最大,并随着话题影响力的渗流开始传播;
步骤2.1.2:随着种子节点的话题影响力向周围区域不断渗透,种子节点对其他节点的影响会变小,但是种子节点总的话题影响力大小不变;
步骤2.1.3:受种子节点影响的所有节点会吸收并弱化种子节点的话题影响力,但是种子节点所代表的话题的影响力却得到了增强,话题影响力传播曲线呈现出高斯分布;
步骤2.2:基于渗流力学中的瞬时点源函数,对话题传播时影响力的渗流强度进行建模;
所述步骤2.2具体为,令S代表话题影响力的渗流强度,其定义为语义社交网络中,节点受自身以外的其他节点发出的话题影响力大小与其在语义空间坐标处形成的虚拟语义空间大小的比值,在语义空间中,每个节点自身是一个充满不等量话题影响力的固定大小的实心球体,建模时,先赋予S一个虚拟量纲[λγ-1],其中λ是话题影响力数值大小的量纲,γ表示实心球体在虚拟语义空间中的大小;
在语义空间中,mi与mj的内积mi·mj代表了节点vi与vj的语义相关性,vi与vj语义坐标越相似,mi·mj越大,定义话题传播空间坐标
Figure FDA0003123683800000021
表示以节点vi为原点,节点vj相对于原点的话题传播空间坐标,并规定在语义传播空间原点满足zi→i=0,且mi·mj→0时,zi→j→∞,得到关于话题传播空间坐标z的一维话题渗流二阶偏微分方程如下:
Figure FDA0003123683800000022
其中,S为话题影响力的渗流强度,d为语义传播空间原点与受影响节点间的距离,z为话题传播空间坐标,ηz为话题传播的渗流系数,方程(2)的初始条件为:
S(z,0)=κ0δ(z) (3)
其中,κ0代表渗流原点处节点话题影响力的初值,S(z,0)代表语义传播空间原点与受影响节点间的距离为0,即未进行影响力传播时的话题影响力渗流强度;
δ(z)为狄拉克函数,其意义在于除了语义传播空间原点以外的节点的函数值都等于0,而在整个定义域上的积分等于1,其数学表示式为:
Figure FDA0003123683800000023
方程(3)代表的意义:当d=0时,影响力全部集中在渗源节点,在该节点未进行影响力传播时,在该节点的影响力值大小为κ0,而在其他位置影响力大小则为0;
偏微分方程(2)的边界条件如下:
Figure FDA0003123683800000031
S(∞,d)=0表明话题影响力渗流强度S在话题传播空间坐标为无穷时值为0,
Figure FDA0003123683800000032
表明话题影响力渗流强度S对话题传播空间坐标z的偏微分在话题传播空间坐标z为无穷时大小为0;
所述步骤3求解话题影响力偏微分方程具体为,通过对偏微分方程式(2)和初始条件式(3)和式(5)来对偏微分方程求解,进一步揭示话题影响力渗流强度S和话题传播空间坐标z和语义传播空间原点到受影响节点间的距离d内在的数学关系,从而得到语义空间任意节点话题影响力渗流强度S的求解公式;
话题影响力渗流强度S是κ、z、d、ηz的函数,假设函数F(S,κ,z,d,ηz)=0,S的量纲为[λγ-1],κ是话题渗源节点的话题影响力,量纲为[λ],其中S正比于λ除以某一特征长度,选取
Figure FDA0003123683800000033
作为特征长度;
利用布金汉π定理,选取S、d、ηz为基本变量,可得:
Figure FDA0003123683800000034
Figure FDA0003123683800000035
接下来确定待定函数f,设变量
Figure FDA0003123683800000036
则有
Figure FDA0003123683800000037
联合式(2)可得:
Figure FDA0003123683800000038
方程(5)的边界条件变为:
Figure FDA0003123683800000039
对方程(8)化简得到:
Figure FDA0003123683800000041
ω为常数,将方程(9)带入得到ω=0,可得方程(10)通解为
Figure FDA0003123683800000042
根据假设,渗源节点话题影响力守恒,可得:
Figure FDA0003123683800000043
Figure FDA0003123683800000044
可得ω0=1;最后结果为:
Figure FDA0003123683800000045
移项变形可得:
Figure FDA0003123683800000046
方程(13)是典型的标准正态函数,以话题传播空间坐标z作为横轴,话题影响力渗流强度S为纵轴;根据标准正态函数的数学性质可知瞬时影响力点源在一维无界语义空间的强度场中的任意d处沿z方向是正态分布;随距离d的变大,影响力强度峰值变小,而受到影响节点的范围变宽,分布曲线趋于平稳;
按照正态函数3σ原则的数学性质,每个节点的话题影响范围在(μ-3σ,μ+3σ)以外的概率小于3‰;因此,实际问题中通常认为相应的事件不会发生,把横轴区间(μ-3σ,μ+3σ)看作是随机变量话题传播空间坐标z实际可能的取值区间;为方便计算,认为节点的话题影响力仅在3σ的范围即
Figure FDA0003123683800000047
有效,即μ-3σ<z≤μ+3σ;因此,通过给定以语义传播空间原点为中心的话题影响力最多覆盖3跳范围;
所述步骤4的博弈规则;
步骤4.1.1、博弈参与者为语义社交网络中种子节点以外任意节点;
步骤4.1.2、策略集Pi为策略集Pi=0,表示节点vi仅接受消息不传播,Pi=1表示节点vi接受消息并且继续传播;
步骤4.1.3、效益函数Ui为每个参与者vi选择一个单一的策略Pi,效益函数用来计算策略Pi对参与者的益处,在传播困境博弈模型中,节点vi的效益函数定义为:
Figure FDA0003123683800000051
Ui(Pi,Pj)代表参与者vi传播来自vj所含话题的带来的效益,Sji表示vj的话题对vi的话题的影响力渗流强度,ξ表示传播话题的损耗值;
语义社交网络中,如果节点vi的话题影响力的初值小于该渗透区域内其他节点的话题影响力的初值,那么vi就可能会受到其他节点影响力的渗透,同时对vi话题影响力渗流强度较小的节点的渗透会被对vi话题影响力渗流强度较大的节点的渗透所覆盖,若不存在比节点vi话题影响力的初值大的节点,则认为节点vi在该渗透区域影响力渗流强度Si为无穷大,其表示为:
Figure FDA0003123683800000052
这样一来,如果参与者vi被其他节点渗透,只需计算传播当前对自身话题影响力最大的节点的效益,而不必对全局所有节点的效益函数加以计算;
所述步骤5选取话题影响力最大的种子节点作为影响力渗流的初始非均衡节点具体为,
基于PageRank算法,提出一种面向话题影响力最大化的种子节点选取算法,步骤如下:
步骤5.1、初始化优先队列seedSet以及哈希表hashMap为空,其中seedSet存储排序后的话题影响力得分,为后续博弈算法提供高话题影响力种子节点,利用哈希表hashMap将节点ID与话题影响力得分之间形成映射,避免已经被划分的节点成为非均衡节点,从而加快后续社区的生成速度,构造节点数组outlink[vi],用以表示节点vi指向的节点;
步骤5.2、网络中的第i个节点将自身影响力按照不同的转移概率非均分的传递给指向节点,构造转移矩阵P:
Figure FDA0003123683800000053
其中i行j列的值表示影响力从节点vj传递到节点vi的概率,M(i,j)为权值邻接矩阵,公式如式(19)所示,
Figure FDA0003123683800000061
如果节点vi指向节点vj则有向边(i,j)边权为mi·mj,否则(i,j)边权为0;
步骤5.3、各节点的影响力得分取决于指向它的节点的得分,用向量vector存储网络中所有节点的影响力得分,并将其初始化为0,遍历社交网络节点,利用式(20)对向量vector进行迭代,
Figure FDA0003123683800000062
其中,α为阻尼因子,用来阻止某些节点影响力过大,P为,τ/N为自重启向量,为不具备直接链接关系的节点间建立转移概率,重复迭代公式(20),直到整个网络收敛,将vector中的影响力得分存储到优先队列seedSet以及哈希表hashMap中;
步骤5.4、将影响力得分转换为对应的话题影响力,定义转换系数ε,将各节点的影响力乘以转化系数得到对应的话题影响力κ,将哈希表hashMap和优先队列seedSet对应的节点进行转化,
步骤5.5、转化结束后,哈希表hashMap和优先队列seedSet存储有网络节点的话题影响力值,输出结果哈希表hashMap和优先队列seedSet,算法结束;
所述步骤6:利用步骤4的博弈规则与步骤5的初始非均衡节点生成社交网络社区结构具体包括以下步骤,
步骤6.1、遍历优先队列seedSet和哈希表hashMap,从队头取出seedSet中任一高话题影响力种子节点,如果在哈希表hashMap中种子节点已经被划分到社区中,重新遍历hashMap和seedSet,如果hashMap和seedSet不为空,则再次从seedSet中取出新的种子节点j,直到该种子节点没有归属社区,将该种子节点作为非均衡点;
步骤6.2、设定mi·mj<0.2时,节点vi与节点vj不参与渗流过程,因此话题传播空间坐标的模
Figure FDA0003123683800000063
进而可得跳数d最大值为2.78,向上取整有dmax=3;
遍历种子节点3跳之内的所有节点,若当前受到影响的节点i未被划分社区,则计算该节点的非重叠社区效益函数Ui(Pi,Pj),如果Ui(Pi,Pj)>0,则当前受到影响的节点vi加入种子节点vj所在社区,将节点vi在hashMap中对应的ID标记为已经被划分社区,同时将hashMap元素个数减1,如果Ui(Pi,Pj)<0,则跳过节点vi寻找下一节点;
步骤6.3、若当前受到影响的节点vi已被划分社区并且与发出话题影响力的种子节点vj不在同一社区,则比较当前受到影响的节点vi所在社区的种子节点与发出话题影响力的种子节点vj的余弦相似性U(mseed(i),mj),其表达式为:
Figure FDA0003123683800000071
式中,|mseed(i)||mj|代表节点vseed(i)与节点vj的语义空间坐标的模的乘积,g代表节点vseed(i)与节点vj的语义空间坐标的第g个元素;
步骤6.4、若U(mi,mj)大于阈值0.7,则认为二者相似则合并二者当前所在社区;
步骤6.5、否则若U(mi,mj)小于阈值0.7,使用重叠语义社区效益函数UG(i)进行计算,如果UG(i)大于效益满足值ρ(i),则vi加入发出话题影响力的种子节点vj所在社区,同时当前受到影响的节点加入社区数|R(i)|加1;否则如果UG(i)小于效益满足值ρ(i),则跳过节点vi寻找下一节点;
步骤6.6、当执行一个最佳选择会带来效益的提升时,节点就会执行该最佳动作,局部达到纳什均衡,然后取出新的符合条件的种子节点作为非均衡节点;不断地选择非均衡节点进行博弈,直到整个网络处于纳什均衡状态;
步骤6.7、当seedSet种子节点个数为0,但hashMap中还有元素剩余时,为加速算法快速收敛,将剩余元素随机划分到离其跳数最小的社区重叠部分;
步骤6.8、迭代终止时,受到同一个非均衡节点影响且满足博弈条件的节点被划分为同一社区,并且相似非均衡节点所在社区彼此合并,语义社交网络全局达到纳什均衡,此时输出语义社区识别结果集合SC。
2.根据权利要求1所述一种基于话题影响力渗流的语义社交网络社区发现方法,其特征在于,为了更快的得到话题影响渗流强度S的值,引入数据结构胜者树;
当前节点受到其他任意节点的影响力渗流强度构成一颗胜者树,在高效率下筛选出话题影响力渗流强度最大节点,式(14)定义的效益函数仅针对于节点传播一个话题的情形,对应于节点加入单一社区的情况,
但真实语义社交网络通常存在语义重叠社区,因此针对语义重叠社区,定义效益函数如下:
Figure FDA0003123683800000081
其中
Figure FDA0003123683800000082
为重叠损失系数,
Figure FDA0003123683800000083
|R(i)|为节点vi传播的不同节点话题的个数,Ui(Pi,Pj)为仅传播单一节点话题时的效益,当个体传播某一节点的话题时,每次多传播一个节点的话题都会造成
Figure FDA0003123683800000085
的损耗;
为了实现语义重叠社区利益和效率双重的最大化,定义了效益满足值ρ(i)
Figure FDA0003123683800000084
N代表节点vi加入的社区总数;当N=1时,为避免出现社区初始效益满足值过大导致后续社区无法加入,令效益满足值为节点vi有且仅有的一个传播话题社区的效益值(U值)的1/2,当N>1,效益满足值为各单一社区效益加和平均值,若UG(i)的值小于效益满足值ρ(i),则认为加入该社区会导致效率下降选择拒绝加入策略。
CN202011126371.6A 2020-10-20 2020-10-20 一种基于话题影响力渗流的语义社交网络社区发现方法 Expired - Fee Related CN112329473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011126371.6A CN112329473B (zh) 2020-10-20 2020-10-20 一种基于话题影响力渗流的语义社交网络社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011126371.6A CN112329473B (zh) 2020-10-20 2020-10-20 一种基于话题影响力渗流的语义社交网络社区发现方法

Publications (2)

Publication Number Publication Date
CN112329473A CN112329473A (zh) 2021-02-05
CN112329473B true CN112329473B (zh) 2021-07-30

Family

ID=74311132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011126371.6A Expired - Fee Related CN112329473B (zh) 2020-10-20 2020-10-20 一种基于话题影响力渗流的语义社交网络社区发现方法

Country Status (1)

Country Link
CN (1) CN112329473B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11923074B2 (en) * 2021-02-12 2024-03-05 Iqvia Inc. Professional network-based identification of influential thought leaders and measurement of their influence via deep learning
CN114970059A (zh) * 2022-05-13 2022-08-30 重庆大学 建立动态随机图模型的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217114A (zh) * 2014-09-04 2014-12-17 内蒙古工业大学 基于动态演化对符号网络进行社区检测的方法及系统
CN106844463A (zh) * 2016-12-21 2017-06-13 湖北大学 一种普适的博弈均衡的语义缓存算法
CN110347897A (zh) * 2019-06-28 2019-10-18 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法
CN111177578A (zh) * 2019-12-16 2020-05-19 杭州电子科技大学 一种用户周边最具影响力社区的搜索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678669B (zh) * 2013-12-25 2017-02-08 福州大学 一种社交网络中的社区影响力评估系统及方法
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN106156117B (zh) * 2015-04-07 2018-05-01 中国科学院信息工程研究所 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统
CN105608624A (zh) * 2015-12-29 2016-05-25 武汉理工大学 基于用户体验的微博大数据兴趣社区分析优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217114A (zh) * 2014-09-04 2014-12-17 内蒙古工业大学 基于动态演化对符号网络进行社区检测的方法及系统
CN106844463A (zh) * 2016-12-21 2017-06-13 湖北大学 一种普适的博弈均衡的语义缓存算法
CN110347897A (zh) * 2019-06-28 2019-10-18 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法
CN111177578A (zh) * 2019-12-16 2020-05-19 杭州电子科技大学 一种用户周边最具影响力社区的搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"在线社会网络的结构化分析方法及应用研究";杨海陆;《中国博士学位论文全文数据库 信息科技辑》;20180615;第I139-22页 *
"语义重叠社区发现方法研究";辛宇;《中国博士学位论文全文数据库 信息科技辑》;20180615;第I138-128页 *

Also Published As

Publication number Publication date
CN112329473A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329473B (zh) 一种基于话题影响力渗流的语义社交网络社区发现方法
CN103064917B (zh) 一种面向微博的特定倾向的高影响力用户群发现方法
CN103024017A (zh) 一种社交网络重要目标及社区群体识别方法
Jiang et al. Diverse randomized agents vote to win
CN101916256A (zh) 综合行动者兴趣与网络拓扑的社区发现方法
CN107679239B (zh) 一种基于用户行为的个性化社区推荐方法
Alheyasat Examination expertise sharing in academic social networks using graphs: The case of ResearchGate
CN109165239B (zh) 基于用户属性和内容属性的d2d信息传播建模方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN115630328A (zh) 应急物流网络中关键节点的识别方法
CN107368499A (zh) 一种客户标签建模及推荐方法及装置
CN103279484B (zh) 一种面向微博客系统中未来意见领袖的创建方法及系统
CN112269945A (zh) 基于谣言辟谣促谣和三方认知博弈的信息传播预测方法
Rajyalakshmi et al. Topic diffusion and emergence of virality in social networks
Sun et al. A trust-augmented voting scheme for collaborative privacy management
CN103399919A (zh) 基于社会关系网的信任增强服务推送方法
CN115330056A (zh) 一种基于深度传播和广度传播的话题网络影响力用户预测方法
CN113537593B (zh) 预测议员投票倾向的方法及其装置
Mai et al. Opinion dynamics in networks: Convergence, stability and lack of explosion
Lisowski et al. Equilibrium computation for knockout tournaments played by groups
Wong et al. Modelling Network Latency and Online Video Gamers’ Satisfaction with Machine Learning
Takeuchi et al. Public opinion formation with the spiral of silence on complex social networks
Abdrabbah A Novel Recommendation Approach For Groups Based On Aggregating Top-k Lists
Accinelli et al. Evolutionary game theory: A generalization of the ESS definition
Yang et al. A novel friend recommendation service based on interaction information mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210730

CF01 Termination of patent right due to non-payment of annual fee