CN106055627A - 话题领域中社交网络关键节点的识别方法 - Google Patents
话题领域中社交网络关键节点的识别方法 Download PDFInfo
- Publication number
- CN106055627A CN106055627A CN201610364264.4A CN201610364264A CN106055627A CN 106055627 A CN106055627 A CN 106055627A CN 201610364264 A CN201610364264 A CN 201610364264A CN 106055627 A CN106055627 A CN 106055627A
- Authority
- CN
- China
- Prior art keywords
- information
- nodes
- user
- user node
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000013016 damping Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种话题领域中社交网络关键节点的识别方法,克服现有技术中没有考虑到真实社交网络中用户节点对于信息传播的影响因素以及计算复杂性较高的问题。其实现步骤是:(1)构建网络的有向图;(2)生成与有向图对应的邻接矩阵;(3)量化用户节点对信息传播的影响因素;(4)量化用户节点的话题topic相关度;(5)量化用户节点信息传播能力;(6)识别关键节点。本发明提出的方法依赖于网络的本地拓扑结构,引入了实际社交网络中用户节点对于信息传播影响因素及用户话题相关度的概念,降低了计算的复杂性,可以有效地识别出话题领域中社交网络关键节点。
Description
技术领域
本发明属于网络技术领域,更进一步涉及数据挖掘技术领域的一种基于话题领域社交网络中关键节点的识别方法。本发明通过对用户信息传播属性特征值的量化以及传播模型的建立,在不需要整体网络拓扑结构的情况下,可有效地识别出特定话题领域中关键节点。
背景技术
社交网络中关键节点识别的研究源于复杂网络的研究工作,其特点是利用复杂网络理论,分析节点及节点间的交互关系,进行网络模型的建立,对网络中关键节点进行识别,有助于更好地理解社交网络中信息传播过程,解决网络中信息传播最大化问题。目前,已有的网络中关键节点的识别方法大都以来于网络拓扑结构,忽略了真实社交网络中信息传播所具有的话题限制,社交网络中用户对于信息的关注依赖于个人所感兴趣的话题,不同的话题领域中关键节点不同,如针对医学信息的传播,在具有相同度的情况下,在医学方面具有权威性的用户比没有医学知识用户具有较高的可信度,更加有利于该类信息的传播。
西北工业大学申请的专利“微博网络意见领袖的识别方法”(专利申请号201310027808.4,公开号CN 103136331 A)中公开了一种微博网络意见领袖的识别方法。该方法包括信息的搜集,节点间交互关系权值的设定,以及意见领袖的识别,考虑到节点的粉丝数量,节点链接关系和交互关系,从而通过权重的大小来标识节点重要性和影响力。该方法存在的不足之处是,意见领袖的识别方法中没有考虑意见领袖中存在的话题限制,使得通过识别方法得到的意见领袖在进行信息的传播的过程中,无法实现最短时间内信息的传播最大化,降低了意见领袖识别准确性问题。
Zhongwu Zhai,Hua Xu,Peifa Jia在其发表的论文“Identifying OpinionLeaders in BBS”(IEEE/WIC/ACM International Conference on Web Intelligence andIntelligent Agent Technology,2008)中提出一种用户兴趣的意见领袖识别方法。该方法考虑到在BBS中信息传播过程中兴趣领域的限制问题,并通过与Zcore,PageRank等算法进行对比,验证其方法的有效性。该方法存在的不足之处是,对于用户信息的回复链量化过程中,计算复杂度相对较高,使得识别过程的开销增大,降低了关键节点识别的效率。
Klaus Wehmuth,Artur Ziviani在其发表的论文“Distributed Assessment ofthe Closeness Centrality Ranking in Complex Networks”(The Fourth AnnualWorkshop on Simplifying Complex Networks for Practitioners,2012)中提出一种利用紧密中心性方法对关键节点进行分布式评估的方法。该方法在传统紧密中心性的计算方法进行了改进,不需要了解网络整体拓扑结构的信息,仅依赖于本地拓扑结构的信息,降低了关键节点识别方法的复杂性。该方法存在的不足之处是,没有考虑到真实社交网络中用户节点对于信息传播的影响因素,较低了识别的有效性。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种话题领域中社交网络关键节点的识别方法,以实现实际社交网络中关键节点的识别。本发明通过分析网络拓扑结构,量化用户节点对信息传播的影响因素及用户节点的话题topic相关度,依据实际社交网络中用户节点信息传播能力,有效地实现话题领域中社交网络关键节点的识别。
本发明的具体步骤如下:
(1)构建网络的有向图:
将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E表示社交网络用户节点间的交互关系集合。
(2)采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵。
(3)量化用户节点对信息传播的影响因素:
(3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃度:
其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节点,n表示用户发布信息所选取的时间段的总数,∑表示求和操作,表示用户发布信息选取的Δtj时间段内用户发布信息的平均数,Δtj表示用户发布信息选取的第j个时间段;
(3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目;
(3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值;
(3d)按照下式,计算用户节点对信息传播影响因素的量化值:
Ui=αAi+βr1+γ(r2+r3)
其中,Ui表示社交网络中第i个用户节点对信息传播影响因素的量化值,α表示用户节点信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的活跃度,β表示邻居用户节点对信息转发的数目对信息传播影响的权值,r1表示邻居用户节点对信息转发数目,γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值,r2表示邻居用户节点对信息评论数目,r3表示邻居用户节点对信息赞同数目。
(4)量化用户节点的话题topic相关度:
(4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与话题topic高度相关的高频词汇集wn;
(4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合Mi;
(4c)利用汉词分词工具,对用户节点发布信息集合Mi中的每条信息进行数据处理,建立用户节点发布信息的分词集合Mic;
(4d)将用户节点发布信息的分词集合Mic与话题topic高度相关的高频词汇集wn进行对比,采用权值设定方法,得到用户节点发布信息集合Mi中每条信息与话题topic的相关度
(4e)通过下述量化公式,计算用户节点的话题topic相关度:
其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内用户节点发布信息的数目,∑表示求和操作,∈表示属于符号,Mi表示社交网络中第i个用户节点发信息集合,mjc表示用户节点发布的信息集合中第j条信息的分词集合,表示用户节点发布的信息集合中第j条信息与话题topic的相关度。
(5)量化用户节点信息传播能力:
(5a)按照下式,计算用户节点基本的信息传播能力:
其中,表示用户节点vi基本的信息传播能力,vi表示社交网络中第i个用户节点,deg(vi)表示用户节点vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响因素的量化值,Ri表示社交网络中第i个用户节点的话题topic相关度;
(5b)依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的信息传播能力:
其中,PR(vi)表示社交网络中第i个用户节点vi信息传播能力,d表示阻尼系数,设置为默认值0.85,n表示社交网络中节点的总数,∑表示求和操作,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vi表示社交网络的第i个用户节点,vj表示社交网络的第j个用户节点,*表示相乘操作,表示社交网络中第j个用户节点出度的大小;
(5c)判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤(6),否则,执行步骤(5b)。
(6)识别关键节点:
(6a)按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序;
(6b)将排序中的前Q个用户节点作为网络关键节点,Q∈(0,10%)。
本发明与现有技术相比存在以下优点:
第一,由于本发明中对于用户节点信息传播能力的初始值计算,依赖于用户节点的本地拓扑结构信息中度的大小作为用户节点基本信息传播能力,克服了现有技术当中存在的计算复杂度相对较高,识别过程的开销增大,降低了关键节点识别的效率的问题,使得本发明具有降低计算复杂度,提高关键节点识别效率优点。
第二,由于本发明量化了用户节点对信息传播的影响因素,以及信息传播的影响因素中用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值,克服了现有技术中没有考虑到真实社交网络中用户节点对于信息传播的影响因素,较低了识别的有效性问题,使得本发明具有提高关键节点识别有效性的优点。
第三,由于社交网络中不同的话题topic领域中关键节点不同,本发明引入了用户节点话题topic相关度的概念,针对社交网络特定话题领域中关键节点进行识别,克服了现有技术当中存在的意见领袖的识别方法中没有考虑意见领袖中存在的话题限制,使得通过识别方法得到的意见领袖在进行信息的传播的过程中,无法实现最短时间内信息的传播最大化,降低了意见领袖识别准确性问题,使得本发明具有提高不同话题领域关键节点识别准确性的优点。
附图说明
图1为本发明的流程图;
图2为本发明量化用户节点的话题topic相关度步骤的流程图。
具体实施方式
下面结合图对本发明做进一步的详细描述。
参照图1,对本发明的具体实施步骤做进一步的详细描述。
步骤1.构建网络的有向图。
将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E表示社交网络用户节点间的交互关系集合。
在本发明步骤1的实施例中,以国内大型微博网络——新浪微博作为待识别的社交网络,所采集到的用户数量为38225,用户之间的交互关系数目为57351,每个用户对于一个节点,用户之间的交互关系对应节点之间的连接边。
步骤2.生成与有向图对应的邻接矩阵。
采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵。
网络邻接矩阵的生成方法是指,从有向图中任意选取两个节点,判断所选取的两个节点之间是否存在连接边,若存在,则得到与有向图对应的邻接矩阵中相应的元素w(vi,vj),否则为0,其中,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vi表示社交网络的第i个用户节点,vj表示社交网络的第j个用户节点。
在本发明步骤2的实施例中,当生成与有向图对应的邻接矩阵时,由于社交网络用户节点间的交互关系有向性,邻接矩阵中相应的元素w(vi,vj)中,若i≠j,则w(vi,vj)≠w(vj,vi),由此得到邻接矩阵为:
步骤3.量化用户节点对信息传播的影响因素。
搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃度:
其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节点,n表示用户发布信息所选取的时间段的总数,∑表示求和操作,表示用户发布信息选取的Δtj时间段内用户发布信息的平均数,Δtj表示用户发布信息选取的第j个时间段。
从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目。
利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值。
计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值具体步骤如下:
第1步,利用Saaty的10级重要性等级表,将用户节点发布信息的活跃度比邻居用户节点对信息转发的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息转发的数目比邻居用户节点对信息评论的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息评论的数目和邻居用户节点对信息赞同数目同等重要的影响,表示为等级1;将用户节点发布信息的活跃度比用户的受关注度较强重要的影响表示为等级5;
第2步,依据第1步中用户节点发布信息的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得到的影响等级,建立等级对应的两两判断矩阵A4*4;
第3步,将等级对应的两两判断矩阵A4*4按列进行归一化处理,得到对应的矩阵B4*4;
第4步,将对应的矩阵B4*4中的元素按行相加,得到每行对应的行向量C(c1,c2,c3,c4)T,其中,T表示转置矩阵的符号;
第5步,对行向量C(c1,c2,c3,c4)T进行归一化处理,得到用户节点信息发布的活跃度对信息传播影响的权值,邻居用户节点对信息转发的数目对信息传播影响的权值,邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值。
按照下式,计算用户节点对信息传播影响因素的量化值:
Ui=αAi+βr1+γ(r2+r3)
其中,Ui表示社交网络中第i个用户节点对信息传播影响因素的量化值,α表示用户节点信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的活跃度,β表示邻居用户节点对信息转发的数目对信息传播影响的权值,r1表示邻居用户节点对信息转发数目,γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值,r2表示邻居用户节点对信息评论数目,r3表示邻居用户节点对信息赞同数目。
在本发明步骤3的实施例中,依据用户节点发布信息的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得到的影响等级,建立等级对应的两两判断矩阵A4*4为:
将等级对应的两两判断矩阵A4*4按列进行归一化处理,得到对应的矩阵B4*4,将对应的矩阵B4*4中的元素按行相加,得到对应的行向量C(c1,c2,c3,c4)T,最终得到的用户节点信息发布的活跃度对信息传播影响的权值为α=0.5596,邻居用户节点对信息转发的数目对信息传播影响的权值β=0.2495,邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值为γ=0.0955。
步骤4.量化用户节点的话题topic相关度。
参照图2,对本发明的具体实施步骤做进一步的详细描述。
搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与话题topic高度相关的高频词汇集wn。
提取与话题topic高度相关的高频词汇集wn的方法是指,依据搜集用户节点当前时间段内发布的信息进行分词,提取出关键词语,将提取出的关键词语组成与话题topic高度相关的高频词汇集wn,其中,高频词汇集wn的大小为|wn|=50。
搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合Mi。
利用汉词分词工具,对用户节点发布信息集合Mi中的每条信息进行数据处理,建立用户节点发布信息的分词集合Mic。
数据处理的具体步骤如下:
第1步,利用汉词分词工具,提取用户节点发布信息集合Mi中的每条信息词语,得到初步用户节点发布信息的分词集合;
第2步,将初步用户节点发布信息的分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从初步的建立用户节点发布信息的分词集合中剔除,将剩余的初步用户节点发布信息的分词集合的分词,组成用户节点发布信息的分词集合Mic。
将用户节点发布信息的分词集合Mic与话题topic高度相关的高频词汇集wn进行对比,采用权值设定方法,得到用户节点发布信息集合Mi中每条信息与话题topic的相关度
权值设定方法是指,从用户节点发布信息的分词集合中,每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中,选出相同词汇的数目k,依据下式,计算用户节点发布信息集合中每条信息与话题topic的相关度:
其中,表示用户节点发布的信息集合中第j条信息与话题topic的相关度,δ表示权值δ∈(0,1),k表示从用户节点发布信息的分词集合中,每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中选出相同词汇的数目。
通过下述量化公式,计算用户节点的话题topic相关度:
其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内用户节点发布信息的数目,∑表示求和操作,∈表示属于符号,Mi表示社交网络中第i个用户节点发信息集合,mjc表示用户节点发布的信息集合中第j条信息的分词集合,表示用户节点发布的信息集合中第j条信息与话题topic的相关度。
在本发明步骤4的实施例中,利用的汉词分词工具为中科院计算技术研究所研发的汉语词法分析系统ICTCLAS,停用词列表为中国软件开发者社区CSDN提供的停用词列表。
步骤5.量化用户节点信息传播能力。
按照下式,计算用户节点基本的信息传播能力:
其中,表示用户节点vi基本的信息传播能力,vi表示社交网络中第i个用户节点,deg(vi)表示用户节点vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响因素的量化值,Ri表示社交网络中第i个用户节点的话题topic相关度。
依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的信息传播能力:
其中,PR(vi)表示社交网络中第i个用户节点vi信息传播能力,d表示阻尼系数,设置为默认值0.85,n表示社交网络中节点的总数,∑表示求和操作,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vi表示社交网络的第i个用户节点,vj表示社交网络的第j个用户节点,*表示相乘操作,表示社交网络中第j个用户节点出度的大小。
判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤6,否则,重新计算用户节点信息传播能力。
在本发明步骤5的实施例中,对于用户节点vi的基本传播能力的计算中,由于本实例的数据量较大,deg(vi)取值设为用户节点vi的度以10为底进行log运算的大小,按照下式,计算从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率w(vj,vi):
w(vi,vj)=Uj*Rj*PR(vi)
其中,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vj表示社交网络的第j个用户节点,vi表示社交网络的第i个用户节点,Uj表示社交网络中第j个用户节点对对信息传播的影响因素的量化值,Rj表示社交网络中第j个用户节点的话题topic相关度,PR(vi)表示社交网络中第i个用户节点vi信息传播能力。
步骤6.识别关键节点。
按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序。
将排序中的前Q个用户节点作为网络关键节点,Q∈(0,10%)。
Claims (6)
1.一种话题领域中社交网络关键节点的识别方法,具体步骤如下:
(1)构建网络的有向图:
将待识别的社交网络映射成有向图G(V,E),其中,V表示社交网络用户节点集合,E表示社交网络用户节点间的交互关系集合;
(2)采用网络邻接矩阵的生成方法,生成与有向图对应的邻接矩阵;
(3)量化用户节点对信息传播的影响因素:
(3a)搜集用户发布的信息,按照下式,量化影响信息传播的用户节点信息发布的活跃度:
其中,Ai表示社交网络中第i个用户节点信息发布的活跃度,i表示社交网络中的用户节点,n表示用户发布信息所选取的时间段的总数,∑表示求和操作,表示用户发布信息选取的Δtj时间段内用户发布信息的平均数,Δtj表示用户发布信息选取的第j个时间段;
(3b)从搜集到的用户节点发布的信息中,提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目;
(3c)利用Saaty的10级重要性等级表,计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值;
(3d)按照下式,计算用户节点对信息传播影响因素的量化值:
Ui=αAi+βr1+γ(r2+r3)
其中,Ui表示社交网络中第i个用户节点对信息传播影响因素的量化值,α表示用户节点信息发布的活跃度对信息传播影响的权值,Ai表示社交网络中第i个用户节点发布信息的活跃度,β表示邻居用户节点对信息转发的数目对信息传播影响的权值,r1表示邻居用户节点对信息转发数目,γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值,r2表示邻居用户节点对信息评论数目,r3表示邻居用户节点对信息赞同数目;
(4)量化用户节点的话题topic相关度:
(4a)搜集与话题topic相关的信息,从所搜集到的与话题topic相关的信息中,提取与话题topic高度相关的高频词汇集wn;
(4b)搜集用户节点当前时间段内发布的信息,建立用户节点发布的信息集合Mi;
(4c)利用汉词分词工具,对用户节点发布信息集合Mi中的每条信息进行数据处理,建立用户节点发布信息的分词集合Mic;
(4d)将用户节点发布信息的分词集合Mic与话题topic高度相关的高频词汇集wn进行对比,采用权值设定方法,得到用户节点发布信息集合Mi中每条信息与话题topic的相关度
(4e)通过下述量化公式,计算用户节点的话题topic相关度:
其中,Ri表示社交网络中第i个用户节点的话题topic相关度,s表示当前时间段内用户节点发布信息的数目,∑表示求和操作,∈表示属于符号,Mi表示社交网络中第i个用户节点发信息集合,mjc表示用户节点发布的信息集合中第j条信息的分词集合,表示用户节点发布的信息集合中第j条信息与话题topic的相关度;
(5)量化用户节点信息传播能力:
(5a)按照下式,计算用户节点基本的信息传播能力:
其中,表示用户节点vi基本的信息传播能力,vi表示社交网络中第i个用户节点,deg(vi)表示用户节点vi的度,Ui表示社交网络中第i个用户节点对对信息传播的影响因素的量化值,Ri表示社交网络中第i个用户节点的话题topic相关度;
(5b)依据网络有向图中用户节点间的交互关系,按照下式,计算社交网络用户节点的信息传播能力:
其中,PR(vi)表示社交网络中第i个用户节点vi信息传播能力,d表示阻尼系数,设置为默认值0.85,n表示社交网络中节点的总数,∑表示求和操作,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vi表示社交网络的第i个用户节点,vj表示社交网络的第j个用户节点,*表示相乘操作,表示社交网络中第j个用户节点出度的大小;
(5c)判断相邻两次信息传播能力的差值是否小于0.01,若是,将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力,执行步骤(6),否则,执行步骤(5b);
(6)识别关键节点:
(6a)按照从大到小的顺序,将社交网络用户节点的信息传播能力进行排序;
(6b)将排序中的前Q个用户节点作为网络关键节点,Q∈(0,10%)。
2.根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤(2)中所述的网络邻接矩阵的生成方法是指,从有向图中任意选取两个节点,判断所选取的两个节点之间是否存在连接边,若存在,则得到与有向图对应的邻接矩阵中相应的元素w(vi,vj),否则为0,其中,w(vj,vi)表示从社交网络第i个用户节点vi到社交网络第j个用户节点vj信息传播的概率,vi表示社交网络的第i个用户节点,vj表示社交网络的第j个用户节点。
3.根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤(3c)中所述的计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值具体步骤如下:
第1步,利用Saaty的10级重要性等级表,将用户节点发布信息的活跃度比邻居用户节点对信息转发的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息转发的数目比邻居用户节点对信息评论的数目稍微重要的影响,表示为等级3;将邻居用户节点对信息评论的数目和邻居用户节点对信息赞同数目同等重要的影响,表示为等级1;将用户节点发布信息的活跃度比用户的受关注度较强重要的影响表示为等级5;
第2步,依据第1步中用户节点发布信息的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得到的影响等级,建立等级对应的两两判断矩阵A4*4;
第3步,将等级对应的两两判断矩阵A4*4按列进行归一化处理,得到对应的矩阵B4*4;
第4步,将对应的矩阵B4*4中的元素按行相加,得到每行对应的行向量C(c1,c2,c3,c4)T,其中,T表示转置矩阵的符号;
第5步,对行向量C(c1,c2,c3,c4)T进行归一化处理,得到用户节点信息发布的活跃度对信息传播影响的权值,邻居用户节点对信息转发的数目对信息传播影响的权值,邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值。
4.根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤(4a)中所述的提取与话题topic高度相关的高频词汇集wn的方法是指,依据搜集用户节点当前时间段内发布的信息进行分词,提取出关键词语,将提取出的关键词语组成与话题topic高度相关的高频词汇集wn,其中,高频词汇集wn的大小为|wn|=50。
5.根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤(4c)中所述的数据处理的具体步骤如下:
第1步,利用汉词分词工具,提取用户节点发布信息集合Mi中的每条信息词语,得到初步用户节点发布信息的分词集合;
第2步,将初步用户节点发布信息的分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从初步的建立用户节点发布信息的分词集合中剔除,将剩余的初步用户节点发布信息的分词集合的分词,组成用户节点发布信息的分词集合Mic。
6.根据权利要求1所述的话题领域中社交网络关键节点的识别方法,其特征在于,步骤(4d)中所述的权值设定方法是指,从用户节点发布信息的分词集合中,每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中,选出相同词汇的数目k,依据下式,计算用户节点发布信息集合中每条信息与话题topic的相关度:
其中,表示用户节点发布的信息集合中第j条信息与话题topic的相关度,δ表示权值δ∈(0,1),k表示从用户节点发布信息的分词集合中,每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中选出相同词汇的数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610364264.4A CN106055627B (zh) | 2016-05-27 | 2016-05-27 | 话题领域中社交网络关键节点的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610364264.4A CN106055627B (zh) | 2016-05-27 | 2016-05-27 | 话题领域中社交网络关键节点的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106055627A true CN106055627A (zh) | 2016-10-26 |
CN106055627B CN106055627B (zh) | 2019-06-18 |
Family
ID=57175693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610364264.4A Active CN106055627B (zh) | 2016-05-27 | 2016-05-27 | 话题领域中社交网络关键节点的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106055627B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273396A (zh) * | 2017-03-06 | 2017-10-20 | 扬州大学 | 一种社交网络信息传播检测节点的选择方法 |
CN107358308A (zh) * | 2017-05-16 | 2017-11-17 | 广州杰赛科技股份有限公司 | 实现社会网络影响力最大化的方法和装置 |
CN107592232A (zh) * | 2017-10-11 | 2018-01-16 | 中山大学 | 一种低代价传播或监控网络信息的方法 |
CN108280121A (zh) * | 2017-12-06 | 2018-07-13 | 上海师范大学 | 一种基于k-核分解获取社交网络意见领袖的方法 |
CN109657150A (zh) * | 2018-12-25 | 2019-04-19 | 杭州铭智云教育科技有限公司 | 一种向目标用户推送目标文献名录的方法 |
CN109657105A (zh) * | 2018-12-25 | 2019-04-19 | 杭州铭智云教育科技有限公司 | 一种获取目标用户的方法 |
CN109688167A (zh) * | 2017-10-13 | 2019-04-26 | 中国移动通信集团安徽有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN109714207A (zh) * | 2018-12-28 | 2019-05-03 | 中国电子科技集团公司信息科学研究院 | 一种复杂网络关键节点识别方法及系统 |
CN110046260A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种基于知识图谱的暗网话题发现方法和系统 |
CN110110974A (zh) * | 2019-04-17 | 2019-08-09 | 福建天泉教育科技有限公司 | 关键意见领袖的识别方法及计算机可读存储介质 |
CN110991470A (zh) * | 2019-07-03 | 2020-04-10 | 北京市安全生产科学技术研究院 | 数据降维方法、画像构建方法及系统、可读存储介质 |
CN111080462A (zh) * | 2019-11-15 | 2020-04-28 | 中山大学 | 基于信息非均匀传播特征的社交媒体关键用户识别方法 |
CN109727152B (zh) * | 2019-01-29 | 2020-07-17 | 重庆理工大学 | 一种基于时变阻尼运动的在线社交网络信息传播构建方法 |
CN111753213A (zh) * | 2020-06-10 | 2020-10-09 | 西北工业大学 | 一种问答社交网络用户分享行为的传染力度量方法 |
CN114461930A (zh) * | 2022-04-13 | 2022-05-10 | 四川大学 | 社交网络数据采集方法、装置及储存介质 |
US11386507B2 (en) | 2019-09-23 | 2022-07-12 | International Business Machines Corporation | Tensor-based predictions from analysis of time-varying graphs |
CN117811992A (zh) * | 2024-02-29 | 2024-04-02 | 山东海量信息技术研究院 | 一种网络不良信息传播抑制方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662956A (zh) * | 2012-03-05 | 2012-09-12 | 西北工业大学 | 一种基于用户话题链接行为的社交网络意见领袖识别方法 |
CN103136331A (zh) * | 2013-01-18 | 2013-06-05 | 西北工业大学 | 微博网络意见领袖识别方法 |
CN104077347A (zh) * | 2013-03-26 | 2014-10-01 | 国际商业机器公司 | 用于剖析通信网络上的社交潮流引领者的方法和系统 |
US20150100683A1 (en) * | 2013-10-03 | 2015-04-09 | LinkedIn..Corporation | Identification of an authority-type leader in a social network |
-
2016
- 2016-05-27 CN CN201610364264.4A patent/CN106055627B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662956A (zh) * | 2012-03-05 | 2012-09-12 | 西北工业大学 | 一种基于用户话题链接行为的社交网络意见领袖识别方法 |
CN103136331A (zh) * | 2013-01-18 | 2013-06-05 | 西北工业大学 | 微博网络意见领袖识别方法 |
CN104077347A (zh) * | 2013-03-26 | 2014-10-01 | 国际商业机器公司 | 用于剖析通信网络上的社交潮流引领者的方法和系统 |
US20150100683A1 (en) * | 2013-10-03 | 2015-04-09 | LinkedIn..Corporation | Identification of an authority-type leader in a social network |
Non-Patent Citations (3)
Title |
---|
THOMAS VALENTE: "Identifying Opinion Leaders to Promote Behavior Change", 《HEALTH EDUCATION & BEHAVIOR》 * |
吴渝,马璐璐,林茂,刘洪涛: "基于用户影响力的意见领袖发现算法", 《小型微型计算机系统》 * |
曹玖新 等: "基于多维特征分析的社交网络意见领袖挖掘", 《电子学报》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273396A (zh) * | 2017-03-06 | 2017-10-20 | 扬州大学 | 一种社交网络信息传播检测节点的选择方法 |
CN107358308A (zh) * | 2017-05-16 | 2017-11-17 | 广州杰赛科技股份有限公司 | 实现社会网络影响力最大化的方法和装置 |
CN107358308B (zh) * | 2017-05-16 | 2021-06-18 | 广州杰赛科技股份有限公司 | 实现社会网络影响力最大化的方法和装置 |
CN107592232A (zh) * | 2017-10-11 | 2018-01-16 | 中山大学 | 一种低代价传播或监控网络信息的方法 |
CN109688167B (zh) * | 2017-10-13 | 2022-07-01 | 中国移动通信集团安徽有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN109688167A (zh) * | 2017-10-13 | 2019-04-26 | 中国移动通信集团安徽有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN108280121A (zh) * | 2017-12-06 | 2018-07-13 | 上海师范大学 | 一种基于k-核分解获取社交网络意见领袖的方法 |
CN108280121B (zh) * | 2017-12-06 | 2021-10-22 | 上海师范大学 | 一种基于k-核分解获取社交网络意见领袖的方法 |
CN109657150B (zh) * | 2018-12-25 | 2020-07-14 | 场亿租网络科技(上海)有限公司 | 一种向目标用户推送目标文献名录的方法 |
CN109657150A (zh) * | 2018-12-25 | 2019-04-19 | 杭州铭智云教育科技有限公司 | 一种向目标用户推送目标文献名录的方法 |
CN109657105A (zh) * | 2018-12-25 | 2019-04-19 | 杭州铭智云教育科技有限公司 | 一种获取目标用户的方法 |
CN109657105B (zh) * | 2018-12-25 | 2021-10-22 | 杭州灿八科技有限公司 | 一种获取目标用户的方法 |
CN109714207A (zh) * | 2018-12-28 | 2019-05-03 | 中国电子科技集团公司信息科学研究院 | 一种复杂网络关键节点识别方法及系统 |
CN109714207B (zh) * | 2018-12-28 | 2022-01-28 | 中国电子科技集团公司信息科学研究院 | 一种复杂网络关键节点识别方法及系统 |
CN109727152B (zh) * | 2019-01-29 | 2020-07-17 | 重庆理工大学 | 一种基于时变阻尼运动的在线社交网络信息传播构建方法 |
CN110046260A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种基于知识图谱的暗网话题发现方法和系统 |
CN110110974A (zh) * | 2019-04-17 | 2019-08-09 | 福建天泉教育科技有限公司 | 关键意见领袖的识别方法及计算机可读存储介质 |
CN110110974B (zh) * | 2019-04-17 | 2022-03-29 | 福建天泉教育科技有限公司 | 关键意见领袖的识别方法及计算机可读存储介质 |
CN110991470B (zh) * | 2019-07-03 | 2022-04-15 | 北京市应急管理科学技术研究院 | 数据降维方法、画像构建方法及系统、可读存储介质 |
CN110991470A (zh) * | 2019-07-03 | 2020-04-10 | 北京市安全生产科学技术研究院 | 数据降维方法、画像构建方法及系统、可读存储介质 |
US11386507B2 (en) | 2019-09-23 | 2022-07-12 | International Business Machines Corporation | Tensor-based predictions from analysis of time-varying graphs |
CN111080462A (zh) * | 2019-11-15 | 2020-04-28 | 中山大学 | 基于信息非均匀传播特征的社交媒体关键用户识别方法 |
CN111080462B (zh) * | 2019-11-15 | 2023-06-30 | 中山大学 | 基于信息非均匀传播特征的社交媒体关键用户识别方法 |
CN111753213A (zh) * | 2020-06-10 | 2020-10-09 | 西北工业大学 | 一种问答社交网络用户分享行为的传染力度量方法 |
CN114461930A (zh) * | 2022-04-13 | 2022-05-10 | 四川大学 | 社交网络数据采集方法、装置及储存介质 |
CN117811992A (zh) * | 2024-02-29 | 2024-04-02 | 山东海量信息技术研究院 | 一种网络不良信息传播抑制方法、装置、设备及存储介质 |
CN117811992B (zh) * | 2024-02-29 | 2024-05-28 | 山东海量信息技术研究院 | 一种网络不良信息传播抑制方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106055627B (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106055627B (zh) | 话题领域中社交网络关键节点的识别方法 | |
Cavallari et al. | Embedding both finite and infinite communities on graphs [application notes] | |
US9959365B2 (en) | Method and apparatus to identify the source of information or misinformation in large-scale social media networks | |
CN112615888B (zh) | 一种网络攻击行为的威胁评估方法及装置 | |
CN102521248A (zh) | 一种网络用户分类方法及其装置 | |
Huang et al. | Large-scale heterogeneous feature embedding | |
CN113297840B (zh) | 恶意流量账号检测方法、装置、设备和存储介质 | |
CN111382181A (zh) | 一种基于股权穿透的指定企业派系归属分析方法及系统 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
O'Doherty et al. | Towards trust inference from bipartite social networks | |
Gliwa et al. | Models of social groups in blogosphere based on information about comment addressees and sentiments | |
Chang et al. | Link prediction in a bipartite network using Wikipedia revision information | |
Zhu et al. | Tripartite active learning for interactive anomaly discovery | |
CN106909619A (zh) | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 | |
CN114003803A (zh) | 一种社交平台上特定地域的媒体账号发现方法及系统 | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
Dewinta et al. | Customer complaints clusterization of government drinking water company on social media twitter using text mining | |
CN112380455A (zh) | 基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法 | |
CN104462480A (zh) | 基于典型性的评论大数据挖掘方法 | |
Pera et al. | Using maximal spanning trees and word similarity to generate hierarchical clusters of non-redundant RSS news articles | |
CN113159976A (zh) | 一种微博网络重要用户的识别方法 | |
Nguyen et al. | Pagerank-based approach on ranking social events: a case study with flickr | |
Hoang | Topical Community Detection: an Embedding User and Content Similarity Method | |
Foysal et al. | Classification of AI powered social bots on Twitter by sentiment analysis and data mining through SVM | |
Bide et al. | Cross event detection and topic evolution analysis in cross events for man-made disasters in social media streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |