CN106055627A

CN106055627A - 话题领域中社交网络关键节点的识别方法

Info

Publication number: CN106055627A
Application number: CN201610364264.4A
Authority: CN
Inventors: 杨力; 田亚平; 王小琴; 马建峰; 张俊伟; 张冬冬; 王利军
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-10-26
Anticipated expiration: 2036-05-27
Also published as: CN106055627B

Abstract

本发明提出了一种话题领域中社交网络关键节点的识别方法，克服现有技术中没有考虑到真实社交网络中用户节点对于信息传播的影响因素以及计算复杂性较高的问题。其实现步骤是：(1)构建网络的有向图；(2)生成与有向图对应的邻接矩阵；(3)量化用户节点对信息传播的影响因素；(4)量化用户节点的话题topic相关度；(5)量化用户节点信息传播能力；(6)识别关键节点。本发明提出的方法依赖于网络的本地拓扑结构，引入了实际社交网络中用户节点对于信息传播影响因素及用户话题相关度的概念，降低了计算的复杂性，可以有效地识别出话题领域中社交网络关键节点。

Description

话题领域中社交网络关键节点的识别方法

技术领域

本发明属于网络技术领域，更进一步涉及数据挖掘技术领域的一种基于话题领域社交网络中关键节点的识别方法。本发明通过对用户信息传播属性特征值的量化以及传播模型的建立，在不需要整体网络拓扑结构的情况下，可有效地识别出特定话题领域中关键节点。

背景技术

社交网络中关键节点识别的研究源于复杂网络的研究工作，其特点是利用复杂网络理论，分析节点及节点间的交互关系，进行网络模型的建立，对网络中关键节点进行识别，有助于更好地理解社交网络中信息传播过程，解决网络中信息传播最大化问题。目前，已有的网络中关键节点的识别方法大都以来于网络拓扑结构，忽略了真实社交网络中信息传播所具有的话题限制，社交网络中用户对于信息的关注依赖于个人所感兴趣的话题，不同的话题领域中关键节点不同，如针对医学信息的传播，在具有相同度的情况下，在医学方面具有权威性的用户比没有医学知识用户具有较高的可信度，更加有利于该类信息的传播。

西北工业大学申请的专利“微博网络意见领袖的识别方法”(专利申请号201310027808.4，公开号CN 103136331 A)中公开了一种微博网络意见领袖的识别方法。该方法包括信息的搜集，节点间交互关系权值的设定，以及意见领袖的识别，考虑到节点的粉丝数量，节点链接关系和交互关系，从而通过权重的大小来标识节点重要性和影响力。该方法存在的不足之处是，意见领袖的识别方法中没有考虑意见领袖中存在的话题限制，使得通过识别方法得到的意见领袖在进行信息的传播的过程中，无法实现最短时间内信息的传播最大化，降低了意见领袖识别准确性问题。

Zhongwu Zhai,Hua Xu,Peifa Jia在其发表的论文“Identifying OpinionLeaders in BBS”(IEEE/WIC/ACM International Conference on Web Intelligence andIntelligent Agent Technology，2008)中提出一种用户兴趣的意见领袖识别方法。该方法考虑到在BBS中信息传播过程中兴趣领域的限制问题，并通过与Zcore,PageRank等算法进行对比，验证其方法的有效性。该方法存在的不足之处是，对于用户信息的回复链量化过程中，计算复杂度相对较高，使得识别过程的开销增大，降低了关键节点识别的效率。

Klaus Wehmuth,Artur Ziviani在其发表的论文“Distributed Assessment ofthe Closeness Centrality Ranking in Complex Networks”(The Fourth AnnualWorkshop on Simplifying Complex Networks for Practitioners,2012)中提出一种利用紧密中心性方法对关键节点进行分布式评估的方法。该方法在传统紧密中心性的计算方法进行了改进，不需要了解网络整体拓扑结构的信息，仅依赖于本地拓扑结构的信息，降低了关键节点识别方法的复杂性。该方法存在的不足之处是，没有考虑到真实社交网络中用户节点对于信息传播的影响因素，较低了识别的有效性。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种话题领域中社交网络关键节点的识别方法，以实现实际社交网络中关键节点的识别。本发明通过分析网络拓扑结构，量化用户节点对信息传播的影响因素及用户节点的话题topic相关度，依据实际社交网络中用户节点信息传播能力，有效地实现话题领域中社交网络关键节点的识别。

本发明的具体步骤如下：

(1)构建网络的有向图：

将待识别的社交网络映射成有向图G(V,E)，其中，V表示社交网络用户节点集合，E表示社交网络用户节点间的交互关系集合。

(2)采用网络邻接矩阵的生成方法，生成与有向图对应的邻接矩阵。

(3)量化用户节点对信息传播的影响因素：

(3a)搜集用户发布的信息，按照下式，量化影响信息传播的用户节点信息发布的活跃度：

A_{i} = \frac{Σ_{j = 1}^{n} f_{{Δt}_{j}}}{n}

其中，A_i表示社交网络中第i个用户节点信息发布的活跃度，i表示社交网络中的用户节点，n表示用户发布信息所选取的时间段的总数，∑表示求和操作，表示用户发布信息选取的Δt_j时间段内用户发布信息的平均数，Δt_j表示用户发布信息选取的第j个时间段；

(3b)从搜集到的用户节点发布的信息中，提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目；

(3c)利用Saaty的10级重要性等级表，计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值；

(3d)按照下式，计算用户节点对信息传播影响因素的量化值：

U_i＝αA_i+βr₁+γ(r₂+r₃)

其中，U_i表示社交网络中第i个用户节点对信息传播影响因素的量化值，α表示用户节点信息发布的活跃度对信息传播影响的权值，A_i表示社交网络中第i个用户节点发布信息的活跃度，β表示邻居用户节点对信息转发的数目对信息传播影响的权值，r₁表示邻居用户节点对信息转发数目，γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值，r₂表示邻居用户节点对信息评论数目，r₃表示邻居用户节点对信息赞同数目。

(4)量化用户节点的话题topic相关度：

(4a)搜集与话题topic相关的信息，从所搜集到的与话题topic相关的信息中，提取与话题topic高度相关的高频词汇集w_n；

(4b)搜集用户节点当前时间段内发布的信息，建立用户节点发布的信息集合M_i；

(4c)利用汉词分词工具，对用户节点发布信息集合M_i中的每条信息进行数据处理，建立用户节点发布信息的分词集合M_ic；

(4d)将用户节点发布信息的分词集合M_ic与话题topic高度相关的高频词汇集w_n进行对比，采用权值设定方法，得到用户节点发布信息集合M_i中每条信息与话题topic的相关度

(4e)通过下述量化公式，计算用户节点的话题topic相关度：

R_{i} = \frac{1}{s} Σ_{j &Element; M_{i}}^{n} \overset{&OverBar;}{m_{j c}}

其中，R_i表示社交网络中第i个用户节点的话题topic相关度，s表示当前时间段内用户节点发布信息的数目，∑表示求和操作，∈表示属于符号，M_i表示社交网络中第i个用户节点发信息集合，m_jc表示用户节点发布的信息集合中第j条信息的分词集合，表示用户节点发布的信息集合中第j条信息与话题topic的相关度。

(5)量化用户节点信息传播能力：

(5a)按照下式，计算用户节点基本的信息传播能力：

\overset{&OverBar;}{P R (v_{i})} = \deg (v_{i}) * U_{i} * R_{\overset{\cdot}{l}}

其中，表示用户节点v_i基本的信息传播能力，v_i表示社交网络中第i个用户节点，deg(v_i)表示用户节点v_i的度，U_i表示社交网络中第i个用户节点对对信息传播的影响因素的量化值，R_i表示社交网络中第i个用户节点的话题topic相关度；

(5b)依据网络有向图中用户节点间的交互关系，按照下式，计算社交网络用户节点的信息传播能力：

P R (v_{i}) = \frac{(1 - d)}{n} + d Σ_{j = 1}^{n} \frac{w (v_{j}, v_{i}) * P R (v_{j})}{\deg_{j}^{o u t}}

其中，PR(v_i)表示社交网络中第i个用户节点v_i信息传播能力，d表示阻尼系数，设置为默认值0.85，n表示社交网络中节点的总数，∑表示求和操作，w(v_j,v_i)表示从社交网络第i个用户节点v_i到社交网络第j个用户节点v_j信息传播的概率，v_i表示社交网络的第i个用户节点，v_j表示社交网络的第j个用户节点，*表示相乘操作，表示社交网络中第j个用户节点出度的大小；

(5c)判断相邻两次信息传播能力的差值是否小于0.01，若是，将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力，执行步骤(6)，否则，执行步骤(5b)。

(6)识别关键节点：

(6a)按照从大到小的顺序，将社交网络用户节点的信息传播能力进行排序；

(6b)将排序中的前Q个用户节点作为网络关键节点，Q∈(0,10％)。

本发明与现有技术相比存在以下优点：

第一，由于本发明中对于用户节点信息传播能力的初始值计算，依赖于用户节点的本地拓扑结构信息中度的大小作为用户节点基本信息传播能力，克服了现有技术当中存在的计算复杂度相对较高，识别过程的开销增大，降低了关键节点识别的效率的问题，使得本发明具有降低计算复杂度，提高关键节点识别效率优点。

第二，由于本发明量化了用户节点对信息传播的影响因素，以及信息传播的影响因素中用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值，克服了现有技术中没有考虑到真实社交网络中用户节点对于信息传播的影响因素，较低了识别的有效性问题，使得本发明具有提高关键节点识别有效性的优点。

第三，由于社交网络中不同的话题topic领域中关键节点不同，本发明引入了用户节点话题topic相关度的概念，针对社交网络特定话题领域中关键节点进行识别，克服了现有技术当中存在的意见领袖的识别方法中没有考虑意见领袖中存在的话题限制，使得通过识别方法得到的意见领袖在进行信息的传播的过程中，无法实现最短时间内信息的传播最大化，降低了意见领袖识别准确性问题，使得本发明具有提高不同话题领域关键节点识别准确性的优点。

附图说明

图1为本发明的流程图；

图2为本发明量化用户节点的话题topic相关度步骤的流程图。

具体实施方式

下面结合图对本发明做进一步的详细描述。

参照图1，对本发明的具体实施步骤做进一步的详细描述。

步骤1.构建网络的有向图。

在本发明步骤1的实施例中，以国内大型微博网络——新浪微博作为待识别的社交网络，所采集到的用户数量为38225，用户之间的交互关系数目为57351，每个用户对于一个节点，用户之间的交互关系对应节点之间的连接边。

步骤2.生成与有向图对应的邻接矩阵。

采用网络邻接矩阵的生成方法，生成与有向图对应的邻接矩阵。

网络邻接矩阵的生成方法是指，从有向图中任意选取两个节点，判断所选取的两个节点之间是否存在连接边，若存在，则得到与有向图对应的邻接矩阵中相应的元素w(v_i,v_j)，否则为0，其中，w(v_j,v_i)表示从社交网络第i个用户节点v_i到社交网络第j个用户节点v_j信息传播的概率，v_i表示社交网络的第i个用户节点，v_j表示社交网络的第j个用户节点。

在本发明步骤2的实施例中，当生成与有向图对应的邻接矩阵时，由于社交网络用户节点间的交互关系有向性，邻接矩阵中相应的元素w(v_i,v_j)中，若i≠j，则w(v_i,v_j)≠w(v_j,v_i)，由此得到邻接矩阵为：

\{\begin{matrix} 0 & w (v_{0}, v_{1}) & ... & 0 & 0 \\ w (v_{1}, v_{0}) & 0 & ... & 0 & 0 \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ 0 & 0 & ... & 0 & w (v_{38224}, v_{38335}) \\ 0 & 0 & ... & w (v_{38225}, v_{38334}) & 0 \end{matrix}\}

步骤3.量化用户节点对信息传播的影响因素。

搜集用户发布的信息，按照下式，量化影响信息传播的用户节点信息发布的活跃度：

A_{i} = \frac{Σ_{j = 1}^{n} f_{{Δt}_{j}}}{n}

其中，A_i表示社交网络中第i个用户节点信息发布的活跃度，i表示社交网络中的用户节点，n表示用户发布信息所选取的时间段的总数，∑表示求和操作，表示用户发布信息选取的Δt_j时间段内用户发布信息的平均数，Δt_j表示用户发布信息选取的第j个时间段。

从搜集到的用户节点发布的信息中，提取影响信息传播的邻居节点对信息转发数目、邻居节点对信息评论数目、邻居节点对信息赞同数目。

利用Saaty的10级重要性等级表，计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值。

计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值具体步骤如下：

第1步，利用Saaty的10级重要性等级表，将用户节点发布信息的活跃度比邻居用户节点对信息转发的数目稍微重要的影响，表示为等级3；将邻居用户节点对信息转发的数目比邻居用户节点对信息评论的数目稍微重要的影响，表示为等级3；将邻居用户节点对信息评论的数目和邻居用户节点对信息赞同数目同等重要的影响，表示为等级1；将用户节点发布信息的活跃度比用户的受关注度较强重要的影响表示为等级5；

第2步，依据第1步中用户节点发布信息的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得到的影响等级，建立等级对应的两两判断矩阵A_4*4；

第3步，将等级对应的两两判断矩阵A_4*4按列进行归一化处理，得到对应的矩阵B_4*4；

第4步，将对应的矩阵B_4*4中的元素按行相加，得到每行对应的行向量C(c₁,c₂,c₃,c₄)^T，其中，T表示转置矩阵的符号；

第5步，对行向量C(c₁,c₂,c₃,c₄)^T进行归一化处理，得到用户节点信息发布的活跃度对信息传播影响的权值，邻居用户节点对信息转发的数目对信息传播影响的权值，邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值。

按照下式，计算用户节点对信息传播影响因素的量化值：

U_i＝αA_i+βr₁+γ(r₂+r₃)

在本发明步骤3的实施例中，依据用户节点发布信息的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同数目之间任意两两对比得到的影响等级，建立等级对应的两两判断矩阵A_4*4为：

\{\begin{matrix} 1 & 3 & 5 & 5 \\ 1 / 3.0 & 1 & 3 & 3 \\ 1 / 5.0 & 1 / 3.0 & 1 & 1 \\ 1 / 5.0 & 1 / 3.0 & 1 & 1 \end{matrix}\}

将等级对应的两两判断矩阵A_4*4按列进行归一化处理，得到对应的矩阵B_4*4，将对应的矩阵B_4*4中的元素按行相加，得到对应的行向量C(c₁,c₂,c₃,c₄)^T，最终得到的用户节点信息发布的活跃度对信息传播影响的权值为α＝0.5596，邻居用户节点对信息转发的数目对信息传播影响的权值β＝0.2495，邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值为γ＝0.0955。

步骤4.量化用户节点的话题topic相关度。

参照图2，对本发明的具体实施步骤做进一步的详细描述。

搜集与话题topic相关的信息，从所搜集到的与话题topic相关的信息中，提取与话题topic高度相关的高频词汇集w_n。

提取与话题topic高度相关的高频词汇集w_n的方法是指，依据搜集用户节点当前时间段内发布的信息进行分词，提取出关键词语，将提取出的关键词语组成与话题topic高度相关的高频词汇集w_n，其中，高频词汇集w_n的大小为|w_n|＝50。

搜集用户节点当前时间段内发布的信息，建立用户节点发布的信息集合M_i。

利用汉词分词工具，对用户节点发布信息集合M_i中的每条信息进行数据处理，建立用户节点发布信息的分词集合M_ic。

数据处理的具体步骤如下：

第1步，利用汉词分词工具，提取用户节点发布信息集合M_i中的每条信息词语，得到初步用户节点发布信息的分词集合；

第2步，将初步用户节点发布信息的分词集合中的词语与停用词列表中的词语进行对比，将相同的词语从初步的建立用户节点发布信息的分词集合中剔除，将剩余的初步用户节点发布信息的分词集合的分词，组成用户节点发布信息的分词集合M_ic。

将用户节点发布信息的分词集合M_ic与话题topic高度相关的高频词汇集w_n进行对比，采用权值设定方法，得到用户节点发布信息集合M_i中每条信息与话题topic的相关度

权值设定方法是指，从用户节点发布信息的分词集合中，每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中，选出相同词汇的数目k，依据下式，计算用户节点发布信息集合中每条信息与话题topic的相关度：

\overset{&OverBar;}{m_{j c}} = δ k

其中，表示用户节点发布的信息集合中第j条信息与话题topic的相关度，δ表示权值δ∈(0,1)，k表示从用户节点发布信息的分词集合中，每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中选出相同词汇的数目。

通过下述量化公式，计算用户节点的话题topic相关度：

R_{i} = \frac{1}{s} Σ_{j &Element; M_{i}}^{n} \overset{&OverBar;}{m_{j c}}

在本发明步骤4的实施例中，利用的汉词分词工具为中科院计算技术研究所研发的汉语词法分析系统ICTCLAS，停用词列表为中国软件开发者社区CSDN提供的停用词列表。

步骤5.量化用户节点信息传播能力。

按照下式，计算用户节点基本的信息传播能力：

\overset{&OverBar;}{P R (v_{i})} = \deg (v_{i}) * U_{i} * R_{\overset{\cdot}{l}}

其中，表示用户节点v_i基本的信息传播能力，v_i表示社交网络中第i个用户节点，deg(v_i)表示用户节点v_i的度，U_i表示社交网络中第i个用户节点对对信息传播的影响因素的量化值，R_i表示社交网络中第i个用户节点的话题topic相关度。

依据网络有向图中用户节点间的交互关系，按照下式，计算社交网络用户节点的信息传播能力：

P R (v_{i}) = \frac{(1 - d)}{n} + d Σ_{j = 1}^{n} \frac{w (v_{j}, v_{i}) * P R (v_{j})}{\deg_{j}^{o u t}}

其中，PR(v_i)表示社交网络中第i个用户节点v_i信息传播能力，d表示阻尼系数，设置为默认值0.85，n表示社交网络中节点的总数，∑表示求和操作，w(v_j,v_i)表示从社交网络第i个用户节点v_i到社交网络第j个用户节点v_j信息传播的概率，v_i表示社交网络的第i个用户节点，v_j表示社交网络的第j个用户节点，*表示相乘操作，表示社交网络中第j个用户节点出度的大小。

判断相邻两次信息传播能力的差值是否小于0.01，若是，将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力，执行步骤6，否则，重新计算用户节点信息传播能力。

在本发明步骤5的实施例中，对于用户节点v_i的基本传播能力的计算中，由于本实例的数据量较大，deg(v_i)取值设为用户节点v_i的度以10为底进行log运算的大小，按照下式，计算从社交网络第i个用户节点v_i到社交网络第j个用户节点v_j信息传播的概率w(v_j,v_i)：

w(v_i,v_j)＝U_j*R_j*PR(v_i)

其中，w(v_j,v_i)表示从社交网络第i个用户节点v_i到社交网络第j个用户节点v_j信息传播的概率，v_j表示社交网络的第j个用户节点，v_i表示社交网络的第i个用户节点，U_j表示社交网络中第j个用户节点对对信息传播的影响因素的量化值，R_j表示社交网络中第j个用户节点的话题topic相关度，PR(v_i)表示社交网络中第i个用户节点v_i信息传播能力。

步骤6.识别关键节点。

按照从大到小的顺序，将社交网络用户节点的信息传播能力进行排序。

将排序中的前Q个用户节点作为网络关键节点，Q∈(0,10％)。

Claims

1.一种话题领域中社交网络关键节点的识别方法，具体步骤如下：

(1)构建网络的有向图：

将待识别的社交网络映射成有向图G(V,E)，其中，V表示社交网络用户节点集合，E表示社交网络用户节点间的交互关系集合；

(2)采用网络邻接矩阵的生成方法，生成与有向图对应的邻接矩阵；

(3)量化用户节点对信息传播的影响因素：

A_{i} = \frac{Σ_{j = 1}^{n} f_{{Δt}_{j}}}{n}

(3d)按照下式，计算用户节点对信息传播影响因素的量化值：

U_i＝αA_i+βr₁+γ(r₂+r₃)

其中，U_i表示社交网络中第i个用户节点对信息传播影响因素的量化值，α表示用户节点信息发布的活跃度对信息传播影响的权值，A_i表示社交网络中第i个用户节点发布信息的活跃度，β表示邻居用户节点对信息转发的数目对信息传播影响的权值，r₁表示邻居用户节点对信息转发数目，γ表示邻居用户节点对信息评论的数目和邻居用户节点对信息赞同的数目对信息传播影响的权值，r₂表示邻居用户节点对信息评论数目，r₃表示邻居用户节点对信息赞同数目；

(4)量化用户节点的话题topic相关度：

(4e)通过下述量化公式，计算用户节点的话题topic相关度：

R_{i} = \frac{1}{s} Σ_{j &Element; M_{i}}^{n} \overset{&OverBar;}{m_{j c}}

其中，R_i表示社交网络中第i个用户节点的话题topic相关度，s表示当前时间段内用户节点发布信息的数目，∑表示求和操作，∈表示属于符号，M_i表示社交网络中第i个用户节点发信息集合，m_jc表示用户节点发布的信息集合中第j条信息的分词集合，表示用户节点发布的信息集合中第j条信息与话题topic的相关度；

(5)量化用户节点信息传播能力：

(5a)按照下式，计算用户节点基本的信息传播能力：

\overset{&OverBar;}{P R (v_{i})} = \deg (v_{i}) * U_{i} * R_{i}

P R (v_{i}) = \frac{(1 - d)}{n} + d Σ_{j = 1}^{n} \frac{w (v_{j}, v_{i}) * P R (v_{j})}{\deg_{j}^{o u t}}

(5c)判断相邻两次信息传播能力的差值是否小于0.01，若是，将相邻两次的最后一次计算得到的结果作为社交网络用户节点的信息传播能力，执行步骤(6)，否则，执行步骤(5b)；

(6)识别关键节点：

2.根据权利要求1所述的话题领域中社交网络关键节点的识别方法，其特征在于，步骤(2)中所述的网络邻接矩阵的生成方法是指，从有向图中任意选取两个节点，判断所选取的两个节点之间是否存在连接边，若存在，则得到与有向图对应的邻接矩阵中相应的元素w(v_i,v_j)，否则为0，其中，w(v_j,v_i)表示从社交网络第i个用户节点v_i到社交网络第j个用户节点v_j信息传播的概率，v_i表示社交网络的第i个用户节点，v_j表示社交网络的第j个用户节点。

3.根据权利要求1所述的话题领域中社交网络关键节点的识别方法，其特征在于，步骤(3c)中所述的计算用户节点信息发布的活跃度、邻居用户节点对信息转发的数目、邻居用户节点对信息评论的数目、邻居用户节点对信息赞同的数目对信息传播影响的权值具体步骤如下：

4.根据权利要求1所述的话题领域中社交网络关键节点的识别方法，其特征在于，步骤(4a)中所述的提取与话题topic高度相关的高频词汇集w_n的方法是指，依据搜集用户节点当前时间段内发布的信息进行分词，提取出关键词语，将提取出的关键词语组成与话题topic高度相关的高频词汇集w_n，其中，高频词汇集w_n的大小为|w_n|＝50。

5.根据权利要求1所述的话题领域中社交网络关键节点的识别方法，其特征在于，步骤(4c)中所述的数据处理的具体步骤如下：

6.根据权利要求1所述的话题领域中社交网络关键节点的识别方法，其特征在于，步骤(4d)中所述的权值设定方法是指，从用户节点发布信息的分词集合中，每条信息的分词集合与话题topic高度相关的高频词汇集对比结果中，选出相同词汇的数目k，依据下式，计算用户节点发布信息集合中每条信息与话题topic的相关度：

\overset{&OverBar;}{m_{j c}} = δ k