CN111125453A - 基于子图同构的社交网络中意见领袖角色识别方法及存储介质 - Google Patents

基于子图同构的社交网络中意见领袖角色识别方法及存储介质 Download PDF

Info

Publication number
CN111125453A
CN111125453A CN201911373753.6A CN201911373753A CN111125453A CN 111125453 A CN111125453 A CN 111125453A CN 201911373753 A CN201911373753 A CN 201911373753A CN 111125453 A CN111125453 A CN 111125453A
Authority
CN
China
Prior art keywords
graph
node
nodes
social network
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911373753.6A
Other languages
English (en)
Other versions
CN111125453B (zh
Inventor
钱茛南
张德
张淯舒
黄海彬
耿杨
何杰
徐天琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Information Science Research Institute
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute, CETC Big Data Research Institute Co Ltd filed Critical CETC Information Science Research Institute
Priority to CN201911373753.6A priority Critical patent/CN111125453B/zh
Publication of CN111125453A publication Critical patent/CN111125453A/zh
Application granted granted Critical
Publication of CN111125453B publication Critical patent/CN111125453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于子图同构的社交网络中意见领袖角色识别方法及其存储介质,包括从网络媒体获取的用户活动信息,提取用户之间的活动关系,将具体用户抽象为网络节点,进行社交网络的构建;读取社交网络模型,选取网络节点的多个多维度图指标属性,依据所计算的多种图属性指标,对三种指标进行多目标决策计算,给出核心用户列表;进行查询图构建,判断每个核心用户节点是否满足领导‑下级模式或传播者模式,并生成最终结果。本发明可以发现社交网络中的高影响力用户的角色信息,帮助相关人员对暗网中的犯罪分子密谋策划犯罪活动进行分析,对社交网络中的谣言传播者进行发现,对网络空间治理人员给予有力的数据支撑。

Description

基于子图同构的社交网络中意见领袖角色识别方法及存储 介质
技术领域
本发明涉及一种社交网络的角色识别方法,具体的,涉及一种基于子图同构的社交网络中意见领袖角色识别方法及存储介质。
背景技术
“意见领袖”的概念是最早在20世纪40年代由美国传播学者拉扎斯菲尔德所提出,拉扎斯菲尔德在美大选期间,围绕竞选宜传活动,对选民的投票意向改变情况进行调查,最终调查发现;多数人在竞选运动之初就己经确定了自己的支持对象,但中间约有8%的人会中途改变主意,这批人之所以改变,并不是受竞选演说或各类大众传媒宣传的影响,主要是受身边亲朋、团体的影响。拉对这类现象进行总结后发现,在话题与信息的传播过程中,存在着两级传播的现象。即大多数选民信息获取的来源是另一部分的其他选民。这部分选民对大众媒体非常关注,经常阅读报刊、广告等,对事态的发展有非常清晰的认识。与此类人交往密切的选民,可从其言论中获取最精华的意见,听取、接受并认可。于是,这类可影响其他人的选民逐渐就成为了公众的舆论领袖。意见领袖是信息的传播的中间节点,他将初始的消息内容进行筛选和过滤,将最有价值部分扩散出去。与此同时,在信息扩散的过程中,他也会加入自身主观的看法,这些较有说服力的观点或多或少都会对信息的受众产生影响。
意见领袖能给需要帮助的人提供信息,同时对他们的行为和思想产生影响。互联网网络其实跟社会网络一样,也存在着意见领袖,他们在网络上能聚集一大波粉丝,具有很强的影响力。特别是在网络营销方面,目前很多厂商利用新兴媒体在社交网络上对在相关领域具有较大影响力的用户做定点广告,提高产品的销售量。意见领袖提高了信息的可信度并强化了购买者的购买意愿。因此,企业可以针对意见领袖的特点设计相应的产品,并投送到该意见领袖,意见领袖依托他在网络中的影响力,从而达到产品推销的作用。这种产品推销相比传统广告行业花费很少、专业性更强。
因此,如何快速、准确的找出网络论坛中的意见领袖对于企业来说具有重要的意义。
此外,在现实网络环境中,意见领袖是具有不同角色的,在挖掘意见领袖的同时,如果能附加上角色信息,将获得更加精确丰富的结果。例如,在暗网环境下,对犯罪分子的命令发起人(领导者),和命令接收者(下级)的识别,有助于及时发现犯罪动机,挖掘犯罪团伙。因此,通过识别意见领袖,能够有力的监控一些违法犯罪的行为,加强对于社会治安的管理。
现有技术中具有如下的识别意见领袖的方法。
范长俊等人在《基于信息交互网络的个体角色识别方法研究》中提出一种识别个体角色的方法。
该方法主要提取社交网络用户的发言、发帖等文本信息,利用TF-IDF等主题分析方法,来判断该用户最频繁涉及的内容,依该类内容,来决定该用户属于何种角色。
该方法的缺点:
主要依赖于文本内容的分析。但文本内容分析自身带有精度不稳定的问题,比如对官方媒体,如新闻稿等精度较高,但对广泛的网络交流语言或特定专业术语,则精度不高。这直接影响了该方法的有效性。没有自动化的判断方式。提取出文本内容后,需要人主观判断其内容归属哪一类主题,再来决定该用户的角色。首先是需要人工的参与,其次,需要判断者是一个领域的专家,具有该领域的丰富知识,才能进行较为准确的判断。
李婉钰等人,在《基于结构与属性的复杂网络节点角色识别方法研究》提出一种基于结构的角色识别方法。具体的:
提取微博相关信息,如用户粉丝数和关注数、用户发微博数和收藏数、用户转发量、点赞等指标,组成一个多维向量;多个用户的多维向量组成一个特征矩阵;然后利用模式识别中的非负矩阵分解和奇异值分解算法,提取该矩阵的特征子矩阵,将不同特征子矩阵认定为同属一个角色。
该方法的缺点:
不能事先指定角色的类型。只能依据非负矩阵分解的结果,配合手工的检查,才能确定用户具体归属于何种角色。且该方法中对“角色”只进行粗略的定义,分为:主要发送节点、主要转换节点和主要接收节点等。较难和实际社交网络中的角色对应。只能针对微博一种社交媒体进行处理。提取的用户多维向量只是针对微博用户相关活动进行提取,但各种社交媒体差异较大,即该方法的适用范围较窄。
张昊等人,在《基于引文网络分析的作者和期刊知识角色识别研究》提出一种基于结构的角色识别方法。具体的:
将社交媒体用户的行为进行抽象,构建社交网络,对网络进行凝聚子群提取,即选取较强、直接、紧密、经常的或积极的关系归为一个子群。然后以子群为个体,分析其之间的交互关系,依据关系的频繁程度,将不同子群赋予不同的角色。如对引文网络中的知识汇总者、知识转移者和知识源等角色。
该方法的缺点:
重视子群内部用户活动,忽视了群之间的联系。该方法适用于不同专业的引文网络分析,由于专业的特殊性,可以将用户天然的划分,但对于实际的社交网络来说,该方法具有局限性。只考虑了一种图形属性,即子群的凝聚特性。该方法只利用了图的凝聚子群,未考虑其他图属性。如果其他图属性和凝聚特性相冲突时,其结果精度也会受到影响。
因此,如何克服现有技术的不足,识别出意见领袖,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于子图同构的社交网络中意见领袖角色识别方法及存储介质,能够便利的发现社交网络中的高影响用户的角色信息,能够实现基于该角色信息的多种用途,例如可以帮助相关人员对暗网中的犯罪分子密谋策划犯罪活动进行分析,可以对社交网络中的谣言传播者进行寻根溯源,对网络空间治理人员给予有力的数据支撑,也可以利用网络大V主动的传播正能量,弘扬正确的网络精神。
为达此目的,本发明采用以下技术方案:
一种基于子图同构的社交网络中意见领袖角色识别方法,其特征在于,包括如下步骤:
社交网络模型重构步骤S110:
从网络媒体获取的用户活动信息,并对其进行预处理,提取用户之间的活动关系,将具体用户抽象为网络节点,将具体用户之间的关系抽象为网络中的边,进行社交网络的构建;
核心用户集合提取步骤S120:
读取社交网络模型,选取网络节点的多个多维度图指标属性,依据所计算的多种图属性指标,对具体节点赋予影响力权重,对三种指标进行多目标决策计算,给出核心用户列表;
子图同构步骤S130:进行查询图构建,利用VF2子图同构算法,判断每个核心用户节点是否满足领导-下级模式或传播者模式,并生成最终结果。
可选的,所述社交网络模型重构步骤S110具体包括:对网络媒体进行信息获取,将结果输入到一个先入先出的处理队列中,定时或依次取队列头对象,进行预处理,所述预处理包括数据清洗、数据去重和数据一致性等,将原始数据转换为可以处理的结构性数据格式,并将其放置在待提取队列中;然后从所述待提取队列中定时或依次取队列头对象,进行用户节点和用户之间关系的提取,从而将原始网络媒体中多源异构的数据,构建为抽象、便于处理的社交网络。
可选的,所述核心用户集合提取步骤S120具体包括:
S121:读取社交网络模型:将步骤S110中所生成的结构化的社交网络模型,作为分析对象;
S122:选取网络节点的多个多维度图指标属性,所述多个多维度图指标属性包括度数中心度、Katz中心度和PageRank中心度;
S123:依据S121所计算的多种图属性指标,对具体节点赋予影响力权重,对三种指标进行多目标决策计算。
可选的,所述子图同构步骤S130具体包括:
查询图构建子步骤S131:通过节点构建和边构建,构建生成查询图;
应用VF2子图同构算法步骤S132:以上一步生成的查询图,在社交网络全图中,选取核心用户节点为查询图的中心节点,应用VF2子图同构算法,判断每个核心用户节点是否满足领导-下级模式或传播者模式;
结果分析步骤S133:以上一步生成的结果,最终给出排序过的得分。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于子图同构的社交网络中意见领袖角色识别方法。
本发明在采用多种主流、典型的图属性指标之上,又添加了多目标决策算法步骤,所得的结果综合考虑了各个指标,避免单一指标突出而造成的计算误差。本发明可以发现社交网络中的高影响力用户的角色信息,可以帮助相关人员对暗网中的犯罪分子密谋策划犯罪活动进行分析,可以对社交网络中的谣言传播者进行发现,对网络空间治理人员给予有力的数据支撑。
附图说明
图1是根据本发明具体实施例的基于子图同构的社交网络中意见领袖角色识别方法的流程图;
图2是依多维度图指标属性提取核心用户集合步骤的流程图;
图3是进行以核心用户为重要节点进行子图同构步骤的流程图;
图4是根据本发明具体实施例的基于社交网络全图构建目标图、查询图以及最后得到匹配结果的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明在于,首先构建社交网络模型,然后根据多个指标提取核心用户的集合,最后基于所提取的核心用户为重要节点进行子图同构,从而得到核心用户及其权值,发现网络中的意见领袖以及相应的脉络。
参见图1,示出了根据本发明具体实施例的基于子图同构的社交网络中意见领袖角色识别方法的流程图,包括如下步骤:
社交网络模型重构步骤S110:
从网络媒体获取的用户活动信息,并对其进行预处理,提取用户之间的活动关系,将具体用户抽象为网络节点,将具体用户之间的关系抽象为网络中的边,进行社交网络的构建。
具体包括:例如诸如爬虫的方式对网络媒体进行信息获取,将结果输入到一个先入先出的处理队列中,定时或依次取队列头对象,进行预处理,所述预处理包括数据清洗、数据去重和数据一致性等,将原始数据转换为可以处理的结构性数据格式,并将其放置在待提取队列中。然后从所述待提取队列中定时或依次取队列头对象,进行用户节点和用户之间关系的提取,从而将原始网络媒体中多源异构的数据,构建为抽象、便于处理的社交网络。
例如对于论坛数据,将一个帖子的发帖人、回复人提取为节点,将回复人->发帖人的回复关系,提取为以回复人和发帖人为起始节点的网络中的一条边;对于微博数据也类似处理,但可能提取的关系信息包括微博回复和微博转发等。最终将原始网络媒体中多源异构的数据,构建为抽象、便于处理的社交网络。
核心用户集合提取步骤S120:
随着电子信息设备尤其是移动设备的迅速发展,用户参与到社交网络的热度与日俱增,社交网络进入到了一个飞速发展阶段。截止到2019年,天涯论坛发帖数已经超过千万级别,回复数已经超过4亿;2018上半年中国手机微博用户规模为3.16亿人,与2017年末相比增长2923万人,大V用户的发微量达650万/月,粉丝评论量达1350万条/月。
社交媒体用户的剧增,给社交网络分析带来了巨大的挑战,因为对于社交网络的分析实质是对一个大图进行分析,但在图论理中,大多数图算法均是NP难,如经典的求最短路径的Froyd算法的复杂度为O(n3),最小生成树的Kruskal算法的复杂度为O(e3)。可见,随着社交媒体用户的增加,其构成的社交网络也日趋庞大,分析的成本更以指数形式增长。另一方法,社交媒体又是对分析的实效性具有较高要求的,据GoogleAnalytics统计,超过90天的用户统计数据,对广告推广效果影响甚微,超过180天的用户统计数据,几乎不会对用户产生吸引力。如以传统的全图分析模式,则对一条转发量大的微博分析,就需要耗费大量的时间,大大降低了分析结果的效度。这就需要在信息瞬息万变的现代互联网环境下,拥有快速的针对大规模社交网络分析方法。
相关研究人员就此提出了一些缩小分析对象范围,但同时确保分析结果精度不会过度降低的方法。唐月提出基于K-means聚类方法,对微博用户的数据,对数据进行了预处理,之后利用改进的K-means算法,分析用户特征,提取6类具有明显相似特征的兴趣群体:兴趣均衡、文艺、运动、时尚、IT和事业,并针对每一类群体中的核心用户,计算个性化的推荐建议,并应用于同类用户,避免了全类分析的复杂度。申艳光提出了采用用户相似度,将整个网络划分为核心与非核心两类用户,并将网络中的大社团进行细化,结合细化后的社团跟核心用户的划分结果找出其中相应的子社团中的意见领袖。
因此,在本发明中,该步骤包括:读取社交网络模型,选取网络节点的多个多维度图指标属性,依据所计算的多种图属性指标,对具体节点赋予影响力权重,对三种指标进行多目标决策计算,给出核心用户列表。
如下的子步骤:
S121:读取社交网络模型。
本子步骤将步骤S110中所生成的结构化的社交网络模型,作为分析对象。
具体的还包括将用户节点归一化,用HASH方法将每个节点赋予唯一值,以便于技术处理。
S122:选取网络节点的多个多维度图指标属性。
在一个具体的实施例中,所述多个多维度图指标属性包括度数中心度、Katz中心度和PageRank中心度。
具体的:
度数中心度(degreecentrality):
在社交网络中,一个节点与其他很多节点发生直接联系,那么这个节点就处于中心地位。即节点的关系越广,相邻节点越多,那么这个节点也就越重要,
因此,度数中心度(degreecentrality)具体定义:
Figure BDA0002340363770000091
度数中心度是一种基本的图论节点属性的度量指标,其统计结果具有直观的特征,并且其计算复杂度依据底层图的构成数据结构不同,介于O(n2)与O(E)之间,在实际实现中,是一种可以快速获得结果的度量指标。
Katz中心度
Katz中心度是一种兼顾节点本身和其邻居节点的分析方法,避免了将过多的权重赋予度数大的节点,使用该属性可以避免全图分析的结果只强调部分高度数节点,而是兼顾了其他连接节点,可以避免将全图以高度数节点进行簇划分,而导致全图分析退化为只针对部分节点集合进行分析的缺点。Katz中心度定义如下:
Figure BDA0002340363770000092
α为控制项,β为偏差项,Aj,i为图的邻接矩阵表示,为了便于计算,设CK(v0)为1,α取λ-1,β取1/4α,λ为Aj,i转置后的eigenvector系数。
PageRank中心度
PageRank中心度,又称网页排名中心度,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(LarryPage)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。
该算法将一个网页级别/重要性的排序问题转化成了一个公共参与、以群体民主投票的方式求解的问题,网页之间的链接即被认为是投票行为。同时,各个站点投票的权重不同,重要的网站投票具有较大的分量。该算法在社交网络分析中广泛使用,并产生了多种衍生算法,实践表明,该算法在Twitter、Facebook、Blog等多种社交媒体类型中均有优秀的表现。其定义如下:
Figure BDA0002340363770000101
其中,vj表示和vi有关联关系的节点,设为n个,|Nj|为节点vj的链出节点数,β为阻尼常量,可以根据具体的上下文确定。
选取PageRank中心度,是主要利用其在各种主流网络中的分析结果的稳定性,由于本发明的主要分析对象是论坛数据和微博数据,则比较适宜使用该算法。
S123:依据S121所计算的多种图属性指标,对具体节点赋予影响力权重,对三种指标进行多目标决策计算。
随着人们对社交网络分析的不断深入,提出了多种节点重要性度量方法,但每一种度量指标的侧重点均不同,如果只依据一种度量值,则会以偏概全,无法全面准确的确定节点重要性。
本发明提出了选取上述三种兼顾计算速度和综合分析结果的三种主要指标,在计算出每个节点的具体值之后,需求根据这三个值综合评定每个节点的重要性,最终给出重要性排序列表,确定出核心用户,则需要进行三个指标的多目标决策运算。
具体的,
本发明采用TOPSIS(Technique for Order Preference by Similarity toanIdeal Solution)作为多目标决策算法。
具体的,TOPSIS法中包含两个基本概念“正理想解”和“负理想解”。它利用多属性问题的正、负理想解对方案集中的各个方案进行优劣排序。该方法的基本思想是首先确定一个理想的最佳方案和最劣方案,然后计算每个待评价的方案同最佳方案与最劣方案的距离,经过计算后,利用理想解的相对贴近度来作为综合评价的标准。
具体算法步骤包括:
步骤一:构造目标决策矩阵
假设对i个评价对象选择3个评价指标进行综合评价,则得到初始目标决策矩阵A:
Figure BDA0002340363770000111
步骤二:构造标准化决策矩阵
将目标决策矩阵A标准化处理为具有无量纲属性的标准化决策矩阵M,
Figure BDA0002340363770000112
其中
Figure BDA0002340363770000113
步骤三:依据正负理想解求解
定义负理想解
Figure BDA0002340363770000114
即zij与矩阵中最小值V-的距离,定义正理想解
Figure BDA0002340363770000115
即zij与矩阵中最大值V+的距离。
矩阵中最小值V-=(min{z11,….zn1},…,min{z1m,….znm});
矩阵中最大值V+=(max{z11,….zn1},…,max{z1m,….znm})。
负理想解的值为:
Figure BDA0002340363770000121
正理想解的值为:
Figure BDA0002340363770000122
最终每个矩阵中元素i的权值为:
Figure BDA0002340363770000123
最后得出节点的重要度排序,给出核心用户列表。
子图同构步骤S130:
现有的社交网络意见领袖(高影响力用户)分析的方法,多是利用用户节点的图论属性,抽取其结构信息,依据该节点结构信息的优先级,判断该用户的重要程度。但该类方法忽略了用户节点在实际社交活动中的角色,而是将每个用户无区分的看作抽象的网络图中的节点。但在实际社交活动中,核心用户往往具有社会角色的身份,如领导者、散布者、卖家买家等角色,这些不同的角色在网络中的活动行为各异,反映在社交网络节点和边的关系中,具体表现为具有特点明显的网络结构。如领导者和下级的命令颁布关系,是由一个领导者角色为中心节点,指向其多个下级节点,具有明显的辐射形状。如传播主干,往往是连接两个节点集合的中间节点,具有桥接的明显形状。如买家-卖家,其主要特征是该结对节点之间的交互频繁,具有多次交互指向的形状。
本发明提出了一种基于社交网络用户的角色进行高影响力用户发现方法,将典型用户角色的行为抽象为特征子图,然后在社交网络全图中进行子图同构算法,如果核心用户及其邻近节点与特征子图匹配,则提升该用户隶属于该类角色的概率。
本发明依据社交网络处理背景,提出VF2子图同构算法,可以发现社交网络核心用户角色。在该方法中输入是社交网络图数据和匹配模型,支持领导-下级模型和传播者两种模型;输出是用户节点符合这两种模型的排序得分列表。依据该列表,可以确定某一用户隶属于领导者或传播者的概率大小。
因此,子图同构步骤S130为:进行查询图构建,利用VF2子图同构算法,判断每个核心用户节点是否满足领导-下级模式或传播者模式,并生成最终结果。
具体的。
查询图构建子步骤S131:通过节点构建和边构建,构建生成查询图。
其中所述节点构建包括:支持对两种模式的查询图构建:领导-下级模式和传播者模式。
当选择了了领导-下级模式,构建查询图中节点构建的步骤为:
利用以下公式计算核心节点的接近中心度,即计算该节点到其他点的距离的总和,这个总和越小就说明这个点到其他点的路径越短,也就说明这个点距离其他点越近。
Figure BDA0002340363770000131
其中,vi为节点,n为图总节点数,li,j为节点i到j的最短路径长度,ω为调节变量,使得Cc(vi)为大于1的整数,可设置一个整数,如100或依据实际情况设置。
则查询图的节点数目|Nl|取所有核心节点的接近中心度均值:
Figure BDA0002340363770000141
当选择了传播者模式,构建查询图中节点构建的步骤为:
利用如下公式计算核心节点的介数中心度Cb(vi),介数中心度度量了一个节点如果经常出现在其他节点间最短距离路径中的现象,表明该节点具有信息传播的能力:
Figure BDA0002340363770000142
其中,σst(vi)表示通过节点vi的从s到t的最短路径条数,σst表示s到t的最短路径条数,ω为调节变量,使得Cb(vi)为大于1的整数,可设置一个整数,如100或依据实际情况设置。
则查询图的节点数目|Np|取所有核心节点的介数中心度均值:
Figure BDA0002340363770000143
所述边构建为:当选择了领导-下级模式,则查询图的边集数目选取所有核心节点的出度平均值;当选择了传播者模式,则查询图的边集数目选所有核心节点的出度、入度之和的平均值。
应用VF2子图同构算法步骤S132:以上一步生成的查询图,在社交网络全图中,选取核心用户节点为查询图的中心节点,应用VF2子图同构算法,判断每个核心用户节点是否满足领导-下级模式或传播者模式。
结果分析步骤S133:以上一步生成的结果,最终给出排序过的得分。
具体的,在该步骤中,具体的输出是一个列表,内容可以为每个节点的id及其是否为相应角色节点的数值。
其中应用VF2子图同构算法步骤S132,具体包括:
算法初始化子步骤S1321,将上一步生成的查询图设为搜索对象,社交网络全图设为目标图;将核心用户节点作为待顺序检索的节点集;并设置中间状态,记录已经匹配的结果和其他辅助信息。
候选集计算子步骤S1322,如果查询图的所有节点,都在目标图中一一匹配,则算法结束,返回查询图子图同构于目标图。否则选取下一个节点进行继续匹配。应用VF2算法构建候选集,下一个进行匹配的节点来源于这个候选集。
候选集构建过程:先确定最近匹配节点的前驱集和后继集,前驱集是指向最近匹配节点的节点集合;后继集是最近匹配节点指向的节点集合,根据查询图和目标图,共有四个集合:查询图的前驱集:Spred、查询图的后驱集:Ssucc、目标图的前驱集:Bpred和目标图的后驱集:Bsucc;具体构建的规则:如果Spred和Bpred均不为空,但Ssucc和Bsucc为空,则候选集选为Spred∪Bpred;如果Ssucc和Bsucc均不为空,则选取候选集选为Ssucc∪Bsucc
由于本专利面向社交网络的分析,则事先在社交网络构建时,去掉了没有实际分析意义的非连通图,则在这里的具体构建候选集时,可以避免对前驱集和后继集其他状态的判断。
匹配计算子步骤S1323:在候选集中依次选取节点,在目标图中进行匹配,如果匹配,则加入已经匹配节点集合,并更新中间状态。
回溯步骤S1324:如果候选集中所有节点均无法匹配,则回溯,选取倒数第二个匹配节点,进行候选集计算子步骤S1322。
计算给出步骤S1325:当所有核心节点计算完,依次根据其中间状态中保存的匹配结果记录,给每个节点赋予匹配度,结束算法。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于子图同构的社交网络中意见领袖角色识别方法。
实施例
数据来源选取天涯论坛的2018年12月-2019年2月份的“天涯主版”、“大学校园”、“天涯杂谈”和“经济论坛”等四个板块的共14277条用户回复数据。经过预处理,构建社交网络模型,其共包含用户节点1543个,边14021(去除了自指向边)。
提取的社交网络模型如下:
Figure BDA0002340363770000161
其中node表示节点,并有全局唯一i d;边为edge对,包含了起始边和终止边。
然后对其进行依多维度图指标属性提取核心用户集合,其部分用户的三度如表1所示:
表1核心用户集合
Figure BDA0002340363770000171
然后对这三个属性指标利用TOPSIS算法进行综合排定,结果如表2:
表2节点排序
Figure BDA0002340363770000172
Figure BDA0002340363770000181
这些优先级高的节点作为后继处理的优先处理对象。
然后依据每个核心用户,构建其的查询图,然后在目标图中进行子图同构操作。
参见图4,列出了根据本发明具体实施例的基于社交网络全图构建目标图、查询图以及最后得到匹配结果的示意图。
对图4中得到的节点进行具体分析,该用户名为__viviai。其主要参与活动在:
Figure BDA0002340363770000182
该用户是在“又回来了”帖子中,引发多数网友的跟帖,表明其在该用户群体中有一定的影响力。在“职场新人诀窍”中,给出的“要及时向老板汇报,不管好坏结果”等言论,引发网友的广泛支持,并多数网友表示将在日后的工作中尝试,表明具有“领导-下级”的传播形式。在“去年底至今的预测”发表了对“国光电器002045跟进场的”言论,引发网友的支持,表明有根据的意向。表明该用户符合“领导-下级”的社交角色定位,其言论具有一定的影响力,并可以潜移默化或直接影响到部分网络用户,并得到的回复绝大大部分为支持、同意和认可,即表明该用户拥有一定的“下级”用户群,其的网络言行,会正面影响到这些下级用户群。即印证了本发明算法具有可以发现社交网络用户角色的功能。
综上,相对于现有技术,本发明在采用多种主流、典型的图属性指标之上,又添加了多目标决策算法步骤,所得的结果综合考虑了各个指标,避免单一指标突出而造成的计算误差。本发明可以发现社交网络中的高影响力用户的角色信息,可以帮助相关人员对暗网中的犯罪分子密谋策划犯罪活动进行分析,可以对社交网络中的谣言传播者进行发现,对网络空间治理人员给予有力的数据支撑。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (9)

1.一种基于子图同构的社交网络中意见领袖角色识别方法,其特征在于,包括如下步骤:
社交网络模型重构步骤S110:
从网络媒体获取的用户活动信息,并对其进行预处理,提取用户之间的活动关系,将具体用户抽象为网络节点,将具体用户之间的关系抽象为网络中的边,进行社交网络的构建;
核心用户集合提取步骤S120:
读取社交网络模型,选取网络节点的多个多维度图指标属性,依据所计算的多种图属性指标,对具体节点赋予影响力权重,对三种指标进行多目标决策计算,给出核心用户列表;
子图同构步骤S130:进行查询图构建,利用VF2子图同构算法,判断每个核心用户节点是否满足领导-下级模式或传播者模式,并生成最终结果。
2.根据权利要求1所述的意见领袖角色识别方法,其特征在于:
所述社交网络模型重构步骤S110具体包括:对网络媒体进行信息获取,将结果输入到一个先入先出的处理队列中,定时或依次取队列头对象,进行预处理,所述预处理包括数据清洗、数据去重和数据一致性等,将原始数据转换为可以处理的结构性数据格式,并将其放置在待提取队列中;然后从所述待提取队列中定时或依次取队列头对象,进行用户节点和用户之间关系的提取,从而将原始网络媒体中多源异构的数据,构建为抽象、便于处理的社交网络。
3.根据权利要求1所述的意见领袖角色识别方法,其特征在于:
所述核心用户集合提取步骤S120具体包括:
S121:读取社交网络模型:将步骤S110中所生成的结构化的社交网络模型,作为分析对象;
S122:选取网络节点的多个多维度图指标属性,所述多个多维度图指标属性包括度数中心度、Katz中心度和PageRank中心度;
S123:依据S121所计算的多种图属性指标,对具体节点赋予影响力权重,对三种指标进行多目标决策计算。
4.根据权利要求3所述的意见领袖角色识别方法,其特征在于:
在步骤S122中,
度数中心度具体为:
Figure FDA0002340363760000021
Katz中心度具体为:
Figure FDA0002340363760000022
α为控制项,β为偏差项,Aj,i为图的邻接矩阵表示,为了便于计算,设CK(v0)为1,α取λ-1,β取1/4α,λ为Aj,i转置后的eigenvector系数;
PageRank中心度具体为:
Figure FDA0002340363760000023
其中,vj表示和vi有关联关系的节点,设为n个,|Nj|为节点vj的链出节点数,β为阻尼常量,可以根据具体的上下文确定。
5.根据权利要求4所述的意见领袖角色识别方法,其特征在于:
所述多目标决策计算具体为:
步骤一:构造目标决策矩阵
假设对i个评价对象选择3个评价指标进行综合评价,则得到初始目标决策矩阵A:
Figure FDA0002340363760000031
步骤二:构造标准化决策矩阵
将目标决策矩阵A标准化处理为具有无量纲属性的标准化决策矩阵M,
Figure FDA0002340363760000032
其中
Figure FDA0002340363760000033
步骤三:依据正负理想解求解
定义负理想解
Figure FDA0002340363760000034
即zij与矩阵中最小值V-的距离,定义正理想解
Figure FDA0002340363760000035
即zij与矩阵中最大值V+的距离。
矩阵中最小值V-=(min{z11,….zn1},…,min{z1m,….znm});
矩阵中最大值V+=(max{z11,….zn1},…,max{z1m,….znm})。
负理想解的值为:
Figure FDA0002340363760000036
正理想解的值为:
Figure FDA0002340363760000037
最终每个矩阵中元素i的权值为:
Figure FDA0002340363760000038
最后得出节点的重要度排序,给出核心用户列表。
6.根据权利要求1所述的意见领袖角色识别方法,其特征在于:
所述子图同构步骤S130具体包括:
查询图构建子步骤S131:通过节点构建和边构建,构建生成查询图;
应用VF2子图同构算法步骤S132:以上一步生成的查询图,在社交网络全图中,选取核心用户节点为查询图的中心节点,应用VF2子图同构算法,判断每个核心用户节点是否满足领导-下级模式或传播者模式;
结果分析步骤S133:以上一步生成的结果,最终给出排序过的得分。
7.根据权利要求6所述的意见领袖角色识别方法,其特征在于:
在查询图构建子步骤S131中,
其中所述节点构建包括:支持对两种模式的查询图构建:领导-下级模式和传播者模式;
当选择了了领导-下级模式,构建查询图中节点构建的步骤为:
利用以下公式计算核心节点的接近中心度,即计算该节点到其他点的距离的总和,这个总和越小就说明这个点到其他点的路径越短,也就说明这个点距离其他点越近,
Figure FDA0002340363760000041
其中,vi为节点,n为图总节点数,li,j为节点i到j的最短路径长度,ω为调节变量,使得Cc(vi)为大于1的整数,可设置一个整数,如100或依据实际情况设置;
则查询图的节点数目|Nl|取所有核心节点的接近中心度均值:
Figure FDA0002340363760000051
当选择了传播者模式,构建查询图中节点构建的步骤为:
利用如下公式计算核心节点的介数中心度Cb(vi),介数中心度度量了一个节点如果经常出现在其他节点间最短距离路径中的现象,表明该节点具有信息传播的能力:
Figure FDA0002340363760000052
其中,σst(vi)表示通过节点vi的从s到t的最短路径条数,σst表示s到t的最短路径条数,ω为调节变量,使得Cb(vi)为大于1的整数,可设置一个整数,如100或依据实际情况设置,
则查询图的节点数目|Np|取所有核心节点的介数中心度均值:
Figure FDA0002340363760000053
所述边构建为:当选择了领导-下级模式,则查询图的边集数目选取所有核心节点的出度平均值;当选择了传播者模式,则查询图的边集数目选所有核心节点的出度、入度之和的平均值。
8.根据权利要求6所述的意见领袖角色识别方法,其特征在于:
应用VF2子图同构算法步骤S132,具体包括:
算法初始化子步骤S1321,将上一步生成的查询图设为搜索对象,社交网络全图设为目标图;将核心用户节点作为待顺序检索的节点集;并设置中间状态,记录已经匹配的结果和其他辅助信息;
候选集计算子步骤S1322,如果查询图的所有节点,都在目标图中一一匹配,则算法结束,返回查询图子图同构于目标图;否则选取下一个节点进行继续匹配;
候选集构建过程:先确定最近匹配节点的前驱集和后继集,前驱集是指向最近匹配节点的节点集合;后继集是最近匹配节点指向的节点集合,根据查询图和目标图,共有四个集合:查询图的前驱集:Spred、查询图的后驱集:Ssucc、目标图的前驱集:Bpred和目标图的后驱集:Bsucc;具体构建的规则:如果Spred和Bpred均不为空,但Ssucc和Bsucc为空,则候选集选为Spred∪Bpred;如果Ssucc和Bsucc均不为空,则选取候选集选为Ssucc∪Bsucc
匹配计算子步骤S1323:在候选集中依次选取节点,在目标图中进行匹配,如果匹配,则加入已经匹配节点集合,并更新中间状态;
回溯步骤S1324:如果候选集中所有节点均无法匹配,则回溯,选取倒数第二个匹配节点,进行候选集计算子步骤S1322;
计算给出步骤S1325:当所有核心节点计算完,依次根据其中间状态中保存的匹配结果记录,给每个节点赋予匹配度,结束算法。
9.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-8中任意一项所述的基于子图同构的社交网络中意见领袖角色识别方法。
CN201911373753.6A 2019-12-27 2019-12-27 基于子图同构的社交网络中意见领袖角色识别方法及存储介质 Active CN111125453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373753.6A CN111125453B (zh) 2019-12-27 2019-12-27 基于子图同构的社交网络中意见领袖角色识别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373753.6A CN111125453B (zh) 2019-12-27 2019-12-27 基于子图同构的社交网络中意见领袖角色识别方法及存储介质

Publications (2)

Publication Number Publication Date
CN111125453A true CN111125453A (zh) 2020-05-08
CN111125453B CN111125453B (zh) 2023-03-28

Family

ID=70503689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373753.6A Active CN111125453B (zh) 2019-12-27 2019-12-27 基于子图同构的社交网络中意见领袖角色识别方法及存储介质

Country Status (1)

Country Link
CN (1) CN111125453B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931831A (zh) * 2020-07-30 2020-11-13 中国人民解放军91776部队 一种空中相互作用群的识别方法及系统
CN111985231A (zh) * 2020-08-07 2020-11-24 中移(杭州)信息技术有限公司 无监督角色识别方法、装置、电子设备及存储介质
CN112364234A (zh) * 2020-10-23 2021-02-12 北京师范大学 一种在线讨论的自动分组系统
CN112559845A (zh) * 2020-12-23 2021-03-26 北京清博大数据科技有限公司 一种非典型性媒体账号的身份与动机识别方法及系统
CN112785156A (zh) * 2021-01-23 2021-05-11 罗家德 一种基于聚类与综合评价的产业领袖识别方法
WO2022036941A1 (zh) * 2020-08-18 2022-02-24 沈利兴 高效稳定的图(矩阵)同构算法
CN114116696A (zh) * 2021-11-25 2022-03-01 桂林电子科技大学 云存储系统中考虑节点选择机制的故障节点数据重构方法
CN114219370A (zh) * 2022-01-29 2022-03-22 哈尔滨工业大学 一种基于社交网络的河流水质多维影响因素权重分析方法
CN115037561A (zh) * 2022-08-10 2022-09-09 杭州悦数科技有限公司 一种网络安全检测方法和系统
WO2024098516A1 (zh) * 2022-11-07 2024-05-16 中电科大数据研究院有限公司 一种社交网络关键节点挖掘的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116611A (zh) * 2013-01-25 2013-05-22 西安市烟草专卖局 社交网络意见领袖识别方法
US20130218862A1 (en) * 2009-12-01 2013-08-22 Topsy Labs, Inc. System and method for customizing analytics based on users media affiliation status
CN107729455A (zh) * 2017-09-25 2018-02-23 山东科技大学 一种基于多维特征分析的社交网络意见领袖排序算法
CN109063010A (zh) * 2018-07-11 2018-12-21 成都爱为贝思科技有限公司 一种基于PageRank的意见领袖挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218862A1 (en) * 2009-12-01 2013-08-22 Topsy Labs, Inc. System and method for customizing analytics based on users media affiliation status
CN103116611A (zh) * 2013-01-25 2013-05-22 西安市烟草专卖局 社交网络意见领袖识别方法
CN107729455A (zh) * 2017-09-25 2018-02-23 山东科技大学 一种基于多维特征分析的社交网络意见领袖排序算法
CN109063010A (zh) * 2018-07-11 2018-12-21 成都爱为贝思科技有限公司 一种基于PageRank的意见领袖挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张米等: "基于多特征信息传播模型的微博意见领袖挖掘", 《中文信息学报》 *
彭丽徽等: "基于SNA与模糊TOPSIS的网络舆情关键节点识别分类模型研究", 《现代情报》 *
赵庆亮等: "基于TOPSIS的社交网络舆情事件综合评价研究", 《情报探索》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931831B (zh) * 2020-07-30 2022-12-23 中国人民解放军91776部队 一种空中相互作用群的识别方法及系统
CN111931831A (zh) * 2020-07-30 2020-11-13 中国人民解放军91776部队 一种空中相互作用群的识别方法及系统
CN111985231A (zh) * 2020-08-07 2020-11-24 中移(杭州)信息技术有限公司 无监督角色识别方法、装置、电子设备及存储介质
CN111985231B (zh) * 2020-08-07 2023-12-26 中移(杭州)信息技术有限公司 无监督角色识别方法、装置、电子设备及存储介质
WO2022036941A1 (zh) * 2020-08-18 2022-02-24 沈利兴 高效稳定的图(矩阵)同构算法
CN112364234A (zh) * 2020-10-23 2021-02-12 北京师范大学 一种在线讨论的自动分组系统
CN112364234B (zh) * 2020-10-23 2023-04-28 北京师范大学 一种在线讨论的自动分组系统
CN112559845A (zh) * 2020-12-23 2021-03-26 北京清博大数据科技有限公司 一种非典型性媒体账号的身份与动机识别方法及系统
CN112785156A (zh) * 2021-01-23 2021-05-11 罗家德 一种基于聚类与综合评价的产业领袖识别方法
CN112785156B (zh) * 2021-01-23 2024-04-30 罗家德 一种基于聚类与综合评价的产业领袖识别方法
CN114116696A (zh) * 2021-11-25 2022-03-01 桂林电子科技大学 云存储系统中考虑节点选择机制的故障节点数据重构方法
CN114116696B (zh) * 2021-11-25 2024-03-15 桂林电子科技大学 云存储系统中考虑节点选择机制的故障节点数据重构方法
CN114219370A (zh) * 2022-01-29 2022-03-22 哈尔滨工业大学 一种基于社交网络的河流水质多维影响因素权重分析方法
CN115037561A (zh) * 2022-08-10 2022-09-09 杭州悦数科技有限公司 一种网络安全检测方法和系统
WO2024098516A1 (zh) * 2022-11-07 2024-05-16 中电科大数据研究院有限公司 一种社交网络关键节点挖掘的方法、装置及存储介质

Also Published As

Publication number Publication date
CN111125453B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
US11070643B2 (en) Discovering signature of electronic social networks
Feng et al. An expert recommendation algorithm based on Pearson correlation coefficient and FP-growth
Khan et al. Modelling to identify influential bloggers in the blogosphere: A survey
Xia et al. MVCWalker: Random walk-based most valuable collaborators recommendation exploiting academic factors
Wang et al. SentiView: Sentiment analysis and visualization for internet popular topics
Kong et al. Exploring dynamic research interest and academic influence for scientific collaborator recommendation
CN103377250B (zh) 基于邻域的top‑k推荐方法
US20150032751A1 (en) Methods and Systems for Utilizing Subject Matter Experts in an Online Community
US20150032492A1 (en) Methods of Identifying Relevant Content and Subject Matter Expertise for Online Communities
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
CN114077705A (zh) 一种对社交平台上的媒体账号进行画像的方法和系统
CN115422441A (zh) 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法
Kang et al. A hybrid approach for paper recommendation
CN114692978A (zh) 一种基于大数据的社交媒体用户行为预测方法及系统
Hamzehei et al. Collaborative topic regression for predicting topic-based social influence
Kotzias et al. Addressing the Sparsity of Location Information on Twitter.
CN110543601B (zh) 一种基于中智集的上下文感知兴趣点推荐方法及系统
Zhao et al. Identifying high influential users in social media by analyzing users’ behaviors
CN116521996A (zh) 一种基于知识图谱和图卷积神经网络的多行为推荐方法及系统
Shin et al. Multi-manifold learning for large-scale targeted advertising system
Thali et al. Survey on job recommendation systems using machine learning
CN112765326B (zh) 一种问答社区专家推荐方法、系统及应用
Wang et al. The Construction of ‘User-Knowledge-Product’Co-creation Knowledge Cyberspace Served for Product Innovation
Sann et al. Predicting Online Complaining Behavior in the Hospitality Industry: Application of Big Data Analytics to Online Reviews. Sustainability 2022, 14, 1800

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant