CN110347897A - 基于事件检测的微博网络情感社区识别方法 - Google Patents
基于事件检测的微博网络情感社区识别方法 Download PDFInfo
- Publication number
- CN110347897A CN110347897A CN201910577138.0A CN201910577138A CN110347897A CN 110347897 A CN110347897 A CN 110347897A CN 201910577138 A CN201910577138 A CN 201910577138A CN 110347897 A CN110347897 A CN 110347897A
- Authority
- CN
- China
- Prior art keywords
- community
- event
- label
- microblog users
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 230000008451 emotion Effects 0.000 title claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 7
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 6
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 3
- 235000013162 Cocos nucifera Nutrition 0.000 description 2
- 244000060011 Cocos nucifera Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- KUEUWHJGRZKESU-UHFFFAOYSA-N Niceritrol Chemical compound C=1C=CN=CC=1C(=O)OCC(COC(=O)C=1C=NC=CC=1)(COC(=O)C=1C=NC=CC=1)COC(=O)C1=CC=CN=C1 KUEUWHJGRZKESU-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是基于事件检测的微博网络情感社区识别方法。本发明基于Python爬虫爬取微博网络用语的数据,提取微博网络中的社会热点事件,构造事件热点评估函数;度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区。本发明解决目前社区识别算法无法刻画用户的情感倾向性,导致输出的社区结果内聚性较低、稳定性不足,在网络演化过程中容易引发社区分裂的问题。本发明保证了输出的社区结果具有较高的内聚性及稳定性,对网络演化产生的网络结构及属性改变具有较高的适应性。
Description
技术领域
本发明涉及微博事件检测技术领域,是一种基于事件检测的微博网络情感社区识别方法。
背景技术
社交网络是指由节点和链接组成的复杂结构,其中,节点表示个人或组织,链接表示节 点和节点之间的关系,例如:朋友关系,亲戚关系,同事关系以及科研领域的合作关系等。 从不同的结构粒度来看,社交网络分析方法大致可分为三类:宏观层面,研究社交网络的相 关指标及模型;微观层面,研究社交网络的个体影响力及传播动力学原理;中观层面,研究 社交个体的群聚特征,其中最具代表性的就是社区结构。所谓社区,是指网络中的密集群体, 同一社区内的节点间的链接相对紧密,不同社区之间的节点的链接相对稀疏。通常,社区内 的节点具有相似的兴趣爱好或其他属性,在网络中起同步效应。社区发现可以识别网络中的 功能模块,有助于人们更加深入的理解网络的本质。
社区识别研究根据所用方法的不同,大致可分为五类:(1)层次聚类分析方法。这类方 法通过计算网络中节点之间的相似度,合并相似度高的节点为同一社区。聚类过程以树的形 式展示,通过模块度函数衡量划分结果,从而获得最优的社区;(2)矩阵谱分析方法。通过 对网络的邻接矩阵施以谱分析等矩阵计算方法来发现社区;(3)基于链接的分析方法,以网 络中的链接为基本单位进行社区识别;(4)基于图论的方法。运用极大团、极大连通子图等 识别社区;(5)语义社区识别方法。通过对社交网络用户发表文本信息加以分析,将具有主 题相似性的用户聚合成同一社区。
现有方法存在的问题在于:只考虑了社交网络的结构特性及文本相似性,忽略了网络用 户的情感倾向性。社交网络发展至今,微博等社交媒体早已融入人们的日常生活和工作当中, 在微博网络上,人们喜欢对微博上获取的消息加以评论,发表自己的观点与见解,并对社会 事件表达情感倾向。因此,合理的社区结构应该对某类社会事件具有相近的社会认知。而现 有方法以链接关系、链接程度以及主题相似性等指标作为社区的生成标准会增加社区的分裂 风险,社区稳定性略显不足。
发明内容
本发明为解决目前社区识别算法无法刻画用户的情感倾向性,导致输出的社区结果内聚 性较低、稳定性不足,在网络演化过程中容易引发社区分裂这一问题,本发明提供了一种基 于事件检测的微博网络情感社区识别方法,本发明提供了以下技术方案:
一种基于事件检测的微博网络情感社区识别方法,包括如下步骤:
步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;
步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;
步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件 的情感极性标签;
步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛 时终止循环,将具有相同标签的节点划分到同一社区。
优选地,所述步骤一具体为:
第一步:采用Python爬虫向上广度优先搜索策略,爬取微博社交网络用户的用语数据, 通过下式表示所述微博网络用语数据:
Di={Li,Fi,Ri,Ci,Ti} (1)
其中,Di为微博帖子i的网络用语数据,Li为微博帖子i的文本,Fi为微博帖子i的发帖者的粉丝数量,Ri为微博帖子i的转发次数,Ci为微博帖子i的评论次数,Ti为微博帖子i的发布时间,i表示为微博帖子;
第二步:初始化微博网络用语数据,并将所述初始化的数据存于MySQL数据库。
优选地,所述步骤二具体为:
第一步:采用TF-IDF方法计算词汇η在微博网络用语数据中的权重,通过下式计算词 汇n的权重:
其中,为词汇η的权重,为词汇η在Di中出现的频率,dfη为词汇η在滑动窗口中所有帖子中出现的次数,N为爬取到的微博帖子总数;
第二步:以词汇η的权重为基础,构造度量微博帖子间相关程度的余弦相似表达式以为优化函数,采用k-Medoide算法将词汇一致的微博帖子聚合成同一个群组,迭代生 成事件集合C,通过下式表示所述表达式ρi,C:
C={c1,c2,...,ck} (3)
其中,C为迭代生成的事件集合,ck为第k个微博事件,为度量微博帖子间相关程 度的余弦相似表达式,以及|wC|分别为Di内词汇以及事件集合C内词汇的TF-IDF权重 集合;
第三步:构造社会热点事件评估函数δHOT,筛选处关注度高的m个社会热点事件,通过下式表示δHOT:
其中,δHOT为社会热点事件评估函数,Nc为事件集合C中的帖子总数;
第四步:对筛选处的m个社会热点事件进行排序,得到m个社会热点事件集合,通过下式表示m个社会热点事件集合:
CIM={c1,c2,...,cm} (6)
其中,CIM为m个社会热点事件集合,cm为第m个社会热点事件。
优选地,通过δHOT统计粉丝的有效回应,所述δHOT取值范围为[0,1]。
优选地,所述步骤三具体为:
第一步:利用ICTCLAS分词系统对微博网络用语数据进行分词;
第二步:基于HowNet情感词典完成词语级情感极性分析,对未出现在情感词典中的网 络词汇ηnew,建立词语级相似性度量函数,通过函数判断ηnew与HowNet情感词典已有的词汇 ηhow相似程度,通过下式表示词语级相似性度量函数:
其中,S(ηnew,ηhow)为词语级相似性度量函数,|ηnew|以及|ηhow|分别为词汇ηnew以及ηhow在 爬取数据时出现次数;
第三步:计算用户u对m个社会热点事件发表言论的情感极性,生成微博用户u对m个社会热点事件的情感极性标签,通过下式表示所述情感极性标签:
其中,U为微博用户u对m个社会热点事件的情感极性标签,为微博用户u对第m个社会热点事件发表言论极性总体的加权平均。
优选地,所述步骤四具体为:
第一步:初始化微博用户对社会热点事件的情感极性标签,每个微博用户包含一个特征 向量,通过下式表示特征向量:
vecu=(lu,bu) (9)
其中,vecu为微博用户u的特征向量,lu为微博用户u的社区标签集合,bu为微博用户 u对社区的归属程度;
初始化所述征向量时,得到vecu=(u,1),归属程度为1;
第二步:微博用户向邻居用户传递一次特征向量,构造社区标签更新迭代规则,所述规 则具体为:当微博用户收到邻居用户传来的特征向量时,微博用户将收到的特征进行更改, 通过下式进行更改:
其中,τ(u)为微博用户u的邻居集合,v为微博用户u的邻居用户,vecv∈τ(u)为所述邻居 用户v的特征向量,lv为邻居用户v的社区标签集合,b′v为邻居用户v对社区的归属程度;U 和V分别代表微博用户u以及邻居用户v的情感极性标签集合,MIC(U,V)为微博用户u与邻居用户v之间情感极性标签的最大互信息系数,
通过下式计算MIC(U,V):
其中,I[U;V]为U和V之间的互信息;
当对微博用户u的任意一邻居x,x∈τ(u),以及所有收到的任意特征向量vec′x∈τ(u)=(lx,b′x),lx为任意一邻居x的社区标签集合,b′x为任意一邻居x对社区的归属程度, 选择b′x最大的邻居所持有的社区标签作为基准社区标签,则用户u加入基准社区标签所代表 的社区;
当对于基准社区标签之外的社区标签ly时,y∈τ(u),满足y归属程度不是最大的,当y 的邻居同时包括y自身对ly的隶属度的为最大值时,所述隶属度的最大值再加上除ly的隶属 度最大值外的隶属度之和再与u的邻居数的作商;当所述作商的结果大于b′x,则将u加入y 所在社区;
第三步:重复第二步,当社区标签收敛时,终止循环,将具有相同社区标签的用户划分 到同一个社区。
本发明具有以下有益效果:
本发明利用文本分析技术,构造了社交网络重大社会事件提取方法,实现了基于事件的 微博用户情感倾向性分析,保证了输出的社区结果具有较高的内聚性及稳定性,对网络演化 产生的网络结构及属性改变具有较高的适应性。
附图说明
图1是重大社会事件选取分析图,图1-a为事件数与社区个数分析图,图1-b为时间书 与重叠社区模块度分析图,图1-c为事件数与社区尺度分析图,图1-d为事件数与语义社区 模块度分析图。
图2是短文本极性分析规则例图。
图3是社区标签更新实施例图。
图4是Football网络的社区划分结果图,图4-a为GN划分结果图,图4-b为LFM划分结果图,图4-c为COPRA划分结果图,图4-d为ECM划分结果图。
图5为重叠社区模块度比对分析图。
图6为语义社区模块度比对分析图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
一种基于事件检测的微博网络情感社区识别方法,包括如下步骤:
步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;
步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;
步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件 的情感极性标签;
步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛 时终止循环,将具有相同标签的节点划分到同一社区。
步骤1:数据初始化。
利用Python编写的爬虫程序采用向上广度优先搜索策略,爬取微博数据并将结果存于 MySQL数据库。微博帖子i的数据可表示为Di={Li,Fi,Ri,Ci,Ti},其中L表示帖子i的文本 内容、F表示帖子i的发帖者的粉丝数量、R表示帖子i的转发次数、C表示帖子i的评论次数、T表示帖子i的发布时间。
步骤2:提取微博网络中的top-m个重大社会事件。
1)利用TF-IDF方法计算词汇η在微博帖子Di中的权重
公式(1)中为词η在微博帖子Di中出现的频率,dfη是词汇η在爬取到的所有帖子 中出现的次数,N为爬取到的帖子总数。
2)以为基础,构造度量微博帖子Di间相关程度的余弦相似性表达式以为优化函数利用k-Medoide算法将核心词汇相近的帖子聚合成同一群组,从而迭代生成事件 集合C={c1,c2,...,ck}。定义为:
公式(2)中以及|wC|分别为微博帖子Di内词汇以及事件集合C内词汇的TF-IDF权 重集合。
3)构造事件热点评估函数δHOT,筛选热度较高的top-m个热点事件(m<k,m的取值可以参照本发明的实施例)。δHOT定义为:
根据公式(3)所得结果进行排序,可得m个重大社会事件集合CIM={c1,c2,...,cm}。公 式(3)中Nc为事件集合C中的帖子总数,δHOT统计了粉丝的“有效回应”,取值范围为[0,1]。
步骤3:度量微博用户对重大社会事件的情感极性,生成微博用户u对m个重大社会事 件c1,c2,...,cm的情感极性标签em为微博用户对第m个重大社会事件发表言论极性 总体的加权平均。
1)利用中国科学院ICTCLAS分词系统对微博数据进行分词。
2)基于HowNet情感词典完成词语级情感极性分析。对未出现在情感词典中的网络词汇 ηnew判定ηnew与HowNet词典已有情感词ηhow之间的相似程度。将网络词汇ηnew的情感极性定 义为与ηnew相似程度最高的HowNet情感词的情感极性。词语级相似性度量函数S(ηnew,ηhow)定 义为:
公式(4)中|ηnew|以及|ηhow|分别代表网络词汇ηnew以及HowNet情感词汇ηhow在爬取数据 中的出现次数。
3)如图2所示,定义短文本级情感极性分析规则:
规则1:对短文本中出现的所有词汇,定义积极词汇初始评分为+1,消极词汇初始评分 为-1,中性词汇初始评分为0
规则2:当词汇的前置词汇为程度词汇时,词汇的评分等于词汇的初始评分乘以前置程 度词汇在HowNet词典中的程度评分,该评分取值范围为(0,1)。
规则3:当词汇(包括程度词汇)的前置词汇为否定词汇时,词汇评分乘以-1。
短文本最终的情感极性为所有词汇评分之和。
4)利用短文本情感极性分析规则,计算用户u对m个重大事件c1,c2,...,cm发表言论的情 感极性,生成微博用户u对m个重大社会事件c1,c2,...,cm的情感极性标签 为微博用户对第m个重大社会事件发表言论极性总体的加权平均。。
步骤4:识别情感社区集合。
1)初始化微博用户u对m个重大社会事件的情感极性标签
2)初始化社区标签。微博中的每个用户u包含一个初始特征向量vecu=(lu,bu),lu代表 用户u的社区标签集合,bu代表用户u对所述社区的归属程度。初始化时,vecu=(u,1),代 表用户u的初始社区为自身,且归属程度为1。
3)构造社区标签更新规则:定义与u直接相连的用户集合为用户u的邻居集合τ(u)。算 法开始后,所有用户向自己所有的邻居用户传递一次特征向量。当用户u收到邻居用户 v∈τ(u)传来的特征向量vecv∈τ(u)=(lv,bv)时,执行以下规则。
规则1:u将收到的特征向量更改为vec′v∈τ(u)=(lv,b′v),
U和V分别代表用户u以及用户v的情感极性标签集合,MIC(U,V)为用户u与用户v之间情感极性标签的最大互信息系数,具体为:
I[U;V]为U和V之间的互信息。
规则2:对于用户u的任一邻居x∈τ(u),以及所有收到的特征向量vec′x∈τ(u)=(lx,b′x),选 择b′x最大的邻居x所持有的社区标签lx作为基准社区标签,用户u必然加入基准社区标签所 代表的社区。
规则3:对于基准社区标签之外的其他社区标签ly,y∈τ(u),y≠x,如果“所有持有ly社 区标签的邻居(包括y自身)对ly的隶属度的最大值”,加上“对ly的其他隶属度之和与u的 邻居数的商”,结果大于b′x,则u加入y所在社区。
4)构造标签迭代终止规则:重复上一步骤,当社区标签收敛时终止循环。将具有相同社 区标签的用户划分到同一社区,其中持有多个社区标签的节点为社区的重叠节点。
具体实施例二:
1)数据初始化实施例。爬取2017年10月-2018年9月共12个月用户所发的微博帖子, 随机选取网络节点作为初始爬取节点,采用自底向上的方法爬取初始节点的邻居结构。过滤 掉微博数少于50的用户以及关注数/被关注数少于5的用户并以3个月为时间间隔对所得数 据进行了分割,用Blog1、Blog2、Blog3、Blog4加以标识,具体如表1所示。
表1微博数据描述
2)top-m重大社会事件提取实施例。
附图1给出了top-m中m的确定分析,对于Blog1~Blog4而言,m的取值在8~12之间时 算法被认为具有较高的识别性能。提取出的重大事件如表2所示。
表22017年10月-2018年9月期间微博网络重大社会事件摘要
3)附图2给出了短文本极性分析规则的实施例图,用于分析用户的情感倾向性。
规则1:对短文本中出现的所有词汇,定义积极词汇初始评分为+1,消极词汇初始评分 为-1,中性词汇初始评分为0
规则2:当词汇的前置词汇为程度词汇时,词汇的评分等于词汇的初始评分乘以前置程 度词汇在HowNet词典中的程度评分,该评分取值范围为(0,1)。
规则3:当词汇(包括程度词汇)的前置词汇为否定词汇时,词汇评分乘以-1。
短文本最终的情感极性为所有词汇评分之和。
4)情感社区集合识别实施例。
附图3给出了社区识别时标签更新实施例,用户u邻接a,b,c三个社区,假设社区内节点 对社区的隶属度以及与u的MIC值,已知(分别为括弧内向量以及边上权重),则受到的特 征向量为:(a,0.70)、(b,0.65)、(b,0.45)、(c,0.50)、(c,0.40)、(c,0.50)。此处基准 社区标签为(a,0.70),对社区a、b、c的隶属度更新为:(a,0.70)、(b,0.65+0.45/6)=(b,0.725),(c,0.5+(0.4+0.5)/6)=(c,0.65),因此用户u加入社区a和社区b。
为了使社区识别结果更加清晰,在附图4(a)~(d)中分别给出了标签传播类社区识别 方法GN、LFM、COPRA以及本发明ECM方法在Football网络上的划分结果。
选取语义社区识别方法CUT、CART、LCTA、TURCM以及S-LPA作为比对方法,用重 叠社区模块度函数EQ以及语义社区模块度函数SQ度量社区的稳定性以及凝聚力。除微博数据外,选取Enron邮件网络、DBLP引文网络、Arxiv高能物理引文网络(CND)以及清华大 学QLSP数据集作为验证数据。验证结果在附图5(EQ)以及附图6(SQ)给出,可以看出 本发明方法ECM在性能上确实有所提高,具有比较好的效果。
以上所述仅是基于事件检测的微博网络情感社区识别方法的优选实施方式,基于事件检 测的微博网络情感社区识别方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技 术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明 原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (6)
1.一种基于事件检测的微博网络情感社区识别方法,其特征是:包括如下步骤:
步骤一:基于Python爬虫爬取微博网络用语的数据,对微博网络数据进行初始化;
步骤二:提取微博网络中的社会热点事件,构造事件热点评估函数;
步骤三:度量微博用户对社会热点事件的情感极性,生成微博用户对多个社会热点事件的情感极性标签;
步骤四:初始化微博用户的情感极性标签,构造社区标签更新迭代规则,直至标签收敛时终止循环,将具有相同标签的节点划分到同一社区。
2.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:所述步骤一具体为:
第一步:采用Python爬虫向上广度优先搜索策略,爬取微博社交网络用户的用语数据,通过下式表示所述微博网络用语数据:
Di={Li,Fi,Ri,Ci,Ti} (1)
其中,Di为微博帖子i的网络用语数据,Li为微博帖子i的文本,Fi为微博帖子i的发帖者的粉丝数量,Ri为微博帖子i的转发次数,Ci为微博帖子i的评论次数,Ti为微博帖子i的发布时间,i表示为微博帖子;
第二步:初始化微博网络用语数据,并将所述初始化的数据存于MySQL数据库。
3.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:所述步骤二具体为:
第一步:采用TF-IDF方法计算词汇η在微博网络用语数据中的权重,通过下式计算词汇n的权重:
其中,为词汇η的权重,为词汇η在Di中出现的频率,dfη为词汇η在滑动窗口中所有帖子中出现的次数,N为爬取到的微博帖子总数;
第二步:以词汇η的权重为基础,构造度量微博帖子间相关程度的余弦相似表达式以为优化函数,采用k-Medoide算法将词汇一致的微博帖子聚合成同一个群组,迭代生成事件集合C,通过下式表示所述表达式ρi,C:
C={c1,c2,...,ck} (3)
其中,C为迭代生成的事件集合,ck为第k个微博事件,为度量微博帖子间相关程度的余弦相似表达式,以及|wC|分别为Di内词汇以及事件集合C内词汇的TF-IDF权重集合;
第三步:构造社会热点事件评估函数δHOT,筛选处关注度高的m个社会热点事件,通过下式表示δHOT:
其中,δHOT为社会热点事件评估函数,Nc为事件集合C中的帖子总数;
第四步:对筛选处的m个社会热点事件进行排序,得到m个社会热点事件集合,通过下式表示m个社会热点事件集合:
CIM={c1,c2,...,cm} (6)
其中,CIM为m个社会热点事件集合,cm为第m个社会热点事件。
4.根据权利要求3所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:通过δHOT统计粉丝的有效回应,所述δHOT取值范围为[0,1]。
5.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:所述步骤三具体为:
第一步:利用ICTCLAS分词系统对微博网络用语数据进行分词;
第二步:基于HowNet情感词典完成词语级情感极性分析,对未出现在情感词典中的网络词汇ηnew,建立词语级相似性度量函数,通过函数判断ηnew与HowNet情感词典已有的词汇ηhow相似程度,通过下式表示词语级相似性度量函数:
其中,S(ηnew,ηhow)为词语级相似性度量函数,|ηnew|以及|ηhow|分别为词汇ηnew以及ηhow在爬取数据时出现次数;
第三步:计算用户u对m个社会热点事件发表言论的情感极性,生成微博用户u对m个社会热点事件的情感极性标签,通过下式表示所述情感极性标签:
其中,U为微博用户u对m个社会热点事件的情感极性标签,为微博用户u对第m个社会热点事件发表言论极性总体的加权平均。
6.根据权利要求1所述的一种基于事件检测的微博网络情感社区识别方法,其特征是:所述步骤四具体为:
第一步:初始化微博用户对社会热点事件的情感极性标签,每个微博用户包含一个特征向量,通过下式表示特征向量:
vecu=(lu,bu) (9)
其中,vecu为微博用户u的特征向量,lu为微博用户u的社区标签集合,bu为微博用户u对社区的归属程度;
初始化所述征向量时,得到vecu=(u,1),归属程度为1;
第二步:微博用户向邻居用户传递一次特征向量,构造社区标签更新迭代规则,所述规则具体为:当微博用户收到邻居用户传来的特征向量时,微博用户将收到的特征进行更改,通过下式进行更改:
其中,τ(u)为微博用户u的邻居集合,v为微博用户u的邻居用户,vecv∈τ(u)为所述邻居用户v的特征向量,lv为邻居用户v的社区标签集合,b′v为邻居用户v对社区的归属程度;U和V分别代表微博用户u以及邻居用户v的情感极性标签集合,MIC(U,V)为微博用户u与邻居用户v之间情感极性标签的最大互信息系数,
通过下式计算MIC(U,V):
其中,I[U;V]为U和V之间的互信息;
当对微博用户u的任意一邻居x,x∈τ(u),以及所有收到的任意特征向量vec′x∈τ(u)=(lx,b′x),lx为任意一邻居x的社区标签集合,b′x为任意一邻居x对社区的归属程度,选择b′x最大的邻居所持有的社区标签作为基准社区标签,则用户u加入基准社区标签所代表的社区;
当对于基准社区标签之外的社区标签ly时,y∈τ(u),满足y归属程度不是最大的,当y的邻居同时包括y自身对ly的隶属度的为最大值时,所述隶属度的最大值再加上除ly的隶属度最大值外的隶属度之和再与u的邻居数的作商;当所述作商的结果大于b′x,则将u加入y所在社区;
第三步:重复第二步,当社区标签收敛时,终止循环,将具有相同社区标签的用户划分到同一个社区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577138.0A CN110347897B (zh) | 2019-06-28 | 2019-06-28 | 基于事件检测的微博网络情感社区识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577138.0A CN110347897B (zh) | 2019-06-28 | 2019-06-28 | 基于事件检测的微博网络情感社区识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347897A true CN110347897A (zh) | 2019-10-18 |
CN110347897B CN110347897B (zh) | 2021-09-21 |
Family
ID=68177085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910577138.0A Active CN110347897B (zh) | 2019-06-28 | 2019-06-28 | 基于事件检测的微博网络情感社区识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347897B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110784381A (zh) * | 2019-11-05 | 2020-02-11 | 安徽师范大学 | 一种基于粒子计算的流量分类方法 |
CN111444404A (zh) * | 2020-03-19 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于微博的社会舆情监测系统及其监测方法 |
CN112084333A (zh) * | 2020-08-31 | 2020-12-15 | 杭州电子科技大学 | 一种基于情感倾向分析的社交用户生成方法 |
CN112329473A (zh) * | 2020-10-20 | 2021-02-05 | 哈尔滨理工大学 | 一种基于话题影响力渗流的语义社交网络社区发现方法 |
CN112863521A (zh) * | 2020-12-24 | 2021-05-28 | 哈尔滨理工大学 | 一种基于互信息估计的说话人识别方法 |
CN113064991A (zh) * | 2021-03-17 | 2021-07-02 | 西北工业大学 | 一种基于人机协作的微博事件真假检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012057563A2 (ko) * | 2010-10-28 | 2012-05-03 | (주)엠씨에스로직 | 감성 기반의 커뮤니티 형성 시스템, 커뮤니티 형성이 가능한 통신 단말기 및 그 커뮤니티 형성방법 |
US20130110928A1 (en) * | 2011-10-26 | 2013-05-02 | Topsy Labs, Inc. | Systems and methods for sentiment detection, measurement, and normalization over social networks |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN106022878A (zh) * | 2016-05-19 | 2016-10-12 | 华南理工大学 | 基于社区评论情感倾向性分析的手游排行榜构建方法 |
CN107862617A (zh) * | 2017-10-20 | 2018-03-30 | 江苏大学 | 一种基于用户综合相似度的微博社区划分方法 |
CN108595515A (zh) * | 2018-03-25 | 2018-09-28 | 哈尔滨工程大学 | 一种结合微博弱关系的微博情感分析方法 |
CN109214454A (zh) * | 2018-08-31 | 2019-01-15 | 东北大学 | 一种面向微博的情感社区分类方法 |
-
2019
- 2019-06-28 CN CN201910577138.0A patent/CN110347897B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012057563A2 (ko) * | 2010-10-28 | 2012-05-03 | (주)엠씨에스로직 | 감성 기반의 커뮤니티 형성 시스템, 커뮤니티 형성이 가능한 통신 단말기 및 그 커뮤니티 형성방법 |
US20130110928A1 (en) * | 2011-10-26 | 2013-05-02 | Topsy Labs, Inc. | Systems and methods for sentiment detection, measurement, and normalization over social networks |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN106022878A (zh) * | 2016-05-19 | 2016-10-12 | 华南理工大学 | 基于社区评论情感倾向性分析的手游排行榜构建方法 |
CN107862617A (zh) * | 2017-10-20 | 2018-03-30 | 江苏大学 | 一种基于用户综合相似度的微博社区划分方法 |
CN108595515A (zh) * | 2018-03-25 | 2018-09-28 | 哈尔滨工程大学 | 一种结合微博弱关系的微博情感分析方法 |
CN109214454A (zh) * | 2018-08-31 | 2019-01-15 | 东北大学 | 一种面向微博的情感社区分类方法 |
Non-Patent Citations (1)
Title |
---|
赵卫绩等: "《一种基于加权共同邻居相似度的局部社区发现算法》", 《南京大学学报(自然科学)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110784381A (zh) * | 2019-11-05 | 2020-02-11 | 安徽师范大学 | 一种基于粒子计算的流量分类方法 |
CN111444404A (zh) * | 2020-03-19 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于微博的社会舆情监测系统及其监测方法 |
CN112084333A (zh) * | 2020-08-31 | 2020-12-15 | 杭州电子科技大学 | 一种基于情感倾向分析的社交用户生成方法 |
CN112084333B (zh) * | 2020-08-31 | 2022-04-22 | 杭州电子科技大学 | 一种基于情感倾向分析的社交用户生成方法 |
CN112329473A (zh) * | 2020-10-20 | 2021-02-05 | 哈尔滨理工大学 | 一种基于话题影响力渗流的语义社交网络社区发现方法 |
CN112329473B (zh) * | 2020-10-20 | 2021-07-30 | 哈尔滨理工大学 | 一种基于话题影响力渗流的语义社交网络社区发现方法 |
CN112863521A (zh) * | 2020-12-24 | 2021-05-28 | 哈尔滨理工大学 | 一种基于互信息估计的说话人识别方法 |
CN112863521B (zh) * | 2020-12-24 | 2022-07-05 | 哈尔滨理工大学 | 一种基于互信息估计的说话人识别方法 |
CN113064991A (zh) * | 2021-03-17 | 2021-07-02 | 西北工业大学 | 一种基于人机协作的微博事件真假检测方法 |
CN113064991B (zh) * | 2021-03-17 | 2024-04-19 | 西北工业大学 | 一种基于人机协作的微博事件真假检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110347897B (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347897A (zh) | 基于事件检测的微博网络情感社区识别方法 | |
Nettleton | Data mining of social networks represented as graphs | |
CN103745000B (zh) | 一种中文微博客的热点话题检测方法 | |
Xiaomei et al. | Microblog sentiment analysis with weak dependency connections | |
CN103279887B (zh) | 一种基于信息理论的微博传播可视化分析方法 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
Du et al. | CVTM: A content-venue-aware topic model for group event recommendation | |
CN107609469B (zh) | 社会网络关联用户挖掘方法及系统 | |
Liao et al. | POI recommendation of location-based social networks using tensor factorization | |
Zhang et al. | Identifying network public opinion leaders based on markov logic networks | |
Wang et al. | A multidimensional network link prediction algorithm and its application for predicting social relationships | |
Sun et al. | Overlapping community detection based on information dynamics | |
CN103136309A (zh) | 通过基于核的学习对社交强度进行建模 | |
CN105205075B (zh) | 基于协同自扩展的命名实体集合扩展方法及查询推荐方法 | |
Hu et al. | Psychology and behavior mechanism of micro-blog information spreading | |
Alp et al. | Influential user detection on Twitter: Analyzing effect of focus rate | |
Li et al. | Expertise network discovery via topic and link analysis in online communities | |
Ganguli et al. | An integrated framework for friend recommender system using graph theoretic approach | |
CN107230158A (zh) | 社交网络用户相对影响力度量方法 | |
Li et al. | An community detection algorithm based on the multi-attribute similarity | |
Chakradeo et al. | Data mining: Building social network | |
CN107392784A (zh) | 基于标签传播的可调节重叠社团发现方法 | |
Altinel et al. | Identifying topic-based opinion leaders in social networks by content and user information | |
Rabchevsky et al. | Comparison of methods for identifying user roles in online social networks | |
Ide et al. | Policy decision support system in aging society based on probabilistic latent spatial semantic structure modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |