CN106557551A - 基于微博事件聚类建模的微博传播规模预测方法和系统 - Google Patents

基于微博事件聚类建模的微博传播规模预测方法和系统 Download PDF

Info

Publication number
CN106557551A
CN106557551A CN201610955178.0A CN201610955178A CN106557551A CN 106557551 A CN106557551 A CN 106557551A CN 201610955178 A CN201610955178 A CN 201610955178A CN 106557551 A CN106557551 A CN 106557551A
Authority
CN
China
Prior art keywords
microblogging
event
cluster
forwarding
modeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610955178.0A
Other languages
English (en)
Inventor
陈雁
郭培伦
杨晶宇
李平
胡栋
孙先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN201610955178.0A priority Critical patent/CN106557551A/zh
Publication of CN106557551A publication Critical patent/CN106557551A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于微博事件聚类建模的微博传播规模预测方法和系统,所述的方法的步骤如下:S1、获取相应的事件信息;S2、根据事件的信息建立数据库,并按一定的时间窗D的大小分别存储相应的事件信息;S3、对数据信息进行深度挖掘,建立事件聚类模型,获取聚类后的结果并保存到事件库;S4、根据不同的事件类型进行事件转发深度和广度的预测。能够对微博中的事件信息进行分析、监控和预测,能够及时发现可能发生的大规模爆发的不良微博事件,并做到及时的管理和控制;其具有及时性、高效性和精确度高等特点。

Description

基于微博事件聚类建模的微博传播规模预测方法和系统
技术领域
本发明涉及微博事件传播预测领域,尤其涉及一种基于微博事件聚类建模的微博传播规模预测方法和系统。
背景技术
目前,随着传统社会经济活动向社会化、网络化方向发展,以突发热点事件为焦点的社会舆情成为关注焦点。而微博作为一种通过关注机制分享简短实时信息的广播式的社交网络平台,已经成为现代化社会最重要的新媒体平台之一,与传统媒体相比其具有及时性、碎片化、自由开放和大众性等特征。就是基于其大众性的特点,所以任何人都可以利用微博发布不良的观点和评论,甚至有些涉及国家安全、社会稳定、社会民生的突发和敏感事件,所以对微博中的事件信息进行分析、监控和预测,能够及时发现可能发生的大规模爆发的不良微博事件,并做到及时的管理和控制是一件非常重要的事情。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于微博事件聚类建模的微博传播规模预测方法和系统,解决了大规模不良微博爆发而不能及时发现并进行有效管理控制的问题。
本发明的目的是通过以下技术方案来实现的:基于微博事件聚类建模的微博传播规模预测方法,所述的方法的步骤如下:
S1、获取相应的事件信息;
S2、根据事件的信息建立数据库,并按一定的时间窗D的大小分别存储相应的事件信息;
S3、对数据信息进行深度挖掘,建立事件聚类模型,获取聚类后的结果并保存到事件库;
S4、根据不同的事件类型进行事件转发深度和广度的预测。
所述的事件包括微博事件,所述的数据库包括微博事件库。
所述S3的具体步骤如下:
S31、提取微博事件语料中的词语;对语料进行分词、去停用词后,将得到的词语存入词库,更新词库;
S32、对微博事件转发的刻画;利用微博事件的转发以及转发关系,建立相应的树形关系图;
S33、根据树形关系图每一层的节点数,建立一个按层级排序的向量来刻画微博事件在每次被转发的过程中的人数,进而得到微博事件被转发的深度,并通过该向量的长度表示;
S34、进行事件聚类;利用LDA主题模型根据每条微博包含的词语进行主题分类,获取每条微博对应的主题;
S35、利用K-means对每条微博的转发向量进行聚类分析,获取相似的转发传播微博。
所述S4的具体步骤如下:
S41、获取相似的微博事件;利用LDA计算与其主题相似的微博事件,利用K-means计算与其同等深度的情况下相似的微博事件,具体的K个类型由根据实际的需要确定;
S42、获取具备下一阶段的相似微博事件的聚类;获取与其同属一类的具有下一个传播阶段的微博事件,利用K-means对这些微博事件进行聚类分析k1,k2,…,kK1,其中K1取下一个阶段传播的类别总数;
S43、获取待测微博事件与具有下一阶段的相似微博事件的聚类;根据需要预测的微博事件,采用步骤S41中的方法进行聚类,K与K1相同,得到的与待测微博事件相似的一类微博事件S;
S44、利用Jaccard计算S与K1个类别的相似性,获取待测微博的下一个阶段广度的预测值。
所述的S35中的K-means计算步骤如下:
S351、随机选取k个中心点;
S352、遍历所有数据,将每个数据划分到最近的中心点中;
S353、计算每个聚类的平均值,并作为新的中心点;
S354、重复步骤S352和S353,直到这k个中心点收敛了,或执行n次迭代使得k各中心点不再变化。
所述S44的具体步骤如下:
S441、根据需要设定一个阈值,选取超过该阈值的类别作为待测微博下一个阶段的传播广度;
S442、如果都没有超过阈值,则选择topK个微博事件作为待测微博下一个阶段的传播广度。
所述的Jaccard相似性计算公式如下:
其中,A和B分别表示不同的微博事件。
基于微博事件聚类建模的微博传播规模预测系统,包括数据爬取模块、微博事件库、事件分析模块、事件库、聚类计算模块、用户前端模块和用户后端模块;
所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博事件及其相关转发信息的爬取
所述的微博事件库主要用于存储数据爬取模块爬取的各类新闻和微博及其转发关系;
所述的事件分析模块主要用于对微博事件库中的信息进行数据挖掘和事件聚类建模,包括对微博语料的分词、主题提取和微博事件转发深度广度的刻画;
所述的事件库主要用于保存事件分析模块生成的各类事件信息;
所述的聚类计算模块主要用于按照不同的聚类要求,进行聚类计算;
所述的用户前端模块用于为用户提供界面,方便其录入微博事件相关信息;所述的用户包括网站或者信息平台的管理人员;
所述的用户后端模块主要用于调用聚类计算模块的计算函数,根据用户输入的微博事件信息获取相应的微博事件传播广度和深度,结果存储后提供给特定网站进行调用。
本发明的有益效果是:基于微博事件聚类建模的微博传播规模预测方法和系统,能够对微博中的事件信息进行分析、监控和预测,能够及时发现可能发生的大规模爆发的不良微博事件,并做到及时的管理和控制;其具有及时性、高效性和精确度高等特点。
附图说明
图1为方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,基于微博事件聚类建模的微博传播规模预测方法,所述的方法的步骤如下:
S1、获取相应的事件信息;爬取近X天发生的新闻事件信息,以及对应的微博及转发关系;
S2、根据事件的信息建立数据库,并按一定的时间窗D的大小分别存储相应的事件信息;
S3、对数据信息进行深度挖掘,建立事件聚类模型,获取聚类后的结果并保存到事件库;
S4、根据不同的事件类型进行事件转发深度和广度的预测。
所述的事件包括微博事件,所述的数据库包括微博事件库。
所述S3的具体步骤如下:
S31、提取微博事件语料中的词语;对语料进行分词、去停用词后,将得到的词语存入词库,更新词库;
S32、对微博事件转发的刻画;利用微博事件的转发以及转发关系,建立相应的树形关系图;
S33、根据树形关系图每一层的节点数,建立一个按层级排序的向量来刻画微博事件在每次被转发的过程中的人数,进而得到微博事件被转发的深度,并通过该向量的长度表示;
S34、进行事件聚类;利用LDA主题模型根据每条微博包含的词语进行主题分类,获取每条微博对应的主题;
S35、利用K-means对每条微博的转发向量进行聚类分析,获取相似的转发传播微博。
所述S4的具体步骤如下:
S41、获取相似的微博事件;利用LDA计算与其主题相似的微博事件,利用K-means计算与其同等深度的情况下(比其深度深的截取同样的长度)相似的微博事件,具体的K个类型由根据实际的需要确定;
S42、获取具备下一阶段的相似微博事件的聚类;获取与其同属一类的具有下一个传播阶段的微博事件,利用K-means对这些微博事件进行聚类分析k1,k2,…,kK1,其中K1取下一个阶段传播的类别总数;
S43、获取待测微博事件与具有下一阶段的相似微博事件的聚类;根据需要预测的微博事件,采用步骤S41中的方法进行聚类,K与K1相同,得到的与待测微博事件相似的一类微博事件S;
S44、利用Jaccard计算S与K1个类别的相似性,获取待测微博的下一个阶段广度的预测值。
所述的S35中的K-means计算步骤如下:
S351、随机选取k个中心点;
S352、遍历所有数据,将每个数据划分到最近的中心点中;
S353、计算每个聚类的平均值,并作为新的中心点;
S354、重复步骤S352和S353,直到这k个中心点收敛了,或执行n次迭代使得k各中心点不再变化。
所述S44的具体步骤如下:
S441、根据需要设定一个阈值,选取超过该阈值的类别作为待测微博下一个阶段的传播广度;
S442、如果都没有超过阈值,则选择topK个微博事件(相似度最大的K个微博事件)作为待测微博下一个阶段的传播广度。
深度预测与广度预测类似,如果下一个阶段广度都是0,表明待测微博停止被转发,深度也就确定了。
所述的Jaccard相似性计算公式如下:
其中,A和B分别表示不同的微博事件。
基于微博事件聚类建模的微博传播规模预测系统,包括数据爬取模块、微博事件库、事件分析模块、事件库、聚类计算模块、用户前端模块和用户后端模块;
所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博事件及其相关转发信息的爬取
所述的微博事件库主要用于存储数据爬取模块爬取的各类新闻和微博及其转发关系;
所述的事件分析模块主要用于对微博事件库中的信息进行数据挖掘和事件聚类建模,包括对微博语料的分词、主题提取和微博事件转发深度广度的刻画;
所述的事件库主要用于保存事件分析模块生成的各类事件信息;
所述的聚类计算模块主要用于按照不同的聚类要求,进行聚类计算;
所述的用户前端模块用于为用户提供界面,方便其录入微博事件相关信息;所述的用户包括网站或者信息平台的管理人员;
所述的用户后端模块主要用于调用聚类计算模块的计算函数,根据用户输入的微博事件信息获取相应的微博事件传播广度和深度,结果存储后提供给特定网站进行调用。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述的方法的步骤如下:
S1、获取相应的事件信息;
S2、根据事件的信息建立数据库,并按一定的时间窗D的大小分别存储相应的事件信息;
S3、对数据信息进行深度挖掘,建立事件聚类模型,获取聚类后的结果并保存到事件库;
S4、根据不同的事件类型进行事件转发深度和广度的预测。
2.根据权利要求1所述的基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述的事件包括微博事件,所述的数据库包括微博事件库。
3.根据权利要求1所述的基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述S3的具体步骤如下:
S31、提取微博事件语料中的词语;对语料进行分词、去停用词后,将得到的词语存入词库,更新词库;
S32、对微博事件转发的刻画;利用微博事件的转发以及转发关系,建立相应的树形关系图;
S33、根据树形关系图每一层的节点数,建立一个按层级排序的向量来刻画微博事件在每次被转发的过程中的人数,进而得到微博事件被转发的深度,并通过该向量的长度表示;
S34、进行事件聚类;利用LDA主题模型根据每条微博包含的词语进行主题分类,获取每条微博对应的主题;
S35、利用K-means对每条微博的转发向量进行聚类分析,获取相似的转发传播微博。
4.根据权利要求1所述的基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述S4的具体步骤如下:
S41、获取相似的微博事件;利用LDA计算与其主题相似的微博事件,利用K-means计算与其同等深度的情况下相似的微博事件,具体的K个类型由根据实际的需要确定;
S42、获取具备下一阶段的相似微博事件的聚类;获取与其同属一类的具有下一个传播阶段的微博事件,利用K-means对这些微博事件进行聚类分析k1,k2,…,kK1,其中K1取下一个阶段传播的类别总数;
S43、获取待测微博事件与具有下一阶段的相似微博事件的聚类;根据需要预测的微博事件,采用步骤S41中的方法进行聚类,K与K1相同,得到的与待测微博事件相似的一类微博事件S;
S44、利用Jaccard计算S与K1个类别的相似性,获取待测微博的下一个阶段广度的预测值。
5.根据权利要求3所述的基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述的S35中的K-means计算步骤如下:
S351、随机选取k个中心点;
S352、遍历所有数据,将每个数据划分到最近的中心点中;
S353、计算每个聚类的平均值,并作为新的中心点;
S354、重复步骤S352和S353,直到这k个中心点收敛了,或执行n次迭代使得k各中心点不再变化。
6.根据权利要求4所述的基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述S44的具体步骤如下:
S441、根据需要设定一个阈值,选取超过该阈值的类别作为待测微博下一个阶段的传播广度;
S442、如果都没有超过阈值,则选择topK个微博事件作为待测微博下一个阶段的传播广度。
7.根据权利要求4所述的基于微博事件聚类建模的微博传播规模预测方法,其特征在于:所述的Jaccard相似性计算公式如下:
J = A ∩ B A ∪ B ;
其中,A和B分别表示不同的微博事件。
8.基于微博事件聚类建模的微博传播规模预测系统,其特征在于:包括数据爬取模块、微博事件库、事件分析模块、事件库、聚类计算模块、用户前端模块和用户后端模块;
所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博事件及其相关转发信息的爬取
所述的微博事件库主要用于存储数据爬取模块爬取的各类新闻和微博及其转发关系;
所述的事件分析模块主要用于对微博事件库中的信息进行数据挖掘和事件聚类建模,包括对微博语料的分词、主题提取和微博事件转发深度广度的刻画;
所述的事件库主要用于保存事件分析模块生成的各类事件信息;
所述的聚类计算模块主要用于按照不同的聚类要求,进行聚类计算;
所述的用户前端模块用于为用户提供界面,方便其录入微博事件相关信息;所述的用户包括网站或者信息平台的管理人员;
所述的用户后端模块主要用于调用聚类计算模块的计算函数,根据用户输入的微博事件信息获取相应的微博事件传播广度和深度,结果存储后提供给特定网站进行调用。
CN201610955178.0A 2016-10-27 2016-10-27 基于微博事件聚类建模的微博传播规模预测方法和系统 Pending CN106557551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610955178.0A CN106557551A (zh) 2016-10-27 2016-10-27 基于微博事件聚类建模的微博传播规模预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610955178.0A CN106557551A (zh) 2016-10-27 2016-10-27 基于微博事件聚类建模的微博传播规模预测方法和系统

Publications (1)

Publication Number Publication Date
CN106557551A true CN106557551A (zh) 2017-04-05

Family

ID=58443883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610955178.0A Pending CN106557551A (zh) 2016-10-27 2016-10-27 基于微博事件聚类建模的微博传播规模预测方法和系统

Country Status (1)

Country Link
CN (1) CN106557551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784387A (zh) * 2017-09-18 2018-03-09 国家计算机网络与信息安全管理中心 一种微博事件信息传播的连续动态预测方法
CN111949838A (zh) * 2020-08-19 2020-11-17 创新奇智(上海)科技有限公司 一种数据的传播路径生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104915392A (zh) * 2015-05-26 2015-09-16 国家计算机网络与信息安全管理中心 一种微博转发行为预测方法及装置
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104915392A (zh) * 2015-05-26 2015-09-16 国家计算机网络与信息安全管理中心 一种微博转发行为预测方法及装置
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宝立 等: "H7N9 疫情背景下的微博信息传播特性研究", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784387A (zh) * 2017-09-18 2018-03-09 国家计算机网络与信息安全管理中心 一种微博事件信息传播的连续动态预测方法
CN111949838A (zh) * 2020-08-19 2020-11-17 创新奇智(上海)科技有限公司 一种数据的传播路径生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Serrano et al. A novel agent-based rumor spreading model in twitter
Lee et al. When twitter meets foursquare: tweet location prediction using foursquare
US20190151758A1 (en) Unique virtual entity creation based on real world data sources
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN104915397A (zh) 一种微博传播趋势预测方法及装置
CN104166726B (zh) 一种面向微博文本流的突发关键词检测方法
US10614141B2 (en) Vital author snippets on online social networks
US20130246463A1 (en) Prediction and isolation of patterns across datasets
CN103631862B (zh) 基于微博的事件特征演化挖掘方法及系统
Yamak et al. SocksCatch: Automatic detection and grouping of sockpuppets in social media
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
Alsaedi et al. A combined classification-clustering framework for identifying disruptive events
CN106407473A (zh) 一种基于事件相似性建模的获取事件脉络的方法及其系统
Paredes et al. Detecting malicious behavior in social platforms via hybrid knowledge-and data-driven systems
Ruffo et al. Surveying the research on fake news in social media: a tale of networks and language
CN106557551A (zh) 基于微博事件聚类建模的微博传播规模预测方法和系统
Wise Using social media content to inform agent-based models for humanitarian crisis response
Clarkson et al. Where’s@ Waldo?: finding users on Twitter
CN106910013A (zh) 基于动态表达学习的不实信息检测方法和装置
GB2546402A (en) Resource allocation forecasting
CN106570158A (zh) 基于微博相似性统计建模的微博传播规模预测方法
CN116015939A (zh) 一种基于原子技术模板的高级持续威胁解释方法
CN109992723A (zh) 一种基于社交网络的用户兴趣标签构建方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405