CN106570158A - 基于微博相似性统计建模的微博传播规模预测方法 - Google Patents

基于微博相似性统计建模的微博传播规模预测方法 Download PDF

Info

Publication number
CN106570158A
CN106570158A CN201610974055.1A CN201610974055A CN106570158A CN 106570158 A CN106570158 A CN 106570158A CN 201610974055 A CN201610974055 A CN 201610974055A CN 106570158 A CN106570158 A CN 106570158A
Authority
CN
China
Prior art keywords
microblogging
micro
blog
similarity
forwarding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610974055.1A
Other languages
English (en)
Inventor
郭培伦
陈雁
李平
胡栋
孙先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN201610974055.1A priority Critical patent/CN106570158A/zh
Publication of CN106570158A publication Critical patent/CN106570158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于微博相似性统计建模的微博传播规模预测方法,所述的方法的步骤如下:S1、获取相应的微博信息,建立微博库并根据时间窗D的大小分别存储相应的微博;S2、对获取的数据信息进行深度挖掘,建立微博转发模型,获取聚类后的结果保存到微博库;S3、对微博库中的数据信息进行微博相似性计算;S4、根据不同的微博相似性进行微博转发深度和广度的预测。能够对微博中的事件信息进行分析、监控和预测,能够及时发现可能发生的大规模爆发的不良微博事件,并做到及时的管理和控制;其具有及时性、高效性和精确度高等特点。

Description

基于微博相似性统计建模的微博传播规模预测方法
技术领域
本发明涉及微博信息传播预测领域,尤其涉及一种基于微博相似性统计建模的微博传播规模预测方法。
背景技术
目前,随着传统社会经济活动向社会化、网络化方向发展,以突发热点事件为焦点的社会舆情成为关注焦点。而微博作为一种通过关注机制分享简短实时信息的广播式的社交网络平台,已经成为现代化社会最重要的新媒体平台之一,与传统媒体相比其具有及时性、碎片化、自由开放和大众性等特征。就是基于其大众性的特点,所以任何人都可以利用微博发布不良的观点和评论,甚至有些涉及国家安全、社会稳定、社会民生的突发和敏感事件,所以对微博中的事件信息进行分析、监控和预测,能够及时发现可能发生的大规模爆发的不良微博事件,并做到及时的管理和控制是一件非常重要的事情。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于微博相似性统计建模的微博传播规模预测方法,解决了大规模不良微博爆发而不能及时发现并进行有效管理控制的问题。
本发明的目的是通过以下技术方案来实现的:基于微博相似性统计建模的微博传播规模预测方法,所述的方法的步骤如下:
S1、获取相应的微博信息,建立微博库并根据时间窗D的大小分别存储相应的微博;
S2、对获取的数据信息进行深度挖掘,建立微博转发模型,获取聚类后的结果保存到微博库;
S3、对微博库中的数据信息进行微博相似性计算;
S4、根据不同的微博相似性进行微博转发深度和广度的预测。
所述S2的具体步骤如下:
S21、提取微博语料中的词语,对语料进行分词、去停用词之后,将得到的词语存入词库并更新词库;
S22、刻画转发的微博,利用微博的转发及转发关系,建立相应的树形关系图;
S23、根据树形关系图每一层的节点数,建立一个按层级排序的向量刻画该微博在每次被转发过程中的人数,得到该微博被转发的深度,并由其向量的长度表示。
所述S3的具体步骤如下:
S31、利用余弦相似性计算微博的词向量之间的相似性,获取与待测微博最相似的微博;
S32、利用Levenshtein距离对每条微博的转发向量进行相似性的计算分析,获取与其相似的微博。
所述S4的具体步骤如下:
S41、获取相似的微博;
S42、获取待测微博的深度和广度;采用蒙特卡洛模拟法获取待测微博下一阶段的传播广度的概率。
所述S41的具体步骤如下:
S411、对于给定的微博,利用余弦相似性获取与其相似的K1条微博,或者是超过阈值Q1的微博;
S412、对于获取相似的微博,利用Levenshtein距离来衡量相似微博的转发相似性,设置阈值Q2获取超过阈值Q2的微博,或者获取最相似的K2条微博。
所述的Levenshtein计算方法的步骤如下:
S321、如果字符串str1的长度为0,则返回字符串str2的长度,如果字符串str2的长度为0,则返回字符串str1的长度;
S322、初始化(n+1)×(m+1)的矩阵d,并让第一行和列的值从0开始增长;
S323、扫描两条字符串,如果:字符串str1[i]==str2[j],temp记为0,否则temp记为1;并对矩阵d[i,j]赋于d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者中的最小值;
S324、扫描完成后,返回矩阵的最后一个值d[n][m],既为它们的距离。
所述的余弦相似性计算公式如下:
其中,A和B表示两个向量。
所述S42中的蒙特卡洛模拟法的具体步骤如下:
S421、统计相似微博中下一条微博被转发的类别和相似微博在下一个阶段被转发的总数N;
S422、计算每个类别所占的概率,设置一个阈值Q,获取超过该阈值的类别,如果都没有超过那么就获取topK个类别;
S423、将获取的下一个阶段的类别作为待测微博的下一个阶段的广度预测,同时,如果下一个阶段的广度预测都为0,则该微博的深度就为现有长度,即该微博被转发的次数。
本发明的有益效果是:基于微博相似性统计建模的微博传播规模预测方法,能够对微博中的事件信息进行分析、监控和预测,能够及时发现可能发生的大规模爆发的不良微博事件,并做到及时的管理和控制;其具有及时性、高效性和精确度高等特点。
附图说明
图1为方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,基于微博相似性统计建模的微博传播规模预测方法,所述的方法的步骤如下:
S1、获取相应的微博信息,爬取近X天内对应的微博及转发关系,建立微博库并根据时间窗D的大小分别存储相应的微博;
S2、对获取的数据信息进行深度挖掘,建立微博转发模型,获取聚类后的结果保存到微博库;
S3、对微博库中的数据信息进行微博相似性计算;
S4、根据不同的微博相似性进行微博转发深度和广度的预测。
所述S2的具体步骤如下:
S21、提取微博语料中的词语,对语料进行分词、去停用词之后,将得到的词语存入词库并更新词库;
S22、刻画转发的微博,利用微博的转发及转发关系,建立相应的树形关系图;
S23、根据树形关系图每一层的节点数,建立一个按层级排序的向量刻画该微博在每次被转发过程中的人数,得到该微博被转发的深度,并由其向量的长度表示。
所述S3的具体步骤如下:
S31、利用余弦相似性计算微博的词向量之间的相似性,获取与待测微博最相似的微博;
S32、利用Levenshtein距离对每条微博的转发向量进行相似性的计算分析,获取与其相似的微博。
所述S4的具体步骤如下:
S41、获取相似的微博;
S42、获取待测微博的深度和广度;采用蒙特卡洛模拟法获取待测微博下一阶段的传播广度的概率。
所述S41的具体步骤如下:
S411、对于给定的微博,利用余弦相似性获取与其相似的K1条微博,或者是超过阈值Q1的微博;
S412、对于获取相似的微博,利用Levenshtein距离来衡量相似微博的转发相似性,设置阈值Q2获取超过阈值Q2的微博,或者获取最相似的K2条微博。
所述的Levenshtein计算方法的步骤如下:
S321、如果字符串str1的长度为0,则返回字符串str2的长度,如果字符串str2的长度为0,则返回字符串str1的长度;
S322、初始化(n+1)×(m+1)的矩阵d,并让第一行和列的值从0开始增长;
S323、扫描两条字符串,如果:字符串str1[i]==str2[j],temp记为0,否则temp记为1;并对矩阵d[i,j]赋于d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者中的最小值;
S324、扫描完成后,返回矩阵的最后一个值d[n][m],既为它们的距离。
所述的余弦相似性计算公式如下:
其中,A和B表示两个向量。
所述S42中的蒙特卡洛模拟法的具体步骤如下:
S421、统计相似微博中下一条微博被转发的类别和相似微博在下一个阶段被转发的总数N;
S422、计算每个类别所占的概率,设置一个阈值Q,获取超过该阈值的类别,如果都没有超过那么就获取topK(即前K个)个类别;
S423、将获取的下一个阶段的类别作为待测微博的下一个阶段的广度预测,同时,如果下一个阶段的广度预测都为0,则该微博的深度就为现有长度,即该微博被转发的次数。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述的方法的步骤如下:
S1、获取相应的微博信息,建立微博库并根据时间窗D的大小分别存储相应的微博;
S2、对获取的数据信息进行深度挖掘,建立微博转发模型,获取聚类后的结果保存到微博库;
S3、对微博库中的数据信息进行微博相似性计算;
S4、根据不同的微博相似性进行微博转发深度和广度的预测。
2.根据权利要求1所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述S2的具体步骤如下:
S21、提取微博语料中的词语,对语料进行分词、去停用词之后,将得到的词语存入词库并更新词库;
S22、刻画转发的微博,利用微博的转发及转发关系,建立相应的树形关系图;
S23、根据树形关系图每一层的节点数,建立一个按层级排序的向量刻画该微博在每次被转发过程中的人数,得到该微博被转发的深度,并由其向量的长度表示。
3.根据权利要求1所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述S3的具体步骤如下:
S31、利用余弦相似性计算微博的词向量之间的相似性,获取与待测微博最相似的微博;
S32、利用Levenshtein距离对每条微博的转发向量进行相似性的计算分析,获取与其相似的微博。
4.根据权利要求1所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述S4的具体步骤如下:
S41、获取相似的微博;
S42、获取待测微博的深度和广度;采用蒙特卡洛模拟法获取待测微博下一阶段的传播广度的概率。
5.根据权利要求4所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述S41的具体步骤如下:
S411、对于给定的微博,利用余弦相似性获取与其相似的K1条微博,或者是超过阈值Q1的微博;
S412、对于获取相似的微博,利用Levenshtein距离来衡量相似微博的转发相似性,设置阈值Q2获取超过阈值Q2的微博,或者获取最相似的K2条微博。
6.根据权利要求3或5所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述的Levenshtein计算方法的步骤如下:
S321、如果字符串str1的长度为0,则返回字符串str2的长度,如果字符串str2的长度为0,则返回字符串str1的长度;
S322、初始化(n+1)×(m+1)的矩阵d,并让第一行和列的值从0开始增长;
S323、扫描两条字符串,如果:字符串str1[i]==str2[j],temp记为0,否则temp记为1;并对矩阵d[i,j]赋于d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者中的最小值;
S324、扫描完成后,返回矩阵的最后一个值d[n][m],既为它们的距离。
7.根据权利要求3或5所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述的余弦相似性计算公式如下:
s i m i l a r i t y = c o s θ = A · B Σ i = 1 n A i Σ i = 1 n B i ;
其中,A和B表示两个向量。
8.根据权利要求4所述的基于微博相似性统计建模的微博传播规模预测方法,其特征在于:所述S42中的蒙特卡洛模拟法的具体步骤如下:
S421、统计相似微博中下一条微博被转发的类别和相似微博在下一个阶段被转发的总数N;
S422、计算每个类别所占的概率,设置一个阈值Q,获取超过该阈值的类别,如果都没有超过那么就获取topK个类别;
S423、将获取的下一个阶段的类别作为待测微博的下一个阶段的广度预测,同时,如果下一个阶段的广度预测都为0,则该微博的深度就为现有长度,即该微博被转发的次数。
CN201610974055.1A 2016-10-27 2016-10-27 基于微博相似性统计建模的微博传播规模预测方法 Pending CN106570158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610974055.1A CN106570158A (zh) 2016-10-27 2016-10-27 基于微博相似性统计建模的微博传播规模预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610974055.1A CN106570158A (zh) 2016-10-27 2016-10-27 基于微博相似性统计建模的微博传播规模预测方法

Publications (1)

Publication Number Publication Date
CN106570158A true CN106570158A (zh) 2017-04-19

Family

ID=58539978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610974055.1A Pending CN106570158A (zh) 2016-10-27 2016-10-27 基于微博相似性统计建模的微博传播规模预测方法

Country Status (1)

Country Link
CN (1) CN106570158A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065179A (zh) * 2018-08-22 2018-12-21 昆明理工大学 一种疾病传染过程的空时动态模拟方法
CN111914152A (zh) * 2020-06-30 2020-11-10 中国科学院计算技术研究所 一种网络事件预警方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530421A (zh) * 2012-11-02 2014-01-22 中国人民解放军国防科学技术大学 基于微博的事件相似性度量方法及系统
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530421A (zh) * 2012-11-02 2014-01-22 中国人民解放军国防科学技术大学 基于微博的事件相似性度量方法及系统
CN104915397A (zh) * 2015-05-28 2015-09-16 国家计算机网络与信息安全管理中心 一种微博传播趋势预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHOUBIN KONG等: "Predicting lifespans of popular tweets in microblog", 《PROCEEDINGS OF THE 35TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
刘宝立 等: "H7N9 疫情背景下的微博信息传播特性研究", 《计算机应用与软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065179A (zh) * 2018-08-22 2018-12-21 昆明理工大学 一种疾病传染过程的空时动态模拟方法
CN109065179B (zh) * 2018-08-22 2021-10-22 昆明理工大学 一种疾病传染过程的空时动态模拟方法
CN111914152A (zh) * 2020-06-30 2020-11-10 中国科学院计算技术研究所 一种网络事件预警方法及系统
CN111914152B (zh) * 2020-06-30 2023-05-12 中国科学院计算技术研究所 一种网络事件预警方法及系统

Similar Documents

Publication Publication Date Title
Sønderby et al. Metnet: A neural weather model for precipitation forecasting
CN106600052B (zh) 一种基于时空轨迹的用户属性与社会网络检测系统
CN105897714A (zh) 基于dns流量特征的僵尸网络检测方法
CN104156447B (zh) 一种智能社交平台广告预警及处理方法
Li et al. Location inference for non-geotagged tweets in user timelines
CN104915397A (zh) 一种微博传播趋势预测方法及装置
CN112615888B (zh) 一种网络攻击行为的威胁评估方法及装置
CN106651016B (zh) 一种热点话题下动态预测用户行为的系统及方法
Wang et al. BANet: Small and multi-object detection with a bidirectional attention network for traffic scenes
CN106886572A (zh) 基于Markov逻辑网的知识图谱关系类型推测方法及其装置
CN110136016A (zh) 一种基于隐式关联的多标签传播方法及系统
CN109522416A (zh) 一种金融风险控制知识图谱的构建方法
CN111881625A (zh) 一种基于深度强化学习的人群疏散仿真方法及系统
CN109635089B (zh) 一种基于语义网络的文学作品新颖度评价系统和方法
CN103530304A (zh) 基于自适应分布式计算的在线推荐方法、系统和移动终端
CN116684200B (zh) 网络安全漏洞的攻击模式的知识补全方法及系统
CN104809105A (zh) 基于最大熵的事件论元及论元角色的识别方法及系统
CN107220486A (zh) 基于局部影响力计算的影响力阻断最大化方法
Triacca et al. Forecasting the number of confirmed new cases of COVID-19 in Italy for the period from 19 May to 2 June 2020
CN106570158A (zh) 基于微博相似性统计建模的微博传播规模预测方法
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN111274710A (zh) 一种基于游戏的核应急疏散出口选择行为模型的构建方法
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统
Shao et al. Identifying the natural reserve area of Cistanche salsa under the effects of multiple host plants and climate change conditions using a maximum entropy model in Xinjiang, China
Zhang et al. Detecting community structures in networks by label propagation with prediction of percolation transition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419

RJ01 Rejection of invention patent application after publication