CN106021278A - 一种微博事件地域热度指数的分析方法 - Google Patents

一种微博事件地域热度指数的分析方法 Download PDF

Info

Publication number
CN106021278A
CN106021278A CN201610277710.8A CN201610277710A CN106021278A CN 106021278 A CN106021278 A CN 106021278A CN 201610277710 A CN201610277710 A CN 201610277710A CN 106021278 A CN106021278 A CN 106021278A
Authority
CN
China
Prior art keywords
event
region
microblogging
region temperature
micro blog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610277710.8A
Other languages
English (en)
Inventor
杜蕾
黄三伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Yi Fang Softcom Ltd
Original Assignee
Hunan Yi Fang Softcom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Yi Fang Softcom Ltd filed Critical Hunan Yi Fang Softcom Ltd
Priority to CN201610277710.8A priority Critical patent/CN106021278A/zh
Publication of CN106021278A publication Critical patent/CN106021278A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络技术领域,特别是一种微博事件地域热度指数的分析方法,包括以下步骤,步骤S101:微博数据预处理,抽取历史数据中含地域字段的微博数据,分别统计各级行政单位中的微博数量;步骤S102:计算微博事件地域热度统计基线;步骤S103:微博事件数据抽取,抽取指定时间范围内满足关键词约束的微博数据后,分别统计各级行政单位中的微博数量;步骤S104:计算微博事件的绝对地域热度;步骤S105:计算微博事件的相对地域热度;步骤S106:计算地域热度指数。采用上述方法后,本发明相比传统的基于频数的热度值,新的热度值消除了微博平台的在各个地域的普及程度、不同地域微博用户活跃程度等因素的影响,在表征微博事件的地域特性方面获得了更好的效果。

Description

一种微博事件地域热度指数的分析方法
技术领域
本发明涉及网络技术领域,特别是一种微博事件地域热度指数的分析方法。
背景技术
舆情事件的基本要素包括时间、地点、涉事主体、事件,其中,地点要素决定了舆情爆发的地域性特征。目前对舆情事件的地域性研究还仅限于新闻领域,技术领域涉及不多。
在微博事件热度分析方面,地域热度是一个十分重要的分析维度。传统的事件地域热度分析仅仅采用了频数统计的方式来计算出一个热度值,这种方法没有考虑到微博平台的在各个地域的普及程度、不同地域微博用户的活跃程度等因素,导致网民基数大的地区在多数舆情事件中的微博地域热度远大于网民基数小的地区,因而并不能准确反映舆情事件的地域特征。
中国发明专利CN 104123377 A公开了一种微博话题热度预测方法,包括如下步骤:首先,根据用户关系及话题因素计算用户影响力;接着根据话题相关的微博和用户影响力,计算话题能量值,量化话题热度;最后结合小波变换和ARIMA回归模型,预测话题热度。此发明公开的微博话题热度的预测方法,与微博地域热度指数分析并不相关。
发明内容
本发明需要解决的技术问题提供一种微博事件地域热度指数的分析方法。
为解决上述的技术问题,本发明的一种微博事件地域热度指数的分析方法,包括以下步骤,
步骤S101:微博数据预处理,抽取历史数据中含地域字段的微博数据,分别统计各级行政单位中的微博数量;
步骤S102:计算微博事件地域热度统计基线;
步骤S103:微博事件数据抽取,抽取指定时间范围内满足关键词约束的微博数据后,分别统计各级行政单位中的微博数量;
步骤S104:计算微博事件的绝对地域热度;
步骤S105:计算微博事件的相对地域热度;
步骤S106:计算地域热度指数。
进一步的,所述步骤S102中地域热度统计基线为各个地域用户发博数的占比,计算公式如下:
p p i = n p i Σ i = 1 i = k n p i , p c i = n c i Σ i = 1 i = n n c i ;
其中,ppi、pci分别表示各省、市的地域统计基线,npi、nci分别表示统计时间窗内各省、市的发博数。
更进一步的,所述步骤S104中微博事件的绝对地域热度为各个地域用户针对某时间的发博数占比,计算公式如下:
p a p i = n a p i n a p , p a c i = n a c i n a c ;
其中,papi、pcpi分别表示指定事件中各省、市的绝对地域热度;nap、nac分别表示各全国和各省的总发博数;napi、naci分别表示各省、市的发博数。
更进一步的,所述步骤S105中微博事件的相对地域热度为事件的绝对地域热度相对于地域热度统计基线的变化率,计算公式如下:
r p i = p p i - p a p i p a p i , r c i = p c i - p a c i p a c i ;
其中,rpi、rci分别表示各省、市的地域相对热度。
更进一步的,所述步骤S106中地域热度指数具体计算公式如下:
θ p i = α · r p i m a x ( S e t ( r p ) ) - m i n ( S e t ( r p ) ) + δ + β · p p i ,
θ c i = α · r c i m a x ( S e t ( r c ) ) - m i n ( S e t ( r c ) ) + δ + β · p c i ;
其中,θpi、θci分别表示指定事件中各省、市的地域热度指数;α、β分别取值0.8、0.2。
进一步的,所述步骤S103中关键词的组织方式满足apache lucence语法。
采用上述方法后,本发明利用更科学的方法定义了微博事件的地域热度。相比传统的基于频数的热度值,新的热度值消除了微博平台的在各个地域的普及程度、不同地域微博用户活跃程度等因素的影响,在表征微博事件的地域特性方面获得了更好的效果。
附图说明
下面将结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种微博事件地域热度指数的分析方法的流程图。
具体实施方式
如图1所示,本发明的一种微博事件地域热度指数的分析方法,包括以下步骤,
步骤S101:微博数据预处理,抽取历史数据中含地域字段的微博数据,分别统计各级行政单位中的微博数量。本实施方式中,抽取近一年历史数据中包含地域字段的微博数据,分别统计省、市二级行政单位中的微博数量。
步骤S102:计算微博事件地域热度统计基线;在一个较长的时间范围内,将各个地域用户发博数的占比称为地域热度统计基线。该指标用于综合表征微博平台在各个地域的普及程度及用户活跃度。计算方式为:
p p i = n p i Σ i = 1 i = k n p i - - - ( 1 )
p c i = n c i Σ i = 1 i = n n c i - - - ( 2 )
其中,ppi、pci分别表示各省、市的地域统计基线,npi、nci分别表示统计时间窗内各省、市的发博数。统计的时间范围越短,偶然事件对基线的影响就越大;统计时间范围越长,平台活跃度的时间特性就越无法体现。本实施方式中,统计时长为1年。
步骤S103:微博事件数据抽取,抽取指定时间范围内满足关键词约束的微博数据后,分别统计各级行政单位中的微博数量。其中,关键词的组织方式满足apache lucence语法。抽取出指定时间范围内满足关键词约束的微博数据后,分别统计省、市二级行政单位中的微博数量。
步骤S104:计算微博事件的绝对地域热度;各个地域用户针对某事件的发博数占比,称为该事件的绝对地域热度。绝对地域热度的计算方式如下:
p a p i = n a p i n a p - - - ( 3 )
p a c i = n a c i n a c - - - ( 4 )
其中,papi、pcpi分别表示指定事件中各省、市的绝对地域热度:nap、nac分别表示各全国和各省的总发博数;napi、naci分别表示各省、市的发博数。
步骤S105:计算微博事件的相对地域热度;事件的绝对热度相对于地域热度统计基线的变化率,称为该事件的相对地域热度。相对地域热度的计算方法为:
r p i = p p i - p a p i p a p i - - - ( 5 )
r c i = p c i - p a c i p a c i - - - ( 6 )
其中,rpi、rci分别表示各省、市的地域相对热度。
步骤S106:计算地域热度指数。地域热度指数是考虑了微博平台的在各个地域的普及程度、不同地域微博用户的活跃程度以及绝对发博数量等因素而获得的综合计算结果。
θ p i = α · r p i m a x ( S e t ( r p ) ) - m i n ( S e t ( r p ) ) + δ + β · p p i - - - ( 7 )
θ c i = α · r c i m a x ( S e t ( r c ) ) - m i n ( S e t ( r c ) ) + δ + β · p c i - - - ( 8 )
其中,θpi、θci分别表示指定事件中各省、市的地域热度指数;α、β是经验值,分别取值0.8、0.2。
虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。

Claims (6)

1.一种微博事件地域热度指数的分析方法,其特征在于,包括以下步骤,
步骤S101:微博数据预处理,抽取历史数据中含地域字段的微博数据,分别统计各级行政单位中的微博数量;
步骤S102:计算微博事件地域热度统计基线;
步骤S103:微博事件数据抽取,抽取指定时间范围内满足关键词约束的微博数据后,分别统计各级行政单位中的微博数量;
步骤S104:计算微博事件的绝对地域热度;
步骤S105:计算微博事件的相对地域热度;
步骤S106:计算地域热度指数。
2.按照权利要求1所述的一种微博事件地域热度指数的分析方法,其特征在于,所述步骤S102中地域热度统计基线为各个地域用户发博数的占比,计算公式如下:
p p i = n p i Σ i = 1 i = k n p i , p c i = n c i Σ i = 1 i = n n c i ;
其中,ppi、pci分别表示各省、市的地域统计基线,npi、nci分别表示统计时间窗内各省、市的发博数。
3.按照权利要求2所述的一种微博事件地域热度指数的分析方法,其特征在于,所述步骤S104中微博事件的绝对地域热度为各个地域用户针对某时间的发博数占比,计算公式如下:
p a p i = n a p i n a p , p a c i = n a c i n a c ;
其中,papi、pcpi分别表示指定事件中各省、市的绝对地域热度;nap、nac分别表示各全国和各省的总发博数;napi、naci分别表示各省、市的发博数。
4.按照权利要求3所述的一种微博事件地域热度指数的分析方法,其特征在于,所述步骤S105中微博事件的相对地域热度为事件的绝对地域热度相对于地域热度统计基线的变化率,计算公式如下:
r p i = p p i - p a p i p a p i , r c i = p c i - p a c i p a c i ;
其中,rpi、rci分别表示各省、市的地域相对热度。
5.按照权利要求4所述的一种微博事件地域热度指数的分析方法,其特征在于,所述步骤S106中地域热度指数具体计算公式如下:
θ p i = α · r p i m a x ( S e t ( r p ) ) - m i n ( S e t ( r p ) ) + δ + β · p p i ,
θ c i = α · r c i m a x ( S e t ( r c ) ) - m i n ( S e t ( r c ) ) + δ + β · p c i ;
其中,θpi、θci分别表示指定事件中各省、市的地域热度指数;α、β分别取值0.8、0.2。
6.按照权利要求1所述的一种微博事件地域热度指数的分析方法,其特征在于:所述步骤S103中关键词的组织方式满足apache lucence语法。
CN201610277710.8A 2016-04-27 2016-04-27 一种微博事件地域热度指数的分析方法 Pending CN106021278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610277710.8A CN106021278A (zh) 2016-04-27 2016-04-27 一种微博事件地域热度指数的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610277710.8A CN106021278A (zh) 2016-04-27 2016-04-27 一种微博事件地域热度指数的分析方法

Publications (1)

Publication Number Publication Date
CN106021278A true CN106021278A (zh) 2016-10-12

Family

ID=57081529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610277710.8A Pending CN106021278A (zh) 2016-04-27 2016-04-27 一种微博事件地域热度指数的分析方法

Country Status (1)

Country Link
CN (1) CN106021278A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193974A (zh) * 2017-05-25 2017-09-22 北京百度网讯科技有限公司 基于人工智能的地域性信息确定方法和装置
CN113609424A (zh) * 2021-06-22 2021-11-05 深圳市网联安瑞网络科技有限公司 一种针对网络舆情热度的计算与预警系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714132A (zh) * 2013-12-17 2014-04-09 北京本果信息技术有限公司 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104731857A (zh) * 2015-01-27 2015-06-24 南京烽火星空通信发展有限公司 一种舆情热度的快速计算方法
US20150207704A1 (en) * 2012-06-26 2015-07-23 Beijing Qihoo Technology Company Limited Public opinion information display system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150207704A1 (en) * 2012-06-26 2015-07-23 Beijing Qihoo Technology Company Limited Public opinion information display system and method
CN103714132A (zh) * 2013-12-17 2014-04-09 北京本果信息技术有限公司 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104731857A (zh) * 2015-01-27 2015-06-24 南京烽火星空通信发展有限公司 一种舆情热度的快速计算方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193974A (zh) * 2017-05-25 2017-09-22 北京百度网讯科技有限公司 基于人工智能的地域性信息确定方法和装置
CN107193974B (zh) * 2017-05-25 2020-11-10 北京百度网讯科技有限公司 基于人工智能的地域性信息确定方法和装置
US11475055B2 (en) 2017-05-25 2022-10-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for determining regional information
CN113609424A (zh) * 2021-06-22 2021-11-05 深圳市网联安瑞网络科技有限公司 一种针对网络舆情热度的计算与预警系统及方法

Similar Documents

Publication Publication Date Title
CN105260474B (zh) 一种基于信息交互网络的微博用户影响力计算方法
Yan et al. Weighted citation: An indicator of an article's prestige
CN103885971B (zh) 数据推送的方法及装置
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN106294334A (zh) 一种微博舆情指标体系的计算方法及装置
Taghvaee et al. Economic growth and energy consumption in Iran: an ARDL approach including renewable and non-renewable energies
CN105512247A (zh) 基于一致性特征的非交互式差分隐私发布模型的优化方法
CN106991160A (zh) 一种基于用户影响力以及内容的微博传播预测方法
CN109978020A (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN103095849B (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN103761246B (zh) 一种基于链接网络的用户领域识别方法及其装置
CN106021278A (zh) 一种微博事件地域热度指数的分析方法
Drake et al. Trends and cycles in Euro area real GDP
Zhang et al. Social sensing system for water conservation project: a case study of the South-to-North Water Transfer Project in China
Wu et al. Wisdom of crowds: SWOT analysis based on hybrid text mining methods using online reviews
Bruce et al. The Uncertainty and Sensitivity of Long-Term Urban Water Demand Forecasts: how wrong can you be?
Shang et al. Passengers flow forecasting model of urban rail transit based on the macro-factors
Cantoni i Gomez et al. Climate variability and groundwater recharge in Irish fractured aquifers: Insights from a combined wavelet analysis and NARX neural network forecast
Si et al. Research on the Relationship Between Brand Cultural Identity and Customer Stickiness Based on SPSS22. 0 Software and AMOS21. 0 Software
Singer et al. Climatic signatures within the world's rivers
Igwe et al. STATISTICAL EVIDENCE VS THEORETICAL POSTULATION OF THE RELATIVE IMPORTANCE OF LAND VALUE VARIABLES VIS-À-VIS BUILDING VALUE VARIABLES IN THE PROPERTY VALUATION MODEL
Gopalakrishnan et al. Super-resolution analysis: reducing computational cost of high fidelity simulation of flashing flows
Lin et al. Temporal scale features of medium and long-range hydrologic forecasting
Hanasaki et al. An investigation of the thresholds for two conventional water scarcity indicators using a global hydrological model with human activities
Ji et al. A hybrid approach for event social influence visualization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication