CN104133834A - 指定地域微博数据收集与处理方法 - Google Patents

指定地域微博数据收集与处理方法 Download PDF

Info

Publication number
CN104133834A
CN104133834A CN201410254030.5A CN201410254030A CN104133834A CN 104133834 A CN104133834 A CN 104133834A CN 201410254030 A CN201410254030 A CN 201410254030A CN 104133834 A CN104133834 A CN 104133834A
Authority
CN
China
Prior art keywords
seed points
geo
microblogging
circular areas
border circular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410254030.5A
Other languages
English (en)
Other versions
CN104133834B (zh
Inventor
任福继
刘宁
全昌勤
华磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201410254030.5A priority Critical patent/CN104133834B/zh
Publication of CN104133834A publication Critical patent/CN104133834A/zh
Application granted granted Critical
Publication of CN104133834B publication Critical patent/CN104133834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Instructional Devices (AREA)

Abstract

本发明公开了一种指定地域微博数据收集与处理方法,首先进行GEO地理信息种子点选取,然后获取微博数据,最后对微博数据处理。本发明采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,能够满足指定地域下微博数据收集与处理的要求。

Description

指定地域微博数据收集与处理方法
技术领域
本发明涉及微博数据处理方法领域,具体是一种指定地域微博数据收集与处理方法。
背景技术
随着微博的兴起,这种包含了大量微观点并带有情感倾向的短文本迅速富集,微博文本分析成为热门研究方向。
在微博数据搜集过程中,大量的微博数据搜集策略通常采用爬虫抓取方法,该方法抓取速度快、效率高,但是抓取的数据噪音大,虽然减少了数据搜集的时间,但是却成倍的增加了获得精确数据的预处理时间;且爬虫不稳定,常常面临被新浪封禁的危险。少量微博数据一般采用新浪微博第三方API进行调用搜集,该方法搜集的数据噪音少、区域明显,但是包含了大量的推送广告,又额外增加了无用数据比例。
无论是爬虫方法还是传统的新浪第三方API调用,都无法大量获得指定域下的微博数据,特别是指定地域下微博数据的处理,爬虫方法和新浪第三方API调用皆无法适用。
发明内容
本发明的目的是提供一种指定地域微博数据收集与处理方法,以解决现有技术爬虫方法或第三方API调用无法大量获取指定地域下微博数据的问题。
为了达到上述目的,本发明所采用的技术方案为:
指定地域微博数据收集与处理方法,其特征在于:包括以下步骤:
(1)、GEO地理信息种子点选取:
设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:
f = N &prime; , N &prime; < N N , N &le; N &prime; - - - ( 1 )
公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;
根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;
(2)、微博数据获取;
根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为DGEO
(3)、微博数据处理:
将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为Dcont
本发明改进了新浪第三方API,采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,以弥补微博接口获得数据精确度的不足,能够满足指定地域下微博数据收集与处理的要求。
具体实施方式
指定地域微博数据收集与处理方法,地域为存在微博使用者发布微博的区域,地域边界以行政边界划分;地域微博为出现在指定地域内的微博用户所发送的所有微博。包括以下步骤:
(1)、GEO地理信息种子点选取:
设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:
f = N &prime; , N &prime; < N N , N &le; N &prime; - - - ( 1 )
公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;
根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;
(2)、微博数据获取;
根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为DGEO
(3)、微博数据处理:
将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为Dcont

Claims (1)

1.指定地域微博数据收集与处理方法,其特征在于:包括以下步骤:
(1)、GEO地理信息种子点选取:
设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:
f = N &prime; , N &prime; < N N , N &le; N &prime; - - - ( 1 )
公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;
根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;
(2)、微博数据获取;
根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为DGEO
(3)、微博数据处理:
将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为Dcont
CN201410254030.5A 2014-06-09 2014-06-09 指定地域微博数据收集与处理方法 Active CN104133834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410254030.5A CN104133834B (zh) 2014-06-09 2014-06-09 指定地域微博数据收集与处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410254030.5A CN104133834B (zh) 2014-06-09 2014-06-09 指定地域微博数据收集与处理方法

Publications (2)

Publication Number Publication Date
CN104133834A true CN104133834A (zh) 2014-11-05
CN104133834B CN104133834B (zh) 2018-05-04

Family

ID=51806512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410254030.5A Active CN104133834B (zh) 2014-06-09 2014-06-09 指定地域微博数据收集与处理方法

Country Status (1)

Country Link
CN (1) CN104133834B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933898A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 网页信息的处理方法和装置
CN113190648A (zh) * 2021-04-16 2021-07-30 湖州师范学院 基于上下文语义的微博短文本的情感分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291435A (zh) * 2011-07-15 2011-12-21 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN103092950A (zh) * 2013-01-15 2013-05-08 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法
US20130238658A1 (en) * 2012-03-07 2013-09-12 Snap Trends, Inc. Methods and Systems of Aggregating Information of Social Networks Based on Changing Geographical Locations of a Computing Device Via a Network
CN103546447A (zh) * 2012-07-17 2014-01-29 腾讯科技(深圳)有限公司 信息展示方法和系统、客户端、服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291435A (zh) * 2011-07-15 2011-12-21 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
US20130238658A1 (en) * 2012-03-07 2013-09-12 Snap Trends, Inc. Methods and Systems of Aggregating Information of Social Networks Based on Changing Geographical Locations of a Computing Device Via a Network
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN103546447A (zh) * 2012-07-17 2014-01-29 腾讯科技(深圳)有限公司 信息展示方法和系统、客户端、服务器
CN103092950A (zh) * 2013-01-15 2013-05-08 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933898A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 网页信息的处理方法和装置
CN106933898B (zh) * 2015-12-31 2020-08-11 北京国双科技有限公司 网页信息的处理方法和装置
CN113190648A (zh) * 2021-04-16 2021-07-30 湖州师范学院 基于上下文语义的微博短文本的情感分析方法

Also Published As

Publication number Publication date
CN104133834B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN105243128B (zh) 一种基于签到数据的用户行为轨迹聚类方法
CN102097004B (zh) 一种基于手机定位数据的出行od矩阵获取方法
CN102577446B (zh) 用于基于小区广播信息、使用连接性曲线图来提供基于位置的服务的方法和设备
Alemany et al. Influence of physical environmental factors on the composition and horizontal distribution of summer larval fish assemblages off Mallorca island (Balearic archipelago, western Mediterranean)
Yuan et al. Impact of sea-level rise on saltwater intrusion in the Pearl River Estuary
CN103929751B (zh) 一种确定不同网络中覆盖共同区域的小区对的方法及装置
CN102752336A (zh) 基于地理位置服务的ugc的共享方法及系统
CN106487828B (zh) 新闻推送方法及装置
Guido et al. Big data for public transportation: A DSS framework
CN105989024A (zh) 确定用户所在的位置区域的方法和装置
CN104661179B (zh) 定位数据共享方法及系统
Janzen et al. Estimating long-distance travel demand with mobile phone billing data
Jomelli et al. Glacier extent in sub-Antarctic Kerguelen archipelago from MIS 3 period: Evidence from 36Cl dating
CN104133834A (zh) 指定地域微博数据收集与处理方法
CN106991804B (zh) 一种基于多线路耦合的城市公交工况构建方法
CN104281646B (zh) 基于微博数据的城市内涝检测方法
Moise et al. Tracking language mobility in the Twitter landscape
CN104504245A (zh) 一种应用gps出行调查数据识别出行和活动的方法
Jackson et al. Adaptation and implementation of a system for collecting and analyzing cyclist route data using smartphones
CN106649683A (zh) 一种图书推荐方法及装置
Buckley et al. Ready or not, big data is coming to a city (transportation agency) near you
Nye Jr Immigration and American power
CN107889053B (zh) 一种基于网络环境预测的视频预加载方法
Reimão Silva et al. Carrying capacity analysis of Praia do forte beach, Brazil
Lee et al. Establishment of a Process for Collecting Video Scripts on a Disaster Site based on Public-private Partnerships: Focus on 2019 Practical Activities during Typhoon in the Korean Peninsula

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant