CN104133834A - 指定地域微博数据收集与处理方法 - Google Patents
指定地域微博数据收集与处理方法 Download PDFInfo
- Publication number
- CN104133834A CN104133834A CN201410254030.5A CN201410254030A CN104133834A CN 104133834 A CN104133834 A CN 104133834A CN 201410254030 A CN201410254030 A CN 201410254030A CN 104133834 A CN104133834 A CN 104133834A
- Authority
- CN
- China
- Prior art keywords
- seed points
- geo
- microblogging
- circular areas
- border circular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Instructional Devices (AREA)
Abstract
本发明公开了一种指定地域微博数据收集与处理方法,首先进行GEO地理信息种子点选取,然后获取微博数据,最后对微博数据处理。本发明采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,能够满足指定地域下微博数据收集与处理的要求。
Description
技术领域
本发明涉及微博数据处理方法领域,具体是一种指定地域微博数据收集与处理方法。
背景技术
随着微博的兴起,这种包含了大量微观点并带有情感倾向的短文本迅速富集,微博文本分析成为热门研究方向。
在微博数据搜集过程中,大量的微博数据搜集策略通常采用爬虫抓取方法,该方法抓取速度快、效率高,但是抓取的数据噪音大,虽然减少了数据搜集的时间,但是却成倍的增加了获得精确数据的预处理时间;且爬虫不稳定,常常面临被新浪封禁的危险。少量微博数据一般采用新浪微博第三方API进行调用搜集,该方法搜集的数据噪音少、区域明显,但是包含了大量的推送广告,又额外增加了无用数据比例。
无论是爬虫方法还是传统的新浪第三方API调用,都无法大量获得指定域下的微博数据,特别是指定地域下微博数据的处理,爬虫方法和新浪第三方API调用皆无法适用。
发明内容
本发明的目的是提供一种指定地域微博数据收集与处理方法,以解决现有技术爬虫方法或第三方API调用无法大量获取指定地域下微博数据的问题。
为了达到上述目的,本发明所采用的技术方案为:
指定地域微博数据收集与处理方法,其特征在于:包括以下步骤:
(1)、GEO地理信息种子点选取:
设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:
公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;
根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;
(2)、微博数据获取;
根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为DGEO;
(3)、微博数据处理:
将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为Dcont。
本发明改进了新浪第三方API,采用并行多用户调用方式增加数据搜集流量;采用多信息点覆盖搜集微博数据,以弥补微博接口获得数据精确度的不足,能够满足指定地域下微博数据收集与处理的要求。
具体实施方式
指定地域微博数据收集与处理方法,地域为存在微博使用者发布微博的区域,地域边界以行政边界划分;地域微博为出现在指定地域内的微博用户所发送的所有微博。包括以下步骤:
(1)、GEO地理信息种子点选取:
设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:
公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;
根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;
(2)、微博数据获取;
根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为DGEO;
(3)、微博数据处理:
将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为Dcont。
Claims (1)
1.指定地域微博数据收集与处理方法,其特征在于:包括以下步骤:
(1)、GEO地理信息种子点选取:
设目标种子点数量为N,对指定城市区域使用矩形切割,确定城市边缘;做矩形区域对角线,以地图比例尺长度10公里间距做平行线,分割矩形区域;在各条分割平行线上,以地图比例尺长度5公里为半径做圆形区域依次覆盖矩形区域,各圆形区域不重叠;分隔线上不足5公里的区域按实际情况采用合适圆形区域覆盖;对于各圆形区域结合处,以比例尺半径为R公里的圆形区域覆盖该区域,R≤5,要求做到重叠区域不超过3%;覆盖指定地域的各圆形区域的圆心即为候选GEO地理信息种子点,候选GEO地理信息种子点总数量记为N',根据公式(1)确定最后种子点数量:
公式(1)中,f表示种子点数量,当候选GEO地理信息种子点数量N'小于目标种子点数量N时,取候选GEO地理信息种子点作为最终种子点;当候选GEO地理信息种子点数量N'大于目标种子点数量N时,调整候选GEO地理信息种子点圆形区域的位置及半径大小,使覆盖矩形区域的圆形区域数量为N以内的整数,此时选择调整后的圆形区域的为最终种子点区域;
根据上述获得的最终种子点,即f所代表的种子点,定位地图信息,导出经纬度数据,即可得到种子点的GEO地理信息;
(2)、微博数据获取;
根据步骤(1)获取的种子点GEO地理信息数据,调用微博第三方API接口,获取指定区域内的微博数据;微博数据包括微博创建时间、微博信息内容、地理信息字段;获取的微博数据通过UTF-8格式的TXT文本文件保存在本地,记为DGEO;
(3)、微博数据处理:
将步骤(2)中获取的微博文本文件DGEO按照微博创建时间及对应的地理信息成对提取出来,并以UTF_8格式的文本文件保存在本地,记为Dt×geo;从微博文本文件DGEO中提取出微博信息内容,并本地以UTF-8格式的文本保存,记为Dcont。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410254030.5A CN104133834B (zh) | 2014-06-09 | 2014-06-09 | 指定地域微博数据收集与处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410254030.5A CN104133834B (zh) | 2014-06-09 | 2014-06-09 | 指定地域微博数据收集与处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104133834A true CN104133834A (zh) | 2014-11-05 |
CN104133834B CN104133834B (zh) | 2018-05-04 |
Family
ID=51806512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410254030.5A Active CN104133834B (zh) | 2014-06-09 | 2014-06-09 | 指定地域微博数据收集与处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104133834B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933898A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 网页信息的处理方法和装置 |
CN113190648A (zh) * | 2021-04-16 | 2021-07-30 | 湖州师范学院 | 基于上下文语义的微博短文本的情感分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291435A (zh) * | 2011-07-15 | 2011-12-21 | 武汉大学 | 一种基于地理时空数据的移动信息搜索及知识发现系统 |
CN102622443A (zh) * | 2012-03-13 | 2012-08-01 | 北京邮电大学 | 一种面向微博的定制化筛选系统及方法 |
CN103092950A (zh) * | 2013-01-15 | 2013-05-08 | 重庆邮电大学 | 一种网络舆情地理位置实时监控系统和方法 |
US20130238658A1 (en) * | 2012-03-07 | 2013-09-12 | Snap Trends, Inc. | Methods and Systems of Aggregating Information of Social Networks Based on Changing Geographical Locations of a Computing Device Via a Network |
CN103546447A (zh) * | 2012-07-17 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 信息展示方法和系统、客户端、服务器 |
-
2014
- 2014-06-09 CN CN201410254030.5A patent/CN104133834B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291435A (zh) * | 2011-07-15 | 2011-12-21 | 武汉大学 | 一种基于地理时空数据的移动信息搜索及知识发现系统 |
US20130238658A1 (en) * | 2012-03-07 | 2013-09-12 | Snap Trends, Inc. | Methods and Systems of Aggregating Information of Social Networks Based on Changing Geographical Locations of a Computing Device Via a Network |
CN102622443A (zh) * | 2012-03-13 | 2012-08-01 | 北京邮电大学 | 一种面向微博的定制化筛选系统及方法 |
CN103546447A (zh) * | 2012-07-17 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 信息展示方法和系统、客户端、服务器 |
CN103092950A (zh) * | 2013-01-15 | 2013-05-08 | 重庆邮电大学 | 一种网络舆情地理位置实时监控系统和方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933898A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 网页信息的处理方法和装置 |
CN106933898B (zh) * | 2015-12-31 | 2020-08-11 | 北京国双科技有限公司 | 网页信息的处理方法和装置 |
CN113190648A (zh) * | 2021-04-16 | 2021-07-30 | 湖州师范学院 | 基于上下文语义的微博短文本的情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104133834B (zh) | 2018-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243128B (zh) | 一种基于签到数据的用户行为轨迹聚类方法 | |
CN102097004B (zh) | 一种基于手机定位数据的出行od矩阵获取方法 | |
CN102577446B (zh) | 用于基于小区广播信息、使用连接性曲线图来提供基于位置的服务的方法和设备 | |
Alemany et al. | Influence of physical environmental factors on the composition and horizontal distribution of summer larval fish assemblages off Mallorca island (Balearic archipelago, western Mediterranean) | |
Yuan et al. | Impact of sea-level rise on saltwater intrusion in the Pearl River Estuary | |
CN103929751B (zh) | 一种确定不同网络中覆盖共同区域的小区对的方法及装置 | |
CN102752336A (zh) | 基于地理位置服务的ugc的共享方法及系统 | |
CN106487828B (zh) | 新闻推送方法及装置 | |
Guido et al. | Big data for public transportation: A DSS framework | |
CN105989024A (zh) | 确定用户所在的位置区域的方法和装置 | |
CN104661179B (zh) | 定位数据共享方法及系统 | |
Janzen et al. | Estimating long-distance travel demand with mobile phone billing data | |
Jomelli et al. | Glacier extent in sub-Antarctic Kerguelen archipelago from MIS 3 period: Evidence from 36Cl dating | |
CN104133834A (zh) | 指定地域微博数据收集与处理方法 | |
CN106991804B (zh) | 一种基于多线路耦合的城市公交工况构建方法 | |
CN104281646B (zh) | 基于微博数据的城市内涝检测方法 | |
Moise et al. | Tracking language mobility in the Twitter landscape | |
CN104504245A (zh) | 一种应用gps出行调查数据识别出行和活动的方法 | |
Jackson et al. | Adaptation and implementation of a system for collecting and analyzing cyclist route data using smartphones | |
CN106649683A (zh) | 一种图书推荐方法及装置 | |
Buckley et al. | Ready or not, big data is coming to a city (transportation agency) near you | |
Nye Jr | Immigration and American power | |
CN107889053B (zh) | 一种基于网络环境预测的视频预加载方法 | |
Reimão Silva et al. | Carrying capacity analysis of Praia do forte beach, Brazil | |
Lee et al. | Establishment of a Process for Collecting Video Scripts on a Disaster Site based on Public-private Partnerships: Focus on 2019 Practical Activities during Typhoon in the Korean Peninsula |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |