CN107480222B - 基于微博数据的城市群空间联系强度测度系统 - Google Patents

基于微博数据的城市群空间联系强度测度系统 Download PDF

Info

Publication number
CN107480222B
CN107480222B CN201710652470.XA CN201710652470A CN107480222B CN 107480222 B CN107480222 B CN 107480222B CN 201710652470 A CN201710652470 A CN 201710652470A CN 107480222 B CN107480222 B CN 107480222B
Authority
CN
China
Prior art keywords
user
intensity
data
calculating
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710652470.XA
Other languages
English (en)
Other versions
CN107480222A (zh
Inventor
方创琳
于晓华
杨俊宴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Geographic Sciences and Natural Resources of CAS filed Critical Institute of Geographic Sciences and Natural Resources of CAS
Priority to CN201710652470.XA priority Critical patent/CN107480222B/zh
Publication of CN107480222A publication Critical patent/CN107480222A/zh
Application granted granted Critical
Publication of CN107480222B publication Critical patent/CN107480222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于微博数据的城市群空间联系强度测度系统。该系统包括:用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块和城市群空间联系强度子系统模块。通过本发明,从微博数据中提取用于测算用户关系强度、用户关注度和用户足迹特征联系强度的基础数据,并计算空间联系强度,解决了相关技术中城市群空间联系强度测度系统需要耗费大量的精力统计或搜集基础数据,并且基础数据的时效性滞后的问题,提高了城市群空间联系强度测度的时效性和效率,降低了成本。

Description

基于微博数据的城市群空间联系强度测度系统
技术领域
本发明涉及数据处理领域,具体而言,涉及一种基于微博数据的城市群空间联系强度测度系统。
背景技术
申请号为“201610188931.8”的中国专利申请中公开了“一种基于区域城际流强度测算模型的划定大都市圈的方法”,该方法提出了采用经济流、客运流、货运流、技术流、信息流五个分项来测定各组关联城市的分项区域城际流强度,进而划定大都市圈。
传统的城市群空间联系强度测度采用的基础数据非常依赖前期的统计工作,需要耗费大量的精力统计或搜集基础数据,并且基础数据的时效性滞后。
“新浪微博”是一种网络社区,拥有网页、移动客户端等多种登录方式。目前,微博用户之间主要存在以下几种“交流”方式:“关注”与“粉丝”、“原创”与“转发”、“评论”与“点赞”、“热点搜索”等。用户可以任意添加不同国家与地区的另一用户为好友,可以将个人的见解和观点发布给自己的粉丝,可以转发分享他人的微博内容,也可以发布图片、分享音乐与视频以及进行“签到”等。
微博中的每一位用户在资料填写时会带有地理位置的属性信息,利用该属性信息,本研究根据用户标签、用户学校、用户公司等信息,按照活跃度筛选出相应用户。将用户所在的“城市”抽象成一个节点,作为“网络社会空间”的“节点”;将社交网络中相互关注的好友联系、原创及转发微博中,城市间的关注联系、城市间热点事件的关注联系以及城市间用户的签到联系等,抽象成节点之间的联系,即图论中的“边”。至此,可以将城市间的空间联系理解为网络虚拟空间里社会关系网络节点城市间的社交联系,分析这种网络社交联系并投射到现实地理空间中以形成一种比较。
目前相关技术中尚未提出基于微博数据的城市群空间联系强度测度方法。
发明内容
本发明提供了一种基于微博数据的城市群空间联系强度测度系统和存储介质,以至少解决相关技术中城市群空间联系强度测度系统需要耗费大量的精力统计或搜集基础数据,并且基础数据的时效性滞后的问题。
根据本发明的一个方面,提供了一种基于微博数据的城市群空间联系强度测度系统,包括:用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块和城市群空间联系强度子系统模块。其中,用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块分别与城市群空间联系强度子系统模块连接;用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块分别从存储有微博数据的数据表格中获取基础数据。
可选地,所述系统还包括:微博数据爬取子系统模块,用于根据预设条件爬取微博数据,并将所述微博数据保存在数据表格中。
可选地,所述用户关系子系统模块包括:用户关系基础数据单元、用户关系强度综合测算单元和用户关系强度综合分析单元;其中,
所述用户关系基础数据单元,用于从数据表格中导入并管理参与用户关系强度综合测算的基础数据;
所述用户关系强度综合测算单元,用于根据参与用户关系强度综合测算的基础数据测算城市群内部城市间的用户关系强度;
所述用户关系强度综合分析单元,用于分析用户关系强度,并输出相应的分析图表。
可选地,所述参与用户关系强度综合测算的基础数据包括:关注数据、粉丝数据、好友数据。
可选地,所述用户关注度子系统模块包括:用户关注度基础数据单元、用户关注度综合测算单元和用户关注度综合分析单元;其中,
所述用户关注度基础数据单元,用于从数据表格中导入并管理参与用户关注度综合测算的基础数据;
所述用户关注度综合测算单元,用于根据参与用户关注度综合测算的基础数据测算城市群内部城市间的用户关注度;
所述用户关注度综合分析单元,用于分析用户关注度,并输出相应的分析图表。
可选地,所述参与用户关注度综合测算的基础数据包括:转发数据、原创数据、关键词搜索数据、热点事件关注数据。
可选地,所述用户足迹特征子系统模块包括:用户足迹特征基础数据单元、用户足迹特征联系强度综合测算单元和用户足迹特征联系强度综合分析单元;其中,
所述用户足迹特征基础数据单元,用于从数据表格中导入并管理参与用户足迹特征联系强度综合测算的基础数据;
所述用户足迹特征联系强度综合测算单元,用于根据参与用户足迹特征联系强度综合测算的基础数据测算城市群内部城市间的用户足迹特征联系强度;
所述用户足迹特征联系强度综合分析单元,用于分析用户足迹特征联系强度,并输出相应的分析图表。
可选地,所述参与用户足迹特征联系强度综合测算的基础数据包括:用户活动联系数据、热门地点联系数据。
可选地,所述城市群空间联系强度子系统模块包括:城市群空间联系强度综合测算单元、城市群空间联系强度综合分析单元;其中,
所述城市群空间联系强度综合测算单元,用于根据城市群内部城市间的用户关系强度、用户关注度和用户足迹特征联系强度测算城市群内部城市间的空间联系强度;
所述城市群空间联系强度综合分析单元,用于分析空间联系强度,并输出相应的分析图表。
根据本发明的另一个方面,还提供了一种存储介质,位于设备中,所述存储介质中存储有用于控制所述设备的程序代码,所述程序代码包括:上述的用户关系子系统模块、上述的用户关注度子系统模块、上述的用户足迹特征子系统模块和上述的城市群空间联系强度子系统模块;或者用于实现上述的用户关系子系统模块、上述的用户关注度子系统模块、上述的用户足迹特征子系统模块和上述的城市群空间联系强度子系统模块的功能。
通过本发明,从微博数据中提取用于测算用户关系强度、用户关注度和用户足迹特征联系强度的基础数据,并计算空间联系强度。相对于相关技术中采用的测度方式而言,微博数据易于获取且具有更高的时效性,解决了相关技术中城市群空间联系强度测度系统需要耗费大量的精力统计或搜集基础数据,并且基础数据的时效性滞后的问题,提高了城市群空间联系强度测度的时效性和效率,降低了成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的基于微博数据的城市群空间联系强度测度系统的结构框图。
图2是根据本发明优选实施例的基于微博数据的城市群空间联系强度的指标模型的示意图;
图3是《2016年微博用户发展报告》微博用户年龄结构比例图;
图4是根据本发明优选实施例的用户关系强度综合测算表格的示意图;
图5是根据本发明优选实施例的北京市用户关注度综合测算柱状图的示意图;
图6是根据本发明优选实施例的指标的连接度折线图的示意图;
图7是根据本发明优选实施例的京津冀城市群城市的空间联系度的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本实施例提供了一种基于微博数据的城市群空间联系强度测度系统。图1是根据本发明实施例的基于微博数据的城市群空间联系强度测度系统的结构框图。如图1所示,该系统包括:用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块和城市群空间联系强度子系统模块。其中,用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块分别与城市群空间联系强度子系统模块连接;用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块分别从存储有微博数据的数据表格中获取基础数据。
可选地,系统还包括:微博数据爬取子系统模块,用于根据预设条件爬取微博数据,并将微博数据保存在数据表格中。
可选地,用户关系子系统模块包括:用户关系基础数据单元、用户关系强度综合测算单元和用户关系强度综合分析单元;其中,用户关系基础数据单元,用于从数据表格中导入并管理参与用户关系强度综合测算的基础数据;用户关系强度综合测算单元,用于根据参与用户关系强度综合测算的基础数据测算城市群内部城市间的用户关系强度;用户关系强度综合分析单元,用于分析用户关系强度,并输出相应的分析图表。
可选地,参与用户关系强度综合测算的基础数据包括:关注数据、粉丝数据、好友数据。
可选地,用户关注度子系统模块包括:用户关注度基础数据单元、用户关注度综合测算单元和用户关注度综合分析单元;其中,用户关注度基础数据单元,用于从数据表格中导入并管理参与用户关注度综合测算的基础数据;用户关注度综合测算单元,用于根据参与用户关注度综合测算的基础数据测算城市群内部城市间的用户关注度;用户关注度综合分析单元,用于分析用户关注度,并输出相应的分析图表。
可选地,参与用户关注度综合测算的基础数据包括:转发数据、原创数据、关键词搜索数据、热点事件关注数据。
可选地,用户足迹特征子系统模块包括:用户足迹特征基础数据单元、用户足迹特征联系强度综合测算单元和用户足迹特征联系强度综合分析单元;其中,用户足迹特征基础数据单元,用于从数据表格中导入并管理参与用户足迹特征联系强度综合测算的基础数据;用户足迹特征联系强度综合测算单元,用于根据参与用户足迹特征联系强度综合测算的基础数据测算城市群内部城市间的用户足迹特征联系强度;用户足迹特征联系强度综合分析单元,用于分析用户足迹特征联系强度,并输出相应的分析图表。
可选地,参与用户足迹特征联系强度综合测算的基础数据包括:用户活动联系数据、热门地点联系数据。
可选地,城市群空间联系强度子系统模块包括:城市群空间联系强度综合测算单元、城市群空间联系强度综合分析单元;其中,城市群空间联系强度综合测算单元,用于根据城市群内部城市间的用户关系强度、用户关注度和用户足迹特征联系强度测算城市群内部城市间的空间联系强度;城市群空间联系强度综合分析单元,用于分析空间联系强度,并输出相应的分析图表。
本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本实施例还提供了一种存储介质,位于设备中,存储介质中存储有用于控制设备的程序代码,程序代码包括:上述的用户关系子系统模块、上述的用户关注度子系统模块、上述的用户足迹特征子系统模块和上述的城市群空间联系强度子系统模块;或者用于实现上述的用户关系子系统模块、上述的用户关注度子系统模块、上述的用户足迹特征子系统模块和上述的城市群空间联系强度子系统模块的功能。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
下面将通过优选实施例对各模块的功能进行描述和说明。
一、评价指标选取与体系构建
为测度基于微博数据的城市群空间联系强度,本实施例基于新浪微博用户之间的几种交流方式,构建了基于3个准则层9个指标的模型,用以衡量京津冀城市群城市间微博网络社会空间的联系强度。图2是根据本发明优选实施例的基于微博数据的城市群空间联系强度指标模型的示意图,如图2所示,该模型包括:
(1)从京津冀注册的新浪微博用户间的社会关系入手,借助微博用户间的社会网络联系,选取关注流、粉丝流、好友流3个指标,用于展现与分析该城市与其他几个城市在用户关系方面的空间联系;
(2)从城市间用户关注的角度出发,借助微博用户对其它城市及其热点事件的关注,选取原创联系度、转发联系度、关键词搜索度、热点事件关注度4个指标,用于展现与分析该城市与其他几个城市在用户关注方面的空间联系强度;
(3)通过分析注册的微博用户在城市内部及城市间的签到活动,选取用户活动联系度、热门地点联系度2个指标,用于展现城市群内部城市间居民区域活动联系强度。
二、微博数据采集及提取方法
在本实施例中以京津冀城市群为例进行示例性说明。在本实施例中分别以北京市、天津市、河北省的11个地级市为研究基点,按照京津冀城市群所涉及的13个城市为单位,划分研究单元(包括:北京、天津两个直辖市以及河北省的11个地级市,共13个研究单元)。
(1)用户筛选
因基于微博数据的京津冀城市群空间联系强度指标体系中,准则层用户关系联系中的3个指标、用户关注度联系中的2个指标、用户足迹特征的1个指标,均需要通过获取微博注册用户的相关信息才能完成。故而首先通过微博搜索找人功能,根据用户标签、用户学校、用户公司等信息叠加(更能反映本地用户生活、更具代表性),通过简单的爬虫软件,从北京市、天津市、河北省11个地级市的微博注册用户中,按照活跃度分别选择100个用户作为研究样本(共计1300个研究样本,50万组数据)。具体来讲,以北京为例子选择的样本需要满足以下几个条件:
1)用户位于北京;
2)用户标签是"北京”,更具本地特征;同时为了更为精确的筛选到具有代表性的微博用户,可附加相关搜索条件,例如年龄18岁以下用户的学校需含有“北京”字眼,30至39岁用户的公司需含有“北京”字眼;
3)用户为“普通用户”,而非“名人”。相对于“名人”,“普通用户”的一言一行更多的是与其他用户间的信息交流,维护用户间的社会关系。这有利于反映真实的网络社区关系,排除了部分仅仅是为了扩大影响力或追星而并没有实际交往的关系;
4)用户为活跃用户(标签搜索找人功能,本身就是按照一定活跃度进行排序的,所以尽量选择前几页的用户),其粉丝与关注数量均在400位左右,简介内容无商业、明星、宣传等字眼;
如图3所示,根据《2016年微博用户发展报告》中微博用户年龄结构的比例,11至16岁占9%,17至23岁占40%,24至33岁占39%,34至45岁占11%,46岁以上占2%。
通过与新浪微博搜索中的“找人”应用的年龄筛选相匹配,每个城市分别选取13位18岁以下用户,37位19至22岁用户,30位23至29岁用户,15位30至39岁用户,5位40岁以上用户。
之后,通过利用简单的爬虫软件,按照上述年龄结构,分别爬取每一年龄段相应网址前30页用户的关注数、粉丝数、微博数、所在地、主页地址、简介等信息。例如北京18岁以下用户在筛选时,爬取相应网址的用户信息,将结果导入Excel中。
经过筛选确定相应用户后,通过编制爬虫程序分别采集这13个城市选取的100位用户的粉丝、关注详情,并记录其所在地域的地理数据,同时对比粉丝与关注,找出好友并记录地理数据;分别采集这13个城市选取的100位用户的原创微博、转发微博详情,并记录相关微博中“北京”、“故宫”、“长城”等5个热门字眼的出现次数。
(2)相关爬虫设计
由于数据信息量大,通过简单的爬虫软件采集研究样本的粉丝、关注用户的微博身份证(ID),对比找出好友关系的微博用户并记录其地理信数据;采集研究样本的原创、转发微博详情及签到情况,并记录相关微博中“北京”、“故宫”、“长城”等关键字眼出现的情况。爬虫规则设计如下:
1)规则_1样本筛选_北京_18岁以下
标签:北京地区:北京范围:普通用户年龄:18岁以下学校:北京
爬取内容:昵称、所在地、主页地址、关注数、粉丝数、微博数、简介
十八岁以下详情-昵称所在地主页地址
关注数粉丝数微博数(内容映射+定位标志)简介
翻页-记号线索-下一页-线索映射-记号映射
div-线索映射-定位样例复制
注:仅有1级线索,无下级线索,仅返回关注数、粉丝数、微博数、简介等作为筛选依据。
2)规则_2北京_18岁以下_关注粉丝地址/关注详情/粉丝详情
第1级线索北京_18岁以下_关注粉丝地址
爬取内容:昵称、关注地址、粉丝地址
关注粉丝地址详情-昵称(内容映射+定位标志)
关注地址粉丝地址(网址映射+定位标志+下级线索)
翻页-记号线索-下一页-线索映射-记号映射
div-线索映射-定位样例复制
注:仅作为第1级线索,返回相关用户的关注、粉丝地址。
第2级线索北京_18岁以下_关注粉丝地址_关注详情或粉丝详情
爬取内容:关注者昵称、关注者所在地或粉丝昵称、粉丝所在地
十八岁以下关注者详情-关注者昵称关注者所在地(内容映射+定位标志)或
十八岁以下粉丝详情-粉丝昵称粉丝所在地(内容映射+定位标志)
翻页-记号线索-下一页-线索映射-记号映射
div-线索映射-定位样例复制
注:通过第1级线索返回的关注或粉丝地址,获取爬取网址的前5页关注或粉丝详情,包括关注者昵称、关注者所在地或粉丝昵称、粉丝所在地。
3)规则_3北京_18岁以下_用户主页地址/原创/转发微博详情/签到情况
第1级线索北京_18岁以下_用户主页地址
爬取内容:昵称、所在地、主页地址
十八岁以下详情-昵称所在地主页地址(网址映射+定位标志+下级线索)
翻页-记号线索-下一页-线索映射-记号映射
div-线索映射-定位样例复制
第2级线索北京_18岁以下_用户主页地址_原创或转发微博详情或签到情况
爬取内容:用户昵称、用户所在地、用户原创微博详情或
用户昵称、用户所在地、用户转发微博详情或
用户昵称、用户所在地、用户签到情况详情
十八岁以下原创微博详情-用户昵称用户所在地(内容映射+定位标志)
原创微博内容发布时间或
十八岁以下转发微博详情-用户昵称用户所在地(内容映射+定位标志)
转发微博内容发布时间
转发原文内容原文发布时间或
十八岁以下用户签到详情-用户昵称用户所在地(内容映射+定位标志)
签到内容签到地点(内容映射+定位标志)或
翻页-记号线索-下一页-线索映射-记号映射
div-线索映射-定位样例复制
注:通过第1级线索返回的用户主页地址,获取爬取网址的前5页原创微博或转发微博或用户签到详情,包括用户昵称、用户所在地、原创微博内容、微博发布时间或转发微博内容、转发微博发布时间、转发原文内容、原文发布时间或签到内容、签到地点等。
(3)微博数据提取
由于获得的相关数据无法直接显示,需要将其整理并在加载相应宏的Excel表格中打开。由于抓取时得到的是粉丝范围是全国性的,需要对上述数据进行进一步提取。
最终,通过对不同年龄段用户关注、粉丝、好友对照、关键词、热点事件等数据进行初步汇总、加载宏、筛选及整理后,得到相关的关系矩阵,例如好友流如表1所示(数据来源:基于新浪API及GooSeeker软件爬取的截止到2015年12月31日的京津冀城市群1300个用户的相关信息)。
表1 京津冀城市群好友流原始数据数量关系矩阵表
三、微博数据处理及综合联系强度计算
将收集到的京津冀城市群空间联系强度指标的相关原始数据进行处理,包括下列步骤。
设:好友流rij、关注流cij、粉丝流fij、原创联系yij、转发联系zij、关键词搜索gij、热点事件关注sij、用户活动联系hij、热门地点联系dij。在下列步骤中将以指标体系中好友流rij这个指标为例进行说明:
(1)数据标准化
将采集得到的13个城市的好友流rij原始数据进行标准化,公式如下:
式中,rij为采集得到的城市i的好友中位于城市j的数量。∑jrij为城市i在各城市j(京津冀城市群的13个城市)的好友数量之和。r′ij为标准化后城市i的好友中位于城市j的数量。
(2)城市的对外连接指数
在第(1)步计算的基础上,计算城市的对外连接指数,反映城市在京津冀城市群中的城市等级,公式如下:
首先是相关指标的连接指数公式:
ri=∑jr′ij-r′ii (2)
在分别计算出ri、ci、fi、yi、zi、gi、si、hi、di之后,城市对外连接指数ni公式:
ni=ri+ci+fi+yi+zi+gi+si+hi+di (3)
借鉴Christaller的中心地理论,采用城市的对外连接指数代表城市等级。式中,ni即城市的对外连接指数,反映的是城市i在京津冀城市群中其他城市的关注、粉丝、好友、原创微博、转发微博、关键词搜索、热点事件关注、用户活动、热门地点等所有指标中所占比例之和,r′ii等为城市i的相关指标(例如好友流)的同城标准化值。
(3)城市间相关指标的联系度
根据标准化后的数据计算城市间的好友联系度Rij(相应地,关注联系度Cij、粉丝联系度Fij、原创联系度Yij、转发联系度Zij、关键词搜索度Gij、热点事件关注度Sij、用户活动联系度Hij、热门地点联系度Dij),用以反映城市间好友联系的紧密程度,公式如下:
Rij=r′ij*r′ji (4)
并令Max(Rij)=100,采取最大值标准化:
式中,r′ij为城市i的好友中位于城市j的好友标准化值,r′ji为城市j的好友中位于城市i的好友标准化值,Rij为城市i、j间的好友联系强度值,Max(Rij)为计算所得城市间好友联系强度值中的最大值,R′ij即为城市i与城市j经过标准化后的好友联系强度。
根据城市间相关指标的联系度,计算各城市相关指标的网络连接度,反映了城市在某一指标网络体系中的联系作用强度。
Ri=∑jR′ij-R′ii (6)
式中,Ri即城市i的好友网络连接度,R′ij即为城市i与城市j经过标准化后的好友联系强度,R′ii为经过标准化后的城市i内部的好友网络联系强度。同理可得其他指标的网络连接度。
(4)城市间的空间联系强度
为了避免京津冀城市群空间联系强度结果受人为主观性影响,且能科学衡量基于微博数据的城市间空间联系强度,使最终研究结果更具准确性、科学性,本实施例引入欧式距离用以衡量京津冀城市群中某两个城市的空间联系强度Oij,公式如下:
其中,各项指标的数据均为标准化后的数据,R′ij为好友联系度,C′ij为关注联系度、F′ij为粉丝联系度、Y′ij为原创联系度、Z′ij为转发联系度、G′ij为关键词搜索度、S′ij为热点事件关注度、H′ij为用户活动联系度、D′ij为热门地点联系度,Oij为城市间网络空间联系强度值。Oij的值越大,表示城市i与城市j的空间联系作用越紧密。
(5)城市的网络空间连接度
根据城市间的空间联系强度,计算各城市的网络空间连接度,反映了城市在微博社会网络中的联系作用强度。根据结果进一步细分城市层级,对各个城市在整个城市群网络的层级进行判断。
Oi=∑jOij-Oii (8)
式中,Oi即城市i的网络空间连接度,Oij即为城市i与城市j的空间联系强度,Oii为城市i内部的网络空间联系强度。
上述步骤(1)~(3)分别由用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块执行,上述步骤(4)~(5)由城市群空间联系强度子系统模块执行。
本发明优选实施例中,用户关系强度综合分析单元、用户关注度综合分析单元、用户足迹特征联系强度综合分析单元,以及城市群空间联系强度综合分析单元输出的分析图表包括以下任意一种或者几种形式:如图4所示的表格、如图5所示的柱状图表、如图6所示的折线图、如图7所示的相关指标叠加在地图上的示意图。在图7中,城市间的连线的粗细程度用来表示城市间相应指标的联系强度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于微博数据的城市群空间联系强度测度系统,其特征在于包括:用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块和城市群空间联系强度子系统模块;其中,
所述用户关系子系统模块包括:用户关系基础数据单元、用户关系强度综合测算单元和用户关系强度综合分析单元;其中,所述用户关系基础数据单元,用于从数据表格中导入并管理参与用户关系强度综合测算的基础数据;所述用户关系强度综合测算单元,用于根据参与用户关系强度综合测算的基础数据测算城市群内部城市间的用户关系强度;所述用户关系强度综合分析单元,用于分析用户关系强度,并输出相应的分析图表;
所述用户关注度子系统模块包括:用户关注度基础数据单元、用户关注度综合测算单元和用户关注度综合分析单元;其中,所述用户关注度基础数据单元,用于从数据表格中导入并管理参与用户关注度综合测算的基础数据;所述用户关注度综合测算单元,用于根据参与用户关注度综合测算的基础数据测算城市群内部城市间的用户关注度;所述用户关注度综合分析单元,用于分析用户关注度,并输出相应的分析图表;
所述用户足迹特征子系统模块包括:用户足迹特征基础数据单元、用户足迹特征联系强度综合测算单元和用户足迹特征联系强度综合分析单元;其中,所述用户足迹特征基础数据单元,用于从数据表格中导入并管理参与用户足迹特征联系强度综合测算的基础数据;所述用户足迹特征联系强度综合测算单元,用于根据参与用户足迹特征联系强度综合测算的基础数据测算城市群内部城市间的用户足迹特征联系强度;所述用户足迹特征联系强度综合分析单元,用于分析用户足迹特征联系强度,并输出相应的分析图表;
所述城市群空间联系强度子系统模块包括:城市群空间联系强度综合测算单元、城市群空间联系强度综合分析单元;其中,所述城市群空间联系强度综合测算单元,用于根据城市群内部城市间的用户关系强度、用户关注度和用户足迹特征联系强度测算城市群内部城市间的空间联系强度;所述城市群空间联系强度综合分析单元,用于分析空间联系强度,并输出相应的分析图表。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:微博数据爬取子系统模块,用于根据预设条件爬取微博数据,并将所述微博数据保存在数据表格中。
3.根据权利要求1所述的系统,其特征在于,所述参与用户关系强度综合测算的基础数据包括:关注数据、粉丝数据、好友数据。
4.根据权利要求1所述的系统,其特征在于,所述参与用户关注度综合测算的基础数据包括:转发数据、原创数据、关键词搜索数据、热点事件关注数据。
5.根据权利要求1所述的系统,其特征在于,所述参与用户足迹特征联系强度综合测算的基础数据包括:用户活动联系数据、热门地点联系数据。
6.一种存储介质,位于设备中,其特征在于,所述存储介质中存储有用于控制所述设备的程序代码,所述程序代码用于执行权利要求1至5中任一项所述的用户关系子系统模块、用户关注度子系统模块、用户足迹特征子系统模块和城市群空间联系强度子系统模块的功能。
CN201710652470.XA 2017-08-02 2017-08-02 基于微博数据的城市群空间联系强度测度系统 Active CN107480222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710652470.XA CN107480222B (zh) 2017-08-02 2017-08-02 基于微博数据的城市群空间联系强度测度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710652470.XA CN107480222B (zh) 2017-08-02 2017-08-02 基于微博数据的城市群空间联系强度测度系统

Publications (2)

Publication Number Publication Date
CN107480222A CN107480222A (zh) 2017-12-15
CN107480222B true CN107480222B (zh) 2018-07-03

Family

ID=60597414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710652470.XA Active CN107480222B (zh) 2017-08-02 2017-08-02 基于微博数据的城市群空间联系强度测度系统

Country Status (1)

Country Link
CN (1) CN107480222B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334135A (zh) * 2019-06-04 2019-10-15 武汉大学 一种基于微博轨迹数据的城市联结强度计算方法
CN113570485B (zh) * 2020-04-28 2023-05-16 百度在线网络技术(北京)有限公司 城市群信息生成方法、装置、电子设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236163A (zh) * 2013-04-28 2013-08-07 北京航空航天大学 一种基于群智网络的交通拥堵规避提示系统
EP2728917A1 (en) * 2012-10-30 2014-05-07 Alcatel Lucent Process for protecting the privacy of a user in a network
CN104111971A (zh) * 2014-06-09 2014-10-22 合肥工业大学 过往微博数据收集与处理方法
CN104572757A (zh) * 2013-10-24 2015-04-29 中兴通讯股份有限公司 微博群体处理方法及装置
EP2897088A1 (en) * 2014-01-16 2015-07-22 Fundació Privada Barcelona Digital Centre Tecnologic Method and apparatus for optimum spatial clustering
CN105183870A (zh) * 2015-09-17 2015-12-23 武汉大学 一种利用微博位置信息的城市功能区探测方法及系统
CN106295105A (zh) * 2015-06-01 2017-01-04 同济大学 一种基于人群行为流的城市人群行为数学模型构建方法
CN106776959A (zh) * 2016-12-05 2017-05-31 东北大学 一种基于线上线下双重社交关系的活动推荐系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2728917A1 (en) * 2012-10-30 2014-05-07 Alcatel Lucent Process for protecting the privacy of a user in a network
CN103236163A (zh) * 2013-04-28 2013-08-07 北京航空航天大学 一种基于群智网络的交通拥堵规避提示系统
CN104572757A (zh) * 2013-10-24 2015-04-29 中兴通讯股份有限公司 微博群体处理方法及装置
EP2897088A1 (en) * 2014-01-16 2015-07-22 Fundació Privada Barcelona Digital Centre Tecnologic Method and apparatus for optimum spatial clustering
CN104111971A (zh) * 2014-06-09 2014-10-22 合肥工业大学 过往微博数据收集与处理方法
CN106295105A (zh) * 2015-06-01 2017-01-04 同济大学 一种基于人群行为流的城市人群行为数学模型构建方法
CN105183870A (zh) * 2015-09-17 2015-12-23 武汉大学 一种利用微博位置信息的城市功能区探测方法及系统
CN106776959A (zh) * 2016-12-05 2017-05-31 东北大学 一种基于线上线下双重社交关系的活动推荐系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于微博数据的中原城市群空间联系强度测度";王开泳 等;《中国科学院大学学报》;20161231;第33卷(第6期);第775-782页 *

Also Published As

Publication number Publication date
CN107480222A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
Xu et al. Human mobility and socioeconomic status: Analysis of Singapore and Boston
Fang et al. Big data analysis on the spatial networks of urban agglomeration
Lowans et al. What is the state of the art in energy and transport poverty metrics? A critical and comprehensive review
Leydesdorff et al. Journal maps on the basis of Scopus data: A comparison with the Journal Citation Reports of the ISI
CN105183870B (zh) 一种利用微博位置信息的城市功能区探测方法及系统
CN110110221A (zh) 政务数据智能推荐方法和系统
Furletti et al. Identifying users profiles from mobile calls habits
Ognyanova et al. A multitheoretical, multilevel, multidimensional network model of the media system: Production, content, and audiences
Popescu et al. Mining social media to create personalized recommendations for tourist visits
CN105894089A (zh) 一种征信模型的建立方法、征信确定方法及对应装置
Carmagnola et al. User data distributed on the social web: how to identify users on different social systems and collecting data about them
Xing et al. A dynamic human activity‐driven model for mixed land use evaluation using social media data
US20110184815A1 (en) System and method for sharing profits with one or more content providers
CN113010578B (zh) 社区数据分析方法、装置、社区智能交互平台及存储介质
CN107480222B (zh) 基于微博数据的城市群空间联系强度测度系统
Miah et al. A social media analytics perspective for human‐oriented smart city planning and management
Bustamante et al. On the representativeness of openstreetmap for the evaluation of country tourism competitiveness
Austin et al. Using the Google Places API and Google Trends data to develop high frequency indicators of economic activity
Sechi et al. Environmental Justice in the Post-Socialist City. The case of Riga, Latvia
Yang et al. Modeling destination choice behavior incorporating spatial factors, individual sociodemographics, and travel mode
Osinska et al. Maps and mapping in scientometrics
Yang et al. Optimization of tourism information analysis system based on big data algorithm
Wang et al. A web text mining approach for the evaluation of regional characteristics at the town level
Orduña‐Malea et al. Hyperlinks embedded in twitter as a proxy for total external in‐links to international university websites
Chow “We know who you are and we know where you live”: a research agenda for web demographics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant