CN105183870B - 一种利用微博位置信息的城市功能区探测方法及系统 - Google Patents

一种利用微博位置信息的城市功能区探测方法及系统 Download PDF

Info

Publication number
CN105183870B
CN105183870B CN201510592587.4A CN201510592587A CN105183870B CN 105183870 B CN105183870 B CN 105183870B CN 201510592587 A CN201510592587 A CN 201510592587A CN 105183870 B CN105183870 B CN 105183870B
Authority
CN
China
Prior art keywords
microblogging
areas
cluster
cluster areas
poi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510592587.4A
Other languages
English (en)
Other versions
CN105183870A (zh
Inventor
王艳东
郭丰芹
王腾
朱建奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510592587.4A priority Critical patent/CN105183870B/zh
Publication of CN105183870A publication Critical patent/CN105183870A/zh
Application granted granted Critical
Publication of CN105183870B publication Critical patent/CN105183870B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种利用微博位置信息的城市功能区探测方法,包括进行研究区域的选择,并对研究区域进行格网划分,微博时间段划分,根据若干天数的微博数据预测各类区域所属的功能区;将若干天数的微博数据按照工作日和周末分开,更新聚类区域及相应功能区探究结果;根据各聚类区域中POI数据进行功能区验证,根据各聚类区域的微博时间模式峰值点处的微博文本数据进行功能区验证,根据各聚类区域中微博的主题词汇进行功能区验证。本发明使用含位置信息的微博探究城市功能区,数据获取方便,验证结果有效快捷,并且节约成本,能够用于检测城市功能区变化的趋势,帮助城市规划者和决策者进行公共服务和公共资源等策划。

Description

一种利用微博位置信息的城市功能区探测方法及系统
技术领域
本发明涉及到社交媒体数据应用领域,更具体地,是针对一种利用微博探究城市功能区方法及系统。
背景技术
随着信息全球化的发展,社交媒体已融入到我们的日常生活中,成为我们生活中不可缺少的一部分。社交媒体是人们相互沟通的网站和技术,允许人们表达自己的意见、观点。互联网上比较流行的微博、博客、论坛、社交网站等都属于社交媒体。社交媒体中传播的信息往往是各大网站的重要内容,因此引起了人们生活中的一个又一个的热门话题。
随着社交媒体的流行,近几年国内的微博引起了各界的关注。平时说的微博如果没有特别的说明,一般指新浪微博。新浪微博作为一种分享和交流的平台,允许用户使用140字的文字更新信息,实现即时分享,同时可以上传图片、短视频等,比较注重信息的时效性和随意性。微博的发布平台有手机客户端和微博网站,支持含有地理标签的信息的发布与分享,这种带有地理位置的微博属于签到数据的一种,在生活中的很多方面我们都可以充分利用签到数据。只要对这些数据进行深层次的挖掘,就可以得到与我们的日常生活相关的重要信息。
在城市的发展中,城市规划是至关重要的,它关系到城市的发展未来、城市的布局等等,最重要的是与人的发展密切相关的,为城市人民的居住、劳动、学习、交通以及各种社会活动创造良好的条件。城市规划是一个侧重于控制和规划城市环境的过程,其目的是增加公民的福祉。传统的城市规划研究方法主要有现场踏勘或观察调查、抽样调查或问卷调查、访谈和座谈会调查、文献资料的运用和类比等。这些传统的研究方法不仅耗时耗力,还需要花费昂贵的研究成本。
发明内容
针对上述问题,本发明提出一种利用含位置信息的微博数据探究城市功能区的技术方案。
本发明的技术方案提供一种利用微博位置信息的城市功能区探测方法,包括如下步骤,
步骤1,进行研究区域的选择,并对研究区域进行格网划分;
步骤2,微博时间段划分,包括将一天按时间间隔进行划分,得到多个时间段;
步骤3,根据若干天数的微博数据预测各类区域所属的功能区,预测过程实现如下,进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据;
进行各格网中微博时间模式提取,包括统计各格网内各时间段微博数据占该格网中微博总数的比例,将所得微博的发布概率分布称为微博时间模式;
进行区域聚类,包括基于各格网中的微博时间模式,采用聚类方式对研究区域进行分类,得到各聚类区域的微博时间模式;
对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区;
步骤4,将若干天数的微博数据按照工作日和周末分开,分别进行和步骤3一致的预测过程,根据相应所得预测各类区域所属的功能区,更新聚类区域及相应功能区探究结果;
步骤5,根据各聚类区域中POI数据进行功能区验证,实现如下,
进行各聚类区域中POI数据的提取;
对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计;
对POI数据进行标准化处理,包括使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,或者使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI数量,得到各类聚类区域中的各类POI 所占比重情况;
对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,更新聚类区域的功能区探究结果;
步骤6,根据各聚类区域的微博时间模式峰值点处的微博文本数据进行功能区验证,实现如下,
对各聚类区域的微博时间模式峰值点处的微博文本数据进行提取,得到相应类中微博;
对提取的微博文本数据做主题提取,得到各类聚类区域中相关的主题微博;
统计所得各类聚类区域中提取的主题微博的数量占相应聚类区域中微博的总数量的比例;
比较各聚类区域中主题微博比例的高低,完成利用微博主题对聚类区域的功能区验证,更新聚类区域的功能区探究结果;
步骤7,根据各聚类区域中微博的主题词汇进行功能区验证,实现如下,
提取各聚类区域中微博的主题词汇;
进行主题微博比重计算,包括计算各聚类区域中含有主题词汇的微博占相应聚类区域中微博的总数量,得到各聚类区域中主题微博比重;
比较各聚类区域中含有主题词汇的微博比重的高低,完成利用微博文本对聚类区域的功能区验证,更新聚类区域的功能区探究结果。
而且,执行步骤4后,对各聚类区域的空间分布进行分析。
而且,执行步骤5后,计算各聚类区域POI数据的相关系数,获取功能区的混杂性分析结果。
而且,执行步骤6后,使用词云图的形式对聚类类别中文本内容进行展示。
本发明相应提供一种利用微博位置信息的城市功能区探测系统,包括如下模块,
初始化模块,用于进行研究区域的选择,并对研究区域进行格网划分;
微博时间段划分模块,用于将一天按时间间隔进行划分,得到多个时间段;
初始预测模块,用于根据若干天数的微博数据预测各类区域所属的功能区,预测过程实现如下,
进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据;
进行各格网中微博时间模式提取,包括统计各格网内各时间段微博数据占该格网中微博总数的比例,将所得微博的发布概率分布称为微博时间模式;
进行区域聚类,包括基于各格网中的微博时间模式,采用聚类方式对研究区域进行分类,得到各聚类区域的微博时间模式;
对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区;
第一预测更新模块,用于将若干天数的微博数据按照工作日和周末分开,分别进行和初始预测模块一致的预测过程,根据相应所得预测各类区域所属的功能区,更新聚类区域及相应功能区探究结果;
第二预测更新模块,用于根据各聚类区域中POI数据进行功能区验证,实现如下,
进行各聚类区域中POI数据的提取;
对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计;
对POI数据进行标准化处理,包括使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,或者使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI数量,得到各类聚类区域中的各类POI 所占比重情况;
对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,更新聚类区域的功能区探究结果;
第三预测更新模块,用于根据各聚类区域的微博时间模式峰值点处的微博文本数据进行功能区验证,实现如下,
对各聚类区域的微博时间模式峰值点处的微博文本数据进行提取,得到相应类中微博;
对提取的微博文本数据做主题提取,得到各类聚类区域中相关的主题微博;
统计所得各类聚类区域中提取的主题微博的数量占相应聚类区域中微博的总数量的比例;
比较各聚类区域中主题微博比例的高低,完成利用微博主题对聚类区域的功能区验证,更新聚类区域的功能区探究结果;
第四预测更新模块,用于根据各聚类区域中微博的主题词汇进行功能区验证,实现如下,
提取各聚类区域中微博的主题词汇;
进行主题微博比重计算,包括计算各聚类区域中含有主题词汇的微博占相应聚类区域中微博的总数量,得到各聚类区域中主题微博比重;
比较各聚类区域中含有主题词汇的微博比重的高低,完成利用微博文本对聚类区域的功能区验证,更新聚类区域的功能区探究结果。
而且,第一预测更新模块工作完成后,对各聚类区域的空间分布进行分析。
而且,第二预测更新模块工作完成后,计算各聚类区域POI数据的相关系数,获取功能区的混杂性分析结果。
而且,第三预测更新模块工作完成后,使用词云图的形式对聚类类别中文本内容进行展示。
本发明使用含位置信息的微博探究城市功能区,数据获取方便,避免了如问卷调查、实地测量等传统方法数据获取困难、数据不具代表性等问题。基于提取微博时间模式对区域进行分类,分类结果是与居民的日常活动规律息息相关的。利用POI数据与微博文本对实验结果进行验证,POI数据获取及分类较方便,验证结果有效、快捷。使用含位置信息的微薄数据来探索城市功能区的方式省时省力,又节约了研究成本,最重要的是,此方案能够用于检测城市功能区变化的趋势,可以帮助城市规划者和决策者进行公共服务和公共资源等策划。
附图说明
图1是本发明实施例的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施案例,并参照附图,对本发明进一步详细说明。
参见图1,考虑到微博含有的特殊的文本、地理位置等信息,本发明提出了一种利用含位置信息的微博数据探究城市功能区的方法。本发明充分考虑了城市居民的活动在时间和空间上的特点,在对研究区域进行格网划分和聚类的基础上,提取了微博的时间模式和空间分布模式,结合POI数据和微博文本有效地得到了各类区域的功能区信息。
首先介绍理论基础:
POI是“Point of Interest”的缩写,可以翻译成“信息点”,每个POI包含四方面信息,名称、类别、经度纬度、附近的酒店饭店商铺等信息。可以叫它为“导航地图信息”,导航地图数据是整个导航产业的基石。由于国内城市有些功能区划分不是很明确,在一个区域内可能存有多个功能区。这种城市结构的特殊性,会影响POI数据对实验结果验证的准确性,在本发明中通过分析各类型POI之间的相关性来说明城市功能的混杂性。
K-means聚类属于非监督分类,该类算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
K-means算法的基本思想是:K-means算法接受输入量k;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中对象的相似度较高;而不同聚类之间的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心) 来进行计算的。
Latent Dirichlet Allocation模型于2003年由David M.Blei[42]提出,简称LDA,是一种具有文本主题表示能力的非监督学习模型。
LDA是主题模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。
LDA模型把一个文档作为一组单词的集合,并且单词与单词之间没有先后顺序。此外,一个文档可以包含多个主题,文档中的每一个词都是由其中的某一个主题生成,同一个单词也可以属于不同的主题,因此,LDA模型是一种典型的词袋模型。这种词袋的方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
微博的文本内容是十分杂乱的,为了从中获得与本发明中相关的主题,实施例使用LDA 算法进行了主题提取。但是这种方法存在一定的人为干预,因此,在此基础上实施例进一步使用Word2vec算法确定主题词汇,统计含有主题词汇的微博所占比重。此方法得到的实验效果较快速有效。Word2vec是Mikolov等提出的模型的一个实现,可以快速有效地训练词向量。 Word2vec包含了两种训练模型,分别是CBOW(Continuous Bag-Of-Words,即连续的词袋模型)和Skip-Gram两种。CBOW模型和Skip-gram模型都包含三个层次:输入层、投影层和输出层。不同的是CBOW模型通过上下文预测当前词,而Skip-gram模型则是通过当前词预测上下文。此外,Word2vec提供了两套优化方法来提高词向量的训练效率,分别是Hierachy Softmax 和Negative Sampling,将两者的训练模型和优化方法进行组合可以得到4种训练词向量的框架。
本发明提供的技术方案是一种利用含位置信息的微博数据探究城市功能区的方法,实施例的流程包括以下步骤:
一、进行研究区域的选择,并对研究区域进行格网划分;
具体实施时,本领域技术人员可根据需要自行预设研究区域和格网大小。以北京为例,由于含位置信息的微博数据88%左右都分布在六环以内,因此实施例选择北京六环内部区域为研究区域;对选定的研究区域进行格网划分,格网大小为400m×400m。
二、微博时间段划分:具体实施时,本领域技术人员可自行预设划分的时间段时长。为便于研究,一般可将一天按时间间隔为1个小时进行划分,分别是0时,1时,…,23时,0时代表0点到1点,以此类推,共计24个时间段。
三、根据若干天数的微博数据,进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据。具体实施时可以利用较长时间段的数据,比如,收集半个月的微博数据,然后统计各格网内,在15天中0时,1时,…,23时的微博数据。
四、各格网中微博时间模式提取:统计各格网内各时间段微博数据占该格网中微博总数的比例,本发明将这种微博的发布概率分布称之为微博时间模式;
五、区域聚类:基于各格网中的微博时间模式,利用K-means聚类方法对研究区域进行分类,得到各聚类区域的微博时间模式。
具体实施时,可基于微博时间模式,利用K-means聚类方法对区域进行聚类,选择不同的聚类数以达到最佳的实验效果,例如实施例所使用的k-means聚类算法,尝试了不同聚类数K 值(5-20)的设定,通过多次实验确定了最佳的聚类数k=7。最终选定将区域分为7类。K-means 聚类方法具体实现为现有技术,本发明不予赘述。
六、对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区。具体实施时,可以由用户自行分析,也可以根据经验进行预测判断。例如,某聚类区域20时~23时的微博数据占该聚类区域中微博总数的比例较高,预测该聚类区域是与人类休息有关的功能区。
七、将若干天数的微博数据按照工作日和周末分开,然后分别重复步骤三、四、五、六,实现利用K-means聚类方法对区域进行聚类,并对聚类结果进行分析,此部分可以对步骤六中对各类区域所属功能区进行验证;具体实施时,可以直接利用步骤三中的已有数据,例如,将15天的数据按照工作日和周末分开,分别统计分析。本发明提供的是一种探索性的方案,如果工作日和周末的相应聚类结果与步骤六的预测结果不一致,可以提示用户重新分析步骤五所得各聚类区域的微博时间模式。按此加强猜测后,更新聚类区域及相应功能区探究结果。
八、对各聚类区域的空间分布进行分析,例如统计位于五环内部的属于某聚类区域的格网、与位于五六环之间的属于某聚类区域的格网,分别所占该聚类区域的总格网的比例。本发明主要研究聚类区域在空间上的分布状况,五环内与五六环之间的分布存在差异性,因此分别进行统计。
九、各聚类区域中POI数据的提取。
十、对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计。POI数据中有三个类别的分级,例如购物服务、超级市场、超市,本发明使用分类最粗即一级类别进行的。
实施例对各类聚类区域中提取的POI数据进行分类并统计POI数量。
十一、对POI数据进行标准化处理,具体实施时可以任意选用两种方法之一:方法一使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,方法二使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI的数量,得到各类聚类区域中的各类POI所占比重情况。
十二、对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,可以将效果好的进行保留,效果不好的放弃评述,主要是研究哪些聚类区域中含有的哪些类型的POI数据比例较高,并较明显,便将该类区域定为哪种类型的功能区,如果POI数据分析结果与步骤七所得的聚类区域的功能区探究结果不一致,可以提示用户重新分析步骤七所得各聚类区域的微博时间模式。按此加强猜测后,更新聚类区域的功能区探究结果。
十三、计算各聚类区域POI数据的相关系数,以说明POI的混杂性即功能区的混杂性。具体实施时,相关系数计算可利用现有技术,比如卡尔·皮尔逊设计的统计指标——相关系数 (Correlation coefficient)。
十四、对各聚类区域中时间模式的峰值点处的微博文本数据进行提取,得到相应类中微博。例如,某聚类区域中,0时的微博数据占该聚类区域中微博总数的比例高于其他时段,对该网格0时的微博文本数据进行提取。
十五、利用LDA算法对步骤十四提取的文本数据做主题提取,得到各类聚类区域中相关的主题微博。具体实施时对于文本较杂乱的聚类类别可使用词云图的形式对文本内容进行展示。LDA算法为现有技术,本发明不予赘述。
十六、主题微博比例统计:统计步骤十五所得各类聚类区域中提取的主题微博的数量占相应类聚类区域中微博的总数量的比例。
十七、比较各聚类区域中主题微博比例的高低,以完成利用微博主题对聚类区域的功能区验证。如果某类聚类区域中的主题微博的比例要远远高于其他区域,那么就认为该类聚类区域与谈论的主题相关,从而推断所属功能区。如果主题微博分析结果与步骤十二验证后的聚类区域的功能区探究结果不一致,可以提示用户重新分析步骤十二所得各聚类区域的微博时间模式。按此加强猜测后,更新聚类区域的功能区探究结果。
十八、微博主题词汇提取:利用Word2vec算法提取各聚类区域的主题词汇。Word2vec 算法为现有技术,本发明不予赘述。
十九、主题微博比重计算:计算各聚类区域中含有主题词汇的微博占相应类聚类区域中微博的总数量,得到各聚类区域中主题微博比重。之前提取的主题微博是利用LDA进行提取主题之后,微博会被认定为谈论什么样的主题,以便统计含有相同主题的微博在各类区域中的比重状况;而本步骤所称含有主题词汇的微博是利用Word2vec获取了一些与主题相关的词,统计含有这些主题词的微博占总微博的数的比重。
二十、比较各聚类区域中含有主题词汇的微博比重的高低,以完成利用微博文本对聚类区域的功能区验证。如果某类聚类区域中含有主题词汇的微博的比例要远远高于其他区域,那么就认为该类聚类区域与主题词汇相关,从而推断所属功能区。如果主题微博分析结果与步骤十七验证后的聚类区域的功能区探究结果不一致,可以提示用户重新分析步骤十七所得各聚类区域的微博时间模式。按此加强猜测后,更新聚类区域的功能区探究结果。
具体实施时,本领域技术人员可采用计算机软件技术实现以上流程,并可根据需要灵活调整,一般可包括如下基本步骤:
步骤1,进行研究区域的选择,并对研究区域进行格网划分;
步骤2,微博时间段划分,包括将一天按时间间隔进行划分,得到多个时间段;
步骤3,根据若干天数的微博数据预测各类区域所属的功能区,预测过程实现如下,
进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据;
进行各格网中微博时间模式提取,包括统计各格网内各时间段微博数据占该格网中微博总数的比例,将所得微博的发布概率分布称为微博时间模式;
进行区域聚类,包括基于各格网中的微博时间模式,采用聚类方式对研究区域进行分类,得到各聚类区域的微博时间模式;
对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区;
步骤4,将若干天数的微博数据按照工作日和周末分开,分别进行和步骤3一致的预测过程,根据相应所得预测各类区域所属的功能区,更新聚类区域及相应功能区探究结果;
步骤5,根据各聚类区域中POI数据进行功能区验证,实现如下,
进行各聚类区域中POI数据的提取;
对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计;
对POI数据进行标准化处理,包括使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,或者使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI数量,得到各类聚类区域中的各类POI 所占比重情况;
对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,更新聚类区域的功能区探究结果;
步骤6,根据各聚类区域的微博时间模式峰值点处的微博文本数据进行功能区验证,实现如下,
对各聚类区域的微博时间模式峰值点处的微博文本数据进行提取,得到相应类中微博;
对提取的微博文本数据做主题提取,得到各类聚类区域中相关的主题微博;
统计所得各类聚类区域中提取的主题微博的数量占相应聚类区域中微博的总数量的比例;
比较各聚类区域中主题微博比例的高低,完成利用微博主题对聚类区域的功能区验证,更新聚类区域的功能区探究结果;
步骤7,根据各聚类区域中微博的主题词汇进行功能区验证,实现如下,
提取各聚类区域中微博的主题词汇;
进行主题微博比重计算,包括计算各聚类区域中含有主题词汇的微博占相应聚类区域中微博的总数量,得到各聚类区域中主题微博比重;
比较各聚类区域中含有主题词汇的微博比重的高低,完成利用微博文本对聚类区域的功能区验证,更新聚类区域的功能区探究结果。
进一步地,可以在执行步骤4后,对各聚类区域的空间分布进行分析。
进一步地,可以在执行步骤5后,计算各聚类区域POI数据的相关系数,获取功能区的混杂性分析结果。
进一步地,可以在执行步骤6后,使用词云图的形式对聚类类别中文本内容进行展示。
具体实施时,还可以采用模块化方式提供相应系统。一种利用微博位置信息的城市功能区探测系统,包括如下模块:
初始化模块,用于进行研究区域的选择,并对研究区域进行格网划分;
微博时间段划分模块,用于将一天按时间间隔进行划分,得到多个时间段;
初始预测模块,用于根据若干天数的微博数据预测各类区域所属的功能区,预测过程实现如下,
进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据;
进行各格网中微博时间模式提取,包括统计各格网内各时间段微博数据占该格网中微博总数的比例,将所得微博的发布概率分布称为微博时间模式;
进行区域聚类,包括基于各格网中的微博时间模式,采用聚类方式对研究区域进行分类,得到各聚类区域的微博时间模式;
对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区;
第一预测更新模块,用于将若干天数的微博数据按照工作日和周末分开,分别进行和初始预测模块一致的预测过程,根据相应所得预测各类区域所属的功能区,更新聚类区域及相应功能区探究结果;
第二预测更新模块,用于根据各聚类区域中POI数据进行功能区验证,实现如下,
进行各聚类区域中POI数据的提取;
对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计;
对POI数据进行标准化处理,包括使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,或者使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI数量,得到各类聚类区域中的各类POI 所占比重情况;
对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,更新聚类区域的功能区探究结果;
第三预测更新模块,用于根据各聚类区域的微博时间模式峰值点处的微博文本数据进行功能区验证,实现如下,
对各聚类区域的微博时间模式峰值点处的微博文本数据进行提取,得到相应类中微博;
对提取的微博文本数据做主题提取,得到各类聚类区域中相关的主题微博;
统计所得各类聚类区域中提取的主题微博的数量占相应聚类区域中微博的总数量的比例;
比较各聚类区域中主题微博比例的高低,完成利用微博主题对聚类区域的功能区验证,更新聚类区域的功能区探究结果;
第四预测更新模块,用于根据各聚类区域中微博的主题词汇进行功能区验证,实现如下,
提取各聚类区域中微博的主题词汇;
进行主题微博比重计算,包括计算各聚类区域中含有主题词汇的微博占相应聚类区域中微博的总数量,得到各聚类区域中主题微博比重;
比较各聚类区域中含有主题词汇的微博比重的高低,完成利用微博文本对聚类区域的功能区验证,更新聚类区域的功能区探究结果。
进一步地,第一预测更新模块工作完成后,对各聚类区域的空间分布进行分析。
进一步地,第二预测更新模块工作完成后,计算各聚类区域POI数据的相关系数,获取功能区的混杂性分析结果。
进一步地,第三预测更新模块工作完成后,使用词云图的形式对聚类类别中文本内容进行展示。
具体实施时,还可以提供人机交互界面,方便用户参与分析调整。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其它的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种利用微博位置信息的城市功能区探测方法,其特征在于:包括如下步骤,
步骤1,进行研究区域的选择,并对研究区域进行格网划分;
步骤2,微博时间段划分,包括将一天按时间间隔进行划分,得到多个时间段;
步骤3,根据若干天数的微博数据预测各类区域所属的功能区,预测过程实现如下,
进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据;
进行各格网中微博时间模式提取,包括统计各格网内各时间段微博数据占该格网中微博总数的比例,将所得微博的发布概率分布称为微博时间模式;
进行区域聚类,包括基于各格网中的微博时间模式,采用聚类方式对研究区域进行分类,得到各聚类区域的微博时间模式;
对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区;
步骤4,将若干天数的微博数据按照工作日和周末分开,分别进行和步骤3一致的预测过程,根据相应所得预测各类区域所属的功能区,更新聚类区域及相应功能区探究结果;
步骤5,根据各聚类区域中POI数据进行功能区验证,实现如下,
进行各聚类区域中POI数据的提取;
对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计;
对POI数据进行标准化处理,包括使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,或者使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI数量,得到各类聚类区域中的各类POI所占比重情况;
对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,更新聚类区域的功能区探究结果;
步骤6,基于各聚类区域的微博时间模式峰值点处的微博文本数据,通过对提取的微博文本数据做主题提取进行功能区验证,实现如下,
对各聚类区域的微博时间模式峰值点处的微博文本数据进行提取,得到相应类中微博;
对提取的微博文本数据做主题提取,得到各类聚类区域中相关的主题微博;
统计所得各类聚类区域中提取的主题微博的数量占相应聚类区域中微博的总数量的比例;
比较各聚类区域中主题微博比例的高低,完成利用微博主题对聚类区域的功能区验证,更新聚类区域的功能区探究结果;
步骤7,根据各聚类区域中微博的主题词汇进行功能区验证,实现如下,
提取各聚类区域中微博的主题词汇;
进行主题微博比重计算,包括计算各聚类区域中含有主题词汇的微博占相应聚类区域中微博的总数量,得到各聚类区域中主题微博比重;
比较各聚类区域中含有主题词汇的微博比重的高低,完成对聚类区域的功能区验证,更新聚类区域的功能区探究结果。
2.根据权利要求1所述利用微博位置信息的城市功能区探测方法,其特征在于:执行步骤4后,对各聚类区域的空间分布进行分析。
3.根据权利要求1所述利用微博位置信息的城市功能区探测方法,其特征在于:执行步骤5后,计算各聚类区域POI数据的相关系数,获取功能区的混杂性分析结果。
4.根据权利要求1所述利用微博位置信息的城市功能区探测方法,其特征在于:执行步骤6后,使用词云图的形式对聚类类别中文本内容进行展示。
5.一种利用微博位置信息的城市功能区探测系统,其特征在于:包括如下模块,
初始化模块,用于进行研究区域的选择,并对研究区域进行格网划分;
微博时间段划分模块,用于将一天按时间间隔进行划分,得到多个时间段;
初始预测模块,用于根据若干天数的微博数据预测各类区域所属的功能区,预测过程实现如下,
进行各格网内各时间段微博数据提取,提取得到含位置信息的微博数据;
进行各格网中微博时间模式提取,包括统计各格网内各时间段微博数据占该格网中微博总数的比例,将所得微博的发布概率分布称为微博时间模式;
进行区域聚类,包括基于各格网中的微博时间模式,采用聚类方式对研究区域进行分类,得到各聚类区域的微博时间模式;
对各聚类区域的微博时间模式进行分析,预测各类区域所属的功能区;
第一预测更新模块,用于将若干天数的微博数据按照工作日和周末分开,分别进行和初始预测模块一致的预测过程,根据相应所得预测各类区域所属的功能区,更新聚类区域及相应功能区探究结果;
第二预测更新模块,用于根据各聚类区域中POI数据进行功能区验证,实现如下,
进行各聚类区域中POI数据的提取;
对各聚类区域中的POI数据按照一级类别进行分类,并进行数量统计;
对POI数据进行标准化处理,包括使用某类聚类区域中某种类型的POI数量除以整个研究区域内所有该类型的POI数量,得到各类型POI分布到各聚类区域的状况,或者使用某类聚类区域中的某种类型的POI数量除以该类区域的所有POI数量,得到各类聚类区域中的各类POI所占比重情况;
对标准化之后的POI数据进行分析,利用POI数据实现对聚类区域的功能区探究结果进行验证,更新聚类区域的功能区探究结果;
第三预测更新模块,用于基于各聚类区域的微博时间模式峰值点处的微博文本数据,通过对提取的微博文本数据做主题提取进行功能区验证,实现如下,
对各聚类区域的微博时间模式峰值点处的微博文本数据进行提取,得到相应类中微博;
对提取的微博文本数据做主题提取,得到各类聚类区域中相关的主题微博;
统计所得各类聚类区域中提取的主题微博的数量占相应聚类区域中微博的总数量的比例;
比较各聚类区域中主题微博比例的高低,完成利用微博主题对聚类区域的功能区验证,更新聚类区域的功能区探究结果;
第四预测更新模块,用于根据各聚类区域中微博的主题词汇进行功能区验证,实现如下,提取各聚类区域中微博的主题词汇;
进行主题微博比重计算,包括计算各聚类区域中含有主题词汇的微博占相应聚类区域中微博的总数量,得到各聚类区域中主题微博比重;
比较各聚类区域中含有主题词汇的微博比重的高低,完成对聚类区域的功能区验证,更新聚类区域的功能区探究结果。
6.根据权利要求5所述利用微博位置信息的城市功能区探测系统,其特征在于:第一预测更新模块工作完成后,对各聚类区域的空间分布进行分析。
7.根据权利要求5所述利用微博位置信息的城市功能区探测系统,其特征在于:第二预测更新模块工作完成后,计算各聚类区域POI数据的相关系数,获取功能区的混杂性分析结果。
8.根据权利要求5所述利用微博位置信息的城市功能区探测系统,其特征在于:第三预测更新模块工作完成后,使用词云图的形式对聚类类别中文本内容进行展示。
CN201510592587.4A 2015-09-17 2015-09-17 一种利用微博位置信息的城市功能区探测方法及系统 Expired - Fee Related CN105183870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510592587.4A CN105183870B (zh) 2015-09-17 2015-09-17 一种利用微博位置信息的城市功能区探测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510592587.4A CN105183870B (zh) 2015-09-17 2015-09-17 一种利用微博位置信息的城市功能区探测方法及系统

Publications (2)

Publication Number Publication Date
CN105183870A CN105183870A (zh) 2015-12-23
CN105183870B true CN105183870B (zh) 2018-07-27

Family

ID=54905951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510592587.4A Expired - Fee Related CN105183870B (zh) 2015-09-17 2015-09-17 一种利用微博位置信息的城市功能区探测方法及系统

Country Status (1)

Country Link
CN (1) CN105183870B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540988B (zh) * 2017-03-06 2020-10-09 中国移动通信集团公司 一种场景划分方法及装置
CN107480222B (zh) * 2017-08-02 2018-07-03 中国科学院地理科学与资源研究所 基于微博数据的城市群空间联系强度测度系统
CN107908636A (zh) * 2017-09-26 2018-04-13 武汉大学 一种利用社交媒体挖掘人类活动时空模式的方法
CN107908766B (zh) * 2017-11-28 2019-11-19 深圳市城市规划设计研究院有限公司 一种城市热点事件动态监测方法及系统
CN108345662B (zh) * 2018-02-01 2022-08-12 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN108932322A (zh) * 2018-06-29 2018-12-04 北京大学 一种基于文本大数据的地理语义挖掘方法
CN109032342B (zh) * 2018-07-02 2020-06-30 浙江大学 一种融合运动、生理和位置传感数据的复杂活动识别方法
CN109255080A (zh) * 2018-07-31 2019-01-22 平安科技(深圳)有限公司 一种信息处理方法及装置
CN109583640A (zh) * 2018-11-23 2019-04-05 东南大学 一种基于多源定位数据的城市出行客流属性识别方法
CN110442662B (zh) * 2019-07-08 2022-05-20 清华大学 一种确定用户属性信息的方法以及信息推送方法
CN112396441B (zh) * 2019-08-14 2023-08-22 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及可读存储介质
CN110909627B (zh) * 2019-11-04 2022-04-26 中国科学院深圳先进技术研究院 区域poi配置可视化方法及系统
CN110866156B (zh) * 2019-11-26 2022-05-17 北京明略软件系统有限公司 基于社交数据的功能园区识别方法、装置、设备及介质
CN111047217B (zh) * 2019-12-27 2022-05-24 中国科学院城市环境研究所 一种结合电子地图兴趣点的城市功能空间紧凑性测度方法
CN111382224B (zh) * 2020-03-06 2022-06-21 厦门大学 一种基于多源数据融合的城市区域功能智能识别方法
CN113127594B (zh) * 2021-06-17 2021-09-03 脉策(上海)智能科技有限公司 确定地理区域的组团数据的方法、计算设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法
CN103198135A (zh) * 2013-04-12 2013-07-10 武汉大学 一种地理区域格网划分的微博签到数据在线获取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014089583A (ja) * 2012-10-30 2014-05-15 International Business Maschines Corporation ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163225A (zh) * 2011-04-11 2011-08-24 中国科学院地理科学与资源研究所 一种基于微博客收集的交通信息融合评价方法
CN103198135A (zh) * 2013-04-12 2013-07-10 武汉大学 一种地理区域格网划分的微博签到数据在线获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Urban activity pattern classification using topic models from online geo-location;Samiul Hasan等;《Transportation Research Part C:Emerging Technologies》;20140731;全文 *
基于位置服务数据的城市活动空间研究;王波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150715;第2015年卷(第07期);全文 *

Also Published As

Publication number Publication date
CN105183870A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105183870B (zh) 一种利用微博位置信息的城市功能区探测方法及系统
Zhang et al. Knowledge mapping of tourism demand forecasting research
Ye et al. Urban function recognition by integrating social media and street-level imagery
Xu et al. Characterizing destination networks through mobility traces of international tourists—A case study using a nationwide mobile positioning dataset
Xu et al. Understanding aggregate human mobility patterns using passive mobile phone location data: A home-based approach
KR101871747B1 (ko) 유사성향 기반 사용자-관광상품 추천 방법 및 시스템
Zhang et al. The Traj2Vec model to quantify residents’ spatial trajectories and estimate the proportions of urban land-use types
Shi et al. A literature review on accessibility using bibliometric analysis techniques
Verginer et al. Talent goes to global cities: The world network of scientists’ mobility
Liu et al. Understanding public transit patterns with open geodemographics to facilitate public transport planning
CN108170765A (zh) 基于在校行为数据多维分析的贫困生资助推荐方法
KR20170030379A (ko) 사용자 선호에 맞춘 여행 큐레이션 서비스 방법 및 시스템
CN109460520A (zh) 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
Suh et al. Analysis and visualisation of structure of smartphone application services using text mining and the set covering algorithm: a case of App Store
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及系统
Geertman et al. Spatial‐temporal specific neighbourhood rules for cellular automata land‐use modelling
Liu et al. Study on urban spatial function mixture and individual activity space from the perspectives of resident activity
Wu et al. Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis
Dashdorj et al. Semantic enrichment of mobile phone data records
CN113704373B (zh) 基于移动轨迹数据的用户识别方法、装置及存储介质
Lobsang et al. Methodological framework for understanding urban people flow from a complex network perspective
Pizarro et al. ABM RoutePlanner: An agent-based model simulation for suggesting preference-based routes in Spain
Jiang et al. A review of urban vitality research in the Chinese world
Alamsyah et al. Mining Digital Traces to Uncover Global Perception of Bali’s Topmost Destinations
Betti et al. Updating poverty maps between censuses: a case study of Albania

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180727

Termination date: 20200917