CN111242821A - 一种基于大数据的物联人口管理方法、系统和存储介质 - Google Patents
一种基于大数据的物联人口管理方法、系统和存储介质 Download PDFInfo
- Publication number
- CN111242821A CN111242821A CN201911399198.4A CN201911399198A CN111242821A CN 111242821 A CN111242821 A CN 111242821A CN 201911399198 A CN201911399198 A CN 201911399198A CN 111242821 A CN111242821 A CN 111242821A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- information
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 39
- 238000012216 screening Methods 0.000 claims abstract description 35
- 230000000694 effects Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000007774 longterm Effects 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 4
- 238000007667 floating Methods 0.000 description 25
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于大数据的物联人口管理方法、系统和存储介质,所述方法包括:通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;针对所述有效数据分析提取用户特征信息;确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。本发明能够促进了城市的人口管理、交通规划发展。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的物联人口管理方法、系统和存储介质。
背景技术
流动人口在为城市经济发展做出贡献的同时也加剧了城市交通供给不足、增加了社会不稳定性等问题,这使得流动人口成为了城市管理中不可忽视的一类人群。
近年来,我国人口流动愈加频繁,仅仅依靠户籍来判断流动人口已经不能满足城市中对流动人口的管理需求及由流动人口产生的一系列城市问题的治理,城市交通问题即为其中的典型问题。流动人口的逐渐增多使得城市人口总量不断增加,从而增加了城市交通总需求,在供给不变的情况下,城市交通基础设施越来越不能满足城市人口的出行需求。依据较小样本的流动人口出行特征调查,从出行特征来看,只做短期停留的流动人口其出行具有目的复杂、出行需求多、出行链效率较低等特点,而停留超过一个月的流动人口倾向于选择经济型出行方式、出行时间与常住人口有明显重合,与常住人口出行特征相似度较高。由于流动人口和常住人口在交通需求和出行行为上的显著差异,及时可靠的流动人口的数量和活动监测对城市交通规划具有重要意义,同时发达的城市交通服务能促进人口流入城市,为城市增加活力。
人口统计涉及多个部门,就流动人口而言,其管理和服务部门涉及卫生计生委、民政部、公安部等多个部门。但由各部门流动人口统计口径和调查方式的差异导致的数出多门,不仅使得人口调查结果通用性降低,调查频次和样本数量等方面的限制也明显降低了调查数据的挖掘价值。同时,流动人口的一个最重要特征就是快速变化:流动人口在城市的停留时间少于一年的情况下很难被各种官方人口调查计入统计数据,且短期停留的流动人口变化受较多因素影响,节假日、旅行淡旺季、集会或大型考试都会影响这些流动人口的数量和移动情况。这些短期停留的外来人口是流动人口的重要组成部分,同时对城市交通有显著影响,但传统人口调查方法很难及时监测到这部分人口的变化。因此,适应当前快速变化的流动人口的监测方法能够使城市交通规划,尤其是人口积聚明显的大型城市的交通规划更有针对性。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于大数据的物联人口管理方法、系统和存储介质。
为了实现上述目的,本发明第一方面提出了一种基于大数据的物联人口管理方法,所述方法包括:
通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;
通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;
针对所述有效数据分析提取用户特征信息,所述用户特征信息包括时间特征、空间特征、社交特征;
确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;
汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。
本方案中,通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,具体包括:
针对所述源数据信息通过空间过滤器提取坐标信息;
判断所述坐标信息是否落入本地区的边界线内;
剔除未落入本地区的边界线内的部分源数据信息,剩余得到第一筛选数据信息;
针对所述第一筛选数据信息通过频率过滤器提取推特日期和数量;
根据推特日期和数量计算用户推特频率;
判断推特频率是否小于等于第一预设阀值,并剔除大于第一预设阀值的部分第一筛选数据信息,剩余得到第二筛选数据信息;
针对所述第二筛选数据信息,通过账号访问过滤器判断用户的好友信息是否可以访问,并剔除不可访问的部分第二筛选数据信息,剩余得到有效数据。
本方案中,针对所述有效数据分析提取用户特征信息,具体包括:
针对所述有效数据提取时间戳;
统一所有时间戳的时区;
提取每个用户的推特时间信息;
根据所述推特时间信息获取所述用户在本地区的第一个推特时间和最后一个推特时间,计算第一个推特时间与最后一个推特时间之间的时间差,得到所述用户的停留时间;
根据推特时间信息获取用户的两个相邻推特之间的时间间隔;
将超过第二预设阀值的时间间隔设定为长间隔;
根据计算式(停留时间-长间隔)/(长间隔次数+1)得到平均访问时间。
本方案中,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
根据所述坐标数据计算标准差椭圆参数σx、σy;
基于所述标准差椭圆参数并通过计算公式S=πσxσy计算标准差椭圆面积,作为用户的活动范围。
本方案中,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
基于密度的聚类方法对用户活动位置进行聚类,得到核心点;
计算所述核心点占所有坐标点的比例,得到核心点比例。
本方案中,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
计算所述坐标数据中的每个坐标点与预设的景区点之间的距离;
判断所述距离是否小于第三预设阀值;
如果小于,则标记该坐标点为吸引点;
计算所述吸引点占所有坐标点的比例,得到吸引点比例。
本方案中,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户好友及好友位置信息;
根据好友位置信息判断用户好友是否位于本地区;
将位于本地区的用户好友标记为本地好友;
计算本地好友占用户好友总数的比例,得到本地好友比例。
本方案中,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,具体包括:
将所述用户特征信息匹配于所述分类条件;
判断是否满足所述分类条件的所有条件,如是,对这部分用户进行本地性类型评估,并得到第一分类结果;
对于不能满足所有条件的剩余部分用户,判断是否满足所述分类条件中的时间条件,如是,则对这部分数据进行本地性类型评估,并得到第二分类结果;
对于不能满足所有条件或时间条件的剩余部分用户,判断是否满足所述分类条件中的至少一种条件,如是,则对这部分数据进行本地性类型评估,并得到第三分类结果;
汇总上述第一分类结果、第二分类结果和第三分类结果,得到预设时间段内本地区的用户分类结果。
本发明第二方面还提出一种基于大数据的物联人口管理系统,所述基于大数据的物联人口管理系统包括:存储器及处理器,所述存储器中包括一种基于大数据的物联人口管理方法程序,所述基于大数据的物联人口管理方法程序被所述处理器执行时实现如下步骤:
通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;
通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;
针对所述有效数据分析提取用户特征信息,所述用户特征信息包括时间特征、空间特征、社交特征;
确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;
汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于大数据的物联人口管理方法程序,所述基于大数据的物联人口管理方法程序被处理器执行时,实现如上述的一种基于大数据的物联人口管理方法的步骤。
本发明以社交媒体用户特征提取为主要内容的用户本地性分析方法能够全面地分析用户与城市的关系,且由社交媒体数据得到的流动人口在时效性上远超人口调查,从而根据不同需求识别多种类型的流动人口,最终将这些流动人口出行的时空特征与城市交通规划联系起来,促进城市的人口管理、交通规划发展。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种基于大数据的物联人口管理方法的流程图;
图2示出了本发明针对源数据信息进行预处理的方法流程图;
图3示出了本发明一种基于大数据的物联人口管理系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于大数据的物联人口管理方法的流程图。
如图1所示,本发明第一方面提出一种基于大数据的物联人口管理方法,所述方法包括:
S102,通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;
S104,通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;
S106,针对所述有效数据分析提取用户特征信息,所述用户特征信息包括时间特征、空间特征、社交特征;
S108,确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;
S110,汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。
例如:当游客的占比较多时,各旅游景区的人流密度将会激增,相应的,有可能出现景区接客量超限、交通堵塞等现象,此时,可以通过限制外来游客入境等管理措施进行人口管理。
根据本发明的实施例,推特数据的收集可以通过网页爬取或API下载两种方式,这两种方式都可以获取大量的记录用户及其在推特平台活动的真实信息。
如图2所示,通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,具体包括:
S202,针对所述源数据信息通过空间过滤器提取坐标信息;
S204,判断所述坐标信息是否落入本地区的边界线内;
S206,剔除未落入本地区的边界线内的部分源数据信息,剩余得到第一筛选数据信息;
S208,针对所述第一筛选数据信息通过频率过滤器提取推特日期和数量;
S210,根据推特日期和数量计算用户推特频率;
S212,判断推特频率是否小于等于第一预设阀值,并剔除大于第一预设阀值的部分第一筛选数据信息,剩余得到第二筛选数据信息;
S214,针对所述第二筛选数据信息,通过账号访问过滤器判断用户的好友信息是否可以访问,并剔除不可访问的部分第二筛选数据信息,剩余得到有效数据。
可以理解,空间过滤器将根据空间范围条件剔除没有定位在本地区内的数据信息,以使得最终得到的有效数据均是关于本地区,从而提升了后续用户的本地性类型预估的准确性。
需要说明的是,经过空间筛选后,使用频率过滤器来剔除具有高发布频率的用户,因为这些用户提供更多无用的内容,这些内容与他们的生活经历无关或者可能并不是被真实的用户操作。一个用户的推特频率是其推文数量除以发布推文的日期计数的结果。优选的,所述第一预设阀值为6,但不限于此。
需要说明的是,某些账户受到推特API的数据收集保护,无法获得关注者的信息,因此无法提取这些用户的社交功能,对于这部分数据无法提取社交特征,应予以剔除处理。优选的,所述好友信息至少包括好友的位置信息。但不限于此。
本发明以社交媒体数据为数据源提取人口信息,但由于用户使用社交媒体的习惯不同,由用户签到得到的用户活动时间和空间信息的稀疏程度与用户签到频率密切相关,因此单凭用户单次签到的时空信息很难准确判断用户当前相对于城市的活动状态。同时,由于社交媒体数据易获取性及其覆盖较长时间跨度的数据源特征,在应用社交媒体数据提取人口信息时应充分利用用户提供的各类信息发掘可能的用户特征,从多维度审视用户社交媒体记录表现出来的用户活动特征。本发明从时间、空间和社交三个主要维度提取用户特征,以达到较为全面地描述社交媒体用户的目的。
根据本发明的实施例,针对所述有效数据分析提取用户特征信息,具体包括:
针对所述有效数据提取时间戳;
统一所有时间戳的时区;
提取每个用户的推特时间信息;
根据所述推特时间信息获取所述用户在本地区的第一个推特时间和最后一个推特时间,计算第一个推特时间与最后一个推特时间之间的时间差,得到所述用户的停留时间;
根据推特时间信息获取用户的两个相邻推特之间的时间间隔;
将超过第二预设阀值的时间间隔设定为长间隔;
根据计算式(停留时间-长间隔)/(长间隔次数+1)得到平均访问时间。
需要说明的是,在时间特征的提取过程中,主要使用了包含时间和日期的社交媒体消息发布时间戳。为了避免本地区由时区引起的时间戳不统一问题,在得到所有时间戳之后,需要统一所有时间戳的时区。
时间特征用于从时间角度描述社交媒体用户。单次社交媒体活动只能作为用户某时刻停留于本地区的证据,但想要准确地描述用户在时间方面与本地区的关系应使用更为综合的指标。本发明将社交媒体用户的时间特征概括为停留时间,最大间隔时间和平均访问时间。
停留时间表示数据集中某一个用户在本地区的第一个和最后一个社交媒体消息发布时间之间的时间差,用来表示用户在本地区的停留时长。但这样计算出的停留时间并不是意味着用户在这个时间段内每天都在本地区停留,还需要关于访问间隔和访问时间的信息。
按照创建日期和时间对社交媒体消息进行排名之后,可以将间隔视为两个相邻消息之间的时间差。长间隔表示一个用户超过第二预设阀值时间没有任何发布行为。优选的,所述第二预设阀值时间为60天,但不限于此。假若用户在超过60天时间内没有发布任何社交媒体消息,则表示在这段时间内该用户不在本地区。通常情况下,长期居民、临时居民和游客的间隔时间较短,因为这些人将连续地停留在本地区中,但访问者由于存在多次访问同一城市且访问时间间隔较大的情况,这类人口可能存在的长间隔。
访问时间表示从抵达到离开的时间。如果一个用户的长间隔少于60天,则表示用户在预设时间段内从未离开过本地区,因此停留时间即为他们的访问时间。由于缺少进一步的信息,第一个发送时间被视为这些用户的到达时间,最后一个发送时间被视为这些用户的离开时间。但是,对于多次访问者而言,每次访问的时间可能是变化的,并且两次访问之间的时间差异可能很大,因此多次访问本地区的停留时间会被长间隔打断。对于这些访问者,第一个发送时间是第一个到达时间,第一个离开时间是在第一个长间隔之前的最后一个发送时间。由此类推,通过成对的到达时间和离开时间将整个停留周期划分为访问时间和长间隔,并且平均访问时间是总访问时间的平均值。
通常情况下,具有不同本地性的人口群体在本地区活动的空间分布应有较大差异。例如,长期居民在本地区的活动范围应大于其他类型的人口,临时居民次之,因为他们有较为充足的时间探索当地更多地点;长期居民的整体活动集中度也应高于其他类型的人口因其活动较为规律,有固定的居住和工作地点,而其他类型人口因停留时间但到访城市的目标多样,可能访问多个地点;对旅游景点的兴趣应该是游客类人口的典型特征,他们的活动在空间分布上应与城市中景点的分布有较多重合。
根据本发明的实施例,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
根据所述坐标数据计算标准差椭圆参数σx、σy;
基于所述标准差椭圆参数并通过计算公式S=πσxσy计算标准差椭圆面积,作为用户的活动范围。
标准差椭圆参数的具体表达式为:
需要说明的是,标准偏差椭圆是一个用于表示点集平均位置和空间分布的图形表示方法。标准差椭圆面积在本发明中用于显示用户活动位置的空间范围。
根据本发明的实施例,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
基于密度的聚类方法对用户活动位置进行聚类,得到核心点;
计算所述核心点占所有坐标点的比例,得到核心点比例。
可以理解,人们可能在一些典型地点附近开展更多活动,例如居民的居住/工作地点。对某一用户来说,在典型位置附近的消息越多意味着该用户的活动越集中,并且消息可以聚类成任何形状。同时用户的典型位置数量是可变的,这一数量取决于用户的日常路线和社交媒体使用习惯,则聚类的数量也是可变的。因此为了查找用户活动的典型位置,本发明使用基于密度的空间聚类方法。基于密度的聚类方法,可以根据邻近度对用户活动位置进行聚类,并且每个聚类簇表示靠近用户的某个典型位置的地理区域。在所有点中核心点的比例即为用户的集中位置比例空间特征,反映了一个用户活动位置的集中度。
根据本发明的实施例,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
计算所述坐标数据中的每个坐标点与预设的景区点之间的距离;
判断所述距离是否小于第三预设阀值;
如果小于,则标记该坐标点为吸引点;
计算所述吸引点占所有坐标点的比例,得到吸引点比例。
为了更准确地识别游客,本发明使用本地区中的旅游景点的位置作为基础位置,并且将任何旅游景点附近的推特发送位置标记为“吸引点”。然而,大多数旅游景点是大型场地,游客可能在旅游景点附近或内部的任何位置发送社交媒体消息。为了确定一个发送点是否与旅游景点有关,需要计算从发送点到每个景区点定位位置的距离,并选择第三预设阀值来筛选临近景区点的坐标点。优选的,所述第三预设阀值为500米,但不限于此。吸引点占坐标点总数的比例即为吸引点比例,这一特征描述了社交媒体用户对本地区内旅游景点的兴趣。
需要说明的是,以上计算得到的标准差椭圆面积、核心点比例、吸引点比例均属于用户的空间特征。
根据本发明的实施例,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户好友及好友位置信息;
根据好友位置信息判断用户好友是否位于本地区;
将位于本地区的用户好友标记为本地好友;
计算本地好友占用户好友总数的比例,得到本地好友比例。
需要说明的是,社交特征表示社交媒体用户与当地社会之间的联系。社交网络中的本地好友的比例表示用户和当地人的联系。
根据本发明的实施例,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,具体包括:
将所述用户特征信息匹配于所述分类条件;
判断是否满足所述分类条件的所有条件,如是,对这部分用户进行本地性类型评估,并得到第一分类结果;
对于不能满足所有条件的剩余部分用户,判断是否满足所述分类条件中的时间条件,如是,则对这部分数据进行本地性类型评估,并得到第二分类结果;
对于不能满足所有条件或时间条件的剩余部分用户,判断是否满足所述分类条件中的至少一种条件,如是,则对这部分数据进行本地性类型评估,并得到第三分类结果;
汇总上述第一分类结果、第二分类结果和第三分类结果,得到预设时间段内本地区的用户分类结果。
具体的,本地性类型评估的分类条件如下表1所示。
表1:
有些特征对于某个特定的本地性类型无意义,则在本地性评估中不考虑这些特征与对应本地性类型的匹配关系。对于长期居民、临时居民、单次访问者和游客,其平均访问时间等于停留时间,则无需重复此信息。只访问过本地区一次的访问者和游客,在本地区停留的时间很短,因此不需要识别最大间隔时间。对于游客来说,旅游景点相关的吸引点比例可以提供比另外两个空间特征更可靠的信息,同时其余两个空间特征与本地区中的旅游景点分布密切相关,这意味着旅游景点的比例足以代表游客类用户的空间特征,则对于这类人口不考虑其他两个空间特征。
需要说明的是,当使用这些特征评估社交媒体用户的本地性类型时,不能期望所有用户同时满足某种本地性类型的所有条件,特别是对于可靠性较差的条件,而且由于部分条件的重叠,用户很可能满足某种类型条件的同时也满足其他类型的条件,而满足多种本地性类型中相同条件的用户不能被认定为任何一种本地性类型中的用户。显然,满足一种本地性类型所有条件的用户其评估准确性高于仅满足该本地性类型中一个或两个条件的用户。
图3示出了本发明一种基于大数据的物联人口管理系统的框图。
如图3所示,本发明第二方面还提出一种基于大数据的物联人口管理系统3,所述基于大数据的物联人口管理系统3包括:存储器31及处理器32,所述存储器中包括一种基于大数据的物联人口管理方法程序,所述基于大数据的物联人口管理方法程序被所述处理器执行时实现如下步骤:
通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;
通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;
针对所述有效数据分析提取用户特征信息,所述用户特征信息包括时间特征、空间特征、社交特征;
确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;
汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。
需要说明的是,本发明的系统可以在PC、手机、PAD等终端设备中进行操作。
需要说明的是,所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
进一步的,通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,具体包括:
针对所述源数据信息通过空间过滤器提取坐标信息;
判断所述坐标信息是否落入本地区的边界线内;
剔除未落入本地区的边界线内的部分源数据信息,剩余得到第一筛选数据信息;
针对所述第一筛选数据信息通过频率过滤器提取推特日期和数量;
根据推特日期和数量计算用户推特频率;
判断推特频率是否小于等于第一预设阀值,并剔除大于第一预设阀值的部分第一筛选数据信息,剩余得到第二筛选数据信息;
针对所述第二筛选数据信息,通过账号访问过滤器判断用户的好友信息是否可以访问,并剔除不可访问的部分第二筛选数据信息,剩余得到有效数据。
进一步的,针对所述有效数据分析提取用户特征信息,具体包括:
针对所述有效数据提取时间戳;
统一所有时间戳的时区;
提取每个用户的推特时间信息;
根据所述推特时间信息获取所述用户在本地区的第一个推特时间和最后一个推特时间,计算第一个推特时间与最后一个推特时间之间的时间差,得到所述用户的停留时间;
根据推特时间信息获取用户的两个相邻推特之间的时间间隔;
将超过第二预设阀值的时间间隔设定为长间隔;
根据计算式(停留时间-长间隔)/(长间隔次数+1)得到平均访问时间。
进一步的,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
根据所述坐标数据计算标准差椭圆参数σx、σy;
基于所述标准差椭圆参数并通过计算公式S=πσxσy计算标准差椭圆面积,作为用户的活动范围。
进一步的,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
基于密度的聚类方法对用户活动位置进行聚类,得到核心点;
计算所述核心点占所有坐标点的比例,得到核心点比例。
进一步的,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
计算所述坐标数据中的每个坐标点与预设的景区点之间的距离;
判断所述距离是否小于第三预设阀值;
如果小于,则标记该坐标点为吸引点;
计算所述吸引点占所有坐标点的比例,得到吸引点比例。
进一步的,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户好友及好友位置信息;
根据好友位置信息判断用户好友是否位于本地区;
将位于本地区的用户好友标记为本地好友;
计算本地好友占用户好友总数的比例,得到本地好友比例。
进一步的,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,具体包括:
将所述用户特征信息匹配于所述分类条件;
判断是否满足所述分类条件的所有条件,如是,对这部分用户进行本地性类型评估,并得到第一分类结果;
对于不能满足所有条件的剩余部分用户,判断是否满足所述分类条件中的时间条件,如是,则对这部分数据进行本地性类型评估,并得到第二分类结果;
对于不能满足所有条件或时间条件的剩余部分用户,判断是否满足所述分类条件中的至少一种条件,如是,则对这部分数据进行本地性类型评估,并得到第三分类结果;
汇总上述第一分类结果、第二分类结果和第三分类结果,得到预设时间段内本地区的用户分类结果。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于大数据的物联人口管理方法程序,所述基于大数据的物联人口管理方法程序被处理器执行时,实现如上述的一种基于大数据的物联人口管理方法的步骤。
本发明以社交媒体用户特征提取为主要内容的用户本地性分析方法能够全面地分析用户与城市的关系,且由社交媒体数据得到的流动人口在时效性上远超人口调查,从而根据不同需求识别多种类型的流动人口,最终将这些流动人口出行的时空特征与城市交通规划联系起来,促进城市的人口管理、交通规划发展。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于大数据的物联人口管理方法,其特征在于,所述方法包括:
通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;
通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;
针对所述有效数据分析提取用户特征信息,所述用户特征信息包括时间特征、空间特征、社交特征;
确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;
汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。
2.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,具体包括:
针对所述源数据信息通过空间过滤器提取坐标信息;
判断所述坐标信息是否落入本地区的边界线内;
剔除未落入本地区的边界线内的部分源数据信息,剩余得到第一筛选数据信息;
针对所述第一筛选数据信息通过频率过滤器提取推特日期和数量;
根据推特日期和数量计算用户推特频率;
判断推特频率是否小于等于第一预设阀值,并剔除大于第一预设阀值的部分第一筛选数据信息,剩余得到第二筛选数据信息;
针对所述第二筛选数据信息,通过账号访问过滤器判断用户的好友信息是否可以访问,并剔除不可访问的部分第二筛选数据信息,剩余得到有效数据。
3.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,针对所述有效数据分析提取用户特征信息,具体包括:
针对所述有效数据提取时间戳;
统一所有时间戳的时区;
提取每个用户的推特时间信息;
根据所述推特时间信息获取所述用户在本地区的第一个推特时间和最后一个推特时间,计算第一个推特时间与最后一个推特时间之间的时间差,得到所述用户的停留时间;
根据推特时间信息获取用户的两个相邻推特之间的时间间隔;
将超过第二预设阀值的时间间隔设定为长间隔;
根据计算式(停留时间-长间隔)/(长间隔次数+1)得到平均访问时间。
4.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
根据所述坐标数据计算标准差椭圆参数σx、σy;
基于所述标准差椭圆参数并通过计算公式S=πσxσy计算标准差椭圆面积,作为用户的活动范围。
5.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
基于密度的聚类方法对用户活动位置进行聚类,得到核心点;
计算所述核心点占所有坐标点的比例,得到核心点比例。
6.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户推特的坐标数据;
计算所述坐标数据中的每个坐标点与预设的景区点之间的距离;
判断所述距离是否小于第三预设阀值;
如果小于,则标记该坐标点为吸引点;
计算所述吸引点占所有坐标点的比例,得到吸引点比例。
7.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,针对所述有效数据分析提取用户特征信息,具体还包括:
根据所述有效数据提取用户好友及好友位置信息;
根据好友位置信息判断用户好友是否位于本地区;
将位于本地区的用户好友标记为本地好友;
计算本地好友占用户好友总数的比例,得到本地好友比例。
8.根据权利要求1所述的一种基于大数据的物联人口管理方法,其特征在于,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,具体包括:
将所述用户特征信息匹配于所述分类条件;
判断是否满足所述分类条件的所有条件,如是,对这部分用户进行本地性类型评估,并得到第一分类结果;
对于不能满足所有条件的剩余部分用户,判断是否满足所述分类条件中的时间条件,如是,则对这部分数据进行本地性类型评估,并得到第二分类结果;
对于不能满足所有条件或时间条件的剩余部分用户,判断是否满足所述分类条件中的至少一种条件,如是,则对这部分数据进行本地性类型评估,并得到第三分类结果;
汇总上述第一分类结果、第二分类结果和第三分类结果,得到预设时间段内本地区的用户分类结果。
9.一种基于大数据的物联人口管理系统,其特征在于,所述基于大数据的物联人口管理系统包括:存储器及处理器,所述存储器中包括一种基于大数据的物联人口管理方法程序,所述基于大数据的物联人口管理方法程序被所述处理器执行时实现如下步骤:
通过应用程序编程接口获取预设时间段内记录用户及其在推特平台活动的源数据信息,并形成数据集;
通过空间过滤器、频率过滤器、账号访问过滤器对所述数据集中的源数据信息进行过滤筛选处理,得到有效数据;
针对所述有效数据分析提取用户特征信息,所述用户特征信息包括时间特征、空间特征、社交特征;
确定本地性类型的分类条件,将所述用户特征信息匹配于所述分类条件,评估得到用户的本地性类型,所述本地性类型包括长期居民、临时居民、访问者和游客;
汇总所有用户的本地性类型并统计分析各本地性类型的占比情况,根据各本地性类型的占比情况选取对应的物联人口管理措施,并进行人口管理。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于大数据的物联人口管理方法程序,所述基于大数据的物联人口管理方法程序被处理器执行时,实现如权利要求1至8中任一项所述的一种基于大数据的物联人口管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911399198.4A CN111242821A (zh) | 2019-12-30 | 2019-12-30 | 一种基于大数据的物联人口管理方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911399198.4A CN111242821A (zh) | 2019-12-30 | 2019-12-30 | 一种基于大数据的物联人口管理方法、系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111242821A true CN111242821A (zh) | 2020-06-05 |
Family
ID=70874091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911399198.4A Pending CN111242821A (zh) | 2019-12-30 | 2019-12-30 | 一种基于大数据的物联人口管理方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111242821A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391853A (zh) * | 2014-09-25 | 2015-03-04 | 深圳大学 | Poi推荐方法、poi信息处理方法及服务器 |
CN109784321A (zh) * | 2019-03-28 | 2019-05-21 | 北京深醒科技有限公司 | 一种基于人脸识别的实有人口统计分类方法和装置 |
CN109992605A (zh) * | 2019-03-14 | 2019-07-09 | 上海同济城市规划设计研究院有限公司 | 基于手机信令数据的人口识别方法及系统 |
-
2019
- 2019-12-30 CN CN201911399198.4A patent/CN111242821A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391853A (zh) * | 2014-09-25 | 2015-03-04 | 深圳大学 | Poi推荐方法、poi信息处理方法及服务器 |
CN109992605A (zh) * | 2019-03-14 | 2019-07-09 | 上海同济城市规划设计研究院有限公司 | 基于手机信令数据的人口识别方法及系统 |
CN109784321A (zh) * | 2019-03-28 | 2019-05-21 | 北京深醒科技有限公司 | 一种基于人脸识别的实有人口统计分类方法和装置 |
Non-Patent Citations (3)
Title |
---|
F.O.OSTERMANN ET AL.: "EXTRACTING AND COMPARING PLACES USING GEO-SOCIAL MEDIA", 《ISPRS ANNALS OF THE PHOTOGRAMMETRY, REMOTE SENSING AND SPATIAL INFORMATION SCIENCES,》 * |
ROB GRACE ET AL.: "Social Triangulation: A new method to identify local citizens using social media and their local information curation behaviors", 《PROCEEDINGS OF THE 14TH ISCRAM CONFERENCE》 * |
周艳 等: "基于社交媒体数据的城市人群分类与活动特征分析", 《地球信息科学》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697214B (zh) | 一种旅游数据分析系统及方法 | |
Zhou et al. | Crowdsourcing functions of the living city from Twitter and Foursquare data | |
Huang et al. | Predicting human mobility with activity changes | |
Herfort et al. | A spatio-temporal analysis investigating completeness and inequalities of global urban building data in OpenStreetMap | |
Xu et al. | Tourism geography through the lens of time use: A computational framework using fine-grained mobile phone data | |
Gong et al. | Crowd characterization for crowd management using social media data in city events | |
Liang et al. | Temporal and spatial assessment of urban park visits from multiple social media data sets: A case study of Shanghai, China | |
CN111723959A (zh) | 区域的划分方法、装置、存储介质及电子装置 | |
CN111178721A (zh) | 一种智慧旅游系统 | |
CN115034524A (zh) | 基于手机信令的工作居住人口预测方法、系统和存储介质 | |
Lewis et al. | Using mobile technology to track wine tourists | |
CN113010578A (zh) | 社区数据分析方法、装置、社区智能交互平台及存储介质 | |
Gupta et al. | Twitter usage across industry: A spatiotemporal analysis | |
CN117217872A (zh) | 一种基于游客画像智能生成景区游玩方案的方法 | |
CN109978264B (zh) | 一种基于时空信息的城市人口分布预测方法 | |
CN115866547A (zh) | 基于信令数据的固定区域游客统计方法、系统和存储介质 | |
CN114219379A (zh) | 一种适用于社区服务圈的资源配套评估方法、及系统 | |
Hong | Spatial analysis of location-based social networks in seoul, korea | |
Garrido-Valenzuela et al. | Where are the people? Counting people in millions of street-level images to explore associations between people’s urban density and urban characteristics | |
CN110895543B (zh) | 人口迁徙跟踪展示方法、装置及存储介质 | |
Birkin et al. | An examination of personal mobility patterns in space and time using twitter | |
Zhou et al. | Big data for intrametropolitan human movement studies A case study of bus commuters based on smart card data | |
Li et al. | Exploring the relationships between the non-work trip frequency and accessibility based on mobile phone data | |
CN111242821A (zh) | 一种基于大数据的物联人口管理方法、系统和存储介质 | |
Yuan et al. | Modeling activity spaces using big geo‐data: Progress and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |
|
RJ01 | Rejection of invention patent application after publication |